Кирилл "msado" Готовцев ([info]msado) wrote,
@ 2009-04-29 18:06:00
Previous Entry  Add to memories!  Tell a Friend  Next Entry
заметки про альтернативный поиск
на киборифе мы в частности делали докладик про то, как может быть устроен альтернативный поиск. на примере собственной разработки как обычно. как любой человек, выступащий регулярно, я, как понятно, сидел на месте и подпрыгивал , мол вот тут я сказал бы по-другому, вот тут подал бы иначе, это обычное дело.

Вот есть немного времени, расскажу, что собственно наваялось, глядишь кому интерено будет.

Вообще говоря, делали мы вовсе не поиск. Делали мы другое и то что делали в общем имеет степень готовности существенно более высокую чем поиск. Делали ту самую пресловутую неонку из стругацких. Пониматель.

Как оно устроено. У нас есть технология, которая преобразует википедию в таксонометрию. Если по-русски - в иерархические структуры понятий. Нет, это не тезариусы, это таксонометрии. Таксонометрии создают некоторую "матрицу понятий". Причем одно понятие, это упаси бог не слово, да?

Дальше, к данной матрице понятий мы делаем следующий механизм, который умеет соотносить текст, полученный им на входе и непосредственно матрицу, и выдать ворох гипотез, в какое место человеческих знаний можно отнести этот текст. Потом эти гипотезы проверяются на взаимоподтверждение и на основании этого реультата выделяются лидеры, и которых мы строим шкалу отношения.

На сегодня мы опираемся на матрицу, составленную из 32 тысяч реперных точек, можно их навать условно категориями и подкатегориями.

Как это работает на практике?

На практике вы можете загрузить в систему некоторый текст и система скажет вам, что это текст про медицину, и немного про химию. Причем это популярный текст про медицину и научный текст про химию. Так оно оценит газетную статью про новый препарат в котором будет приведена обширная цитата из документации по химпроизводству этого препарата. Так же система может на выхде подсветить какие части документа про медицину, какие про химию, а какие ни про что, то бишь треп и подводка.

Или

Вы можете загрузить в систему гору прессы и попросить разложить ее по странам. Система будет относить к России или там к Франции тексты, не имеющие в своем составе указания на страну, но имеющие указания на географическую привязку, относящуюся к стране. То бишь упоминание краснодарска или Голодрищенска достаточно, чтобы новость была отнесена к Российским.

Там есть еще всякие занятные вещи, типа "вот тебе текст, найди мне еще про это же" и всякое такое.

Довольно любопытные результаты система показывает на массиве текстов, которые невозможно в подавляющем большинстве отнести к ярковыраженной тематике. Это, как понятно, блоги, поток выдачи ЖЖ - это было практически первое, чем мы озаботились. 92% - это тексты условно не о чем, вернее из них сложно выделить классифицируемую составляющую. Однако и тут нам нашлось интересное, пусть в жж-шных постах мало конкретики, зато у разных групп блоггеров есть устойчивый язык. За несколько дней мы научили систему различать эмо, готов, падонкав и еще кого-то. Много не возились, в основном проверяли сможем ли в принципе. Смогли.

Поехали дальше.

Поразмыслив на тему написанного мы осознали, что по сути сделали до кучи и поисковую систему, но систему работающую в существенно другом режиме, чем существующие.

Систему, которая ищет по понятиям. :-)

Как оно устроено в чистом виде?

Берем запрос пользователя и ищем его в матрице. После того как оно найдено N раз в матрице, выдаем листинг документов, отнесенных к этому месту матрицы + дополняем его навигацией по матрице-же.

Это конечно же существенно отличается от того, чтобы взять слово и искать в индексе само слово + тезариус к нему. Особенно когда в запросе несколько слов. И тут надо сделать два бодрых пассажа в сторону.

1. То что мы сделали НЕ СЕМАНТИКА. Более того, то что мы сделали демонстрирует, что семантика как таковая - тупиковая ветка развития смыслоанализа. Пример Ашманова про тезариус как раз подчеркивает, что пока мы остаемся в поиске в пространстве слов, а не смыслов, то любое усложнение набора уводит вас в глубокую жопу. Мы не работаем со словами, мы работаем со смыслами и, некоторым образом, со структурой знаний. Ага, они выражены в словах. Мы в курсе.

Это в частности объясняет, почему в анализе не используется частотный анализ. Нам не важно, сколько раз будет сказано слово "халва". Хоть один, хоть сто, текст от этого не станет более сладким. А вот упоминание соотнесенных с халвой слов и понятий, например про еду, про восток, про арахис, про вкус и проч - будут делать текст более "халвосообразным".

2. Основной фокус того что мы сделали лежит вне идеи "задай вопрос, получи ответ". Ну то есть эта идея лишь малая часть того, о чем мы думали. Мы же думали в первую очередь о ПРАКТИКЕ использования поисковой системы. А сейчас практика такова, что человек ткнувшийся в поиск первый раз и не получивший сразу необходимое оказывается "выброшен" из системы. Он может смотреть на выдачу и изобретать, как бы видоизменить запрос, чтобы получить что-то более подходящее в результатах, он пробует, снова и снова, а система в целом рассматривает его каждый новый запрос как новый.

Нет никакого шанса, что если вы спросите наш поиск чтото типа "кошка" - и он выдаст вам чудом именно то, что вы хотели получить. Потому что система - не телепат.

НО

Зато рядом с двумя миллионами найденных документов у вас будет висеть классификатор по которому вы сможете сразу уточнить, что под кошкой имеете ввиду животное, а не специяльный крюк, а потом оно вам предложит определиться будем мы читать про кошачих всякую зоологичекую хуйню, что-то там кошководческое или про кошек вообще тексты. + вероятнее всего предложит кассификатор пород.

Да, чем больше слов будет в запросе, тем лучше будет выдача.

НО

Да, в чистом виде это не позволит вам, например, найти конкретный документ в котором как вы точно помните было написано "я напишу тебе письмо, простое, но со смыслом". То есть поиск по понятиям, вообще говоря, не тождественен поиску по словам. Он не то чтобы точно лучше, он немного про другое.

Вот как-то так.

Что можно сделать из этой штуки?

Ну сам поиск, наверное мы его постепенно и сделаем, но это конечно существенно много работы, в том виде, как оно есть сейчас оно недотягивает.
Потом всякие автоматические классификаторы. Если у вас есть вагон контента, то мы можем его автоматически разкладывать на туеву хучу категорий. Можно своих, а можно приводить к вашему рубрикатору. Особенно занятно должно былть для СМИ, мы например различаем происшествие вообще, ДТП и ДТП со смертельным исходом. Это по глубине классификации, чтобы вы понимали. Библиотеки можно проструктурировать итп.
Потом можно делать сильно нелинейные вещи, которые изначально были за границами наших интересов. Например динамические семантические поля по тематикам. Да, динамические. Да, по 32 тысячам уже определенных тематик. Да, автоматом ;-). Наверное дальше будет больше, потому что инструменту в целом пофиг откуда жрать таксономии, лишь бы была структурно описана площадка анализа.

Ну и любимый вопрос всех-превсех. А где можно поюзать и посмотреть? Ответ простой: всем-вообще-всем - нигде. Ребята, оно живет на одном сервачке, на нем же строит матрицированный индекс, под нагрузку сотен любопытных экспериментаторов оно не расчитано. Если у вас есть как-то структурированный интерес к системе и вы можете объяснить зачем оно вам - напишите, мы дадим доступ. Остальным придется ждать, пока мы слегка заработаем денег на то, чтобы сделать из этого публичный сервис. пока же оно способно обслуживать только b-t-b сектор. Ну или у нас купят продукт на базе технологии. Итп.


Page 1 of 2
<<[1] [2] >>

(127 comments) - (Post a new comment)


[info]blacklion
2009-04-29 02:24 pm UTC (link)
1. То что мы сделали НЕ СЕМАНТИКА. Более того, то что мы сделали демонстрирует, что семантика как таковая - тупиковая ветка развития смыслоанализа. Пример Ашманова про тезариус как раз подчеркивает, что пока мы остаемся в поиске в пространстве слов, а не смыслов
Я вижу тут противоречие. Семантика же и есть — про смыслы а не слова, нет? Т.е. “семантика” и есть “смыслоанализ” а не ветвь его. или я что-то путаю?

(Reply to this) (Thread)


[info]msado
2009-04-29 02:48 pm UTC (link)
вопрос хороший. в основе моего понимания понятия "семантика"лежит определение семантики, как системы смыслы слов и кратких конструкций, а не работы с системами знаний и, что более важно - онтологической работы.

то есть мы не языковеды, мы работаем с онтологиями и понятиями, а не со словами. Ну да, со словами, как способами фиксации понятий итп, но методы работы относятся не с кловам, а понятиям.

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]blacklion, 2009-04-29 02:50 pm UTC (Expand)
(no subject) - [info]msado, 2009-04-29 02:54 pm UTC (Expand)

[info]blacklion
2009-04-29 02:27 pm UTC (link)
Ну или у нас купят продукт на базе технологии. Итп.
а вообще, во всём мире такие вещи публикуют в виде статей в научных журналах :)

(Reply to this) (Thread)(Expand)


[info]spoletckiy
2009-04-29 02:46 pm UTC (link)
кстати да))))

(Reply to this) (Parent)

(no subject) - [info]msado, 2009-04-29 02:50 pm UTC (Expand)
(no subject) - [info]blacklion, 2009-04-29 02:52 pm UTC (Expand)
(no subject) - [info]msado, 2009-04-29 03:09 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-29 05:54 pm UTC (Expand)
(no subject) - [info]blacklion, 2009-04-29 05:56 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-29 07:34 pm UTC (Expand)

[info]scruj
2009-04-29 02:48 pm UTC (link)
Будет ли оно работать с английским?
У меня валяется в backlog идея, которая, как мне кажется, способна монетизироваться, и описання технология тянет на недостающее звено.

Скажу сразу, денег у меня на эту идею особо нет, но вполне можно поискать инвестора.

Будет ли сложно, если я кину вам несколько десяткой статей, а ваш чудо движок их проклассифицирует? (ну и потом это вставляем в презентацию)

(Reply to this) (Thread)(Expand)


[info]msado
2009-04-29 02:53 pm UTC (link)
английский частично сделан, но пока возились с русским. но вообще да, оно будет работать с английским и вообще с любым языком, по которому есть откуда вводить матрицу понятий.

да, присылай, сделаем
kirill ### maniaco.ru

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]scruj, 2009-04-29 03:00 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-29 05:39 pm UTC (Expand)

[info]green343
2009-04-29 02:50 pm UTC (link)
Судя по описанию, убойная штука получилась.

Был опыт примитивной классификации контента, когда на входе текст - на выходе рубрика яки. Чисто под закупку ссылок. Но это - как репортаж с другой планеты.

Можете, пожалуйста, ;-) опубликовать маленькую веточку классификации, например, что нибудь из обуви?

(Reply to this) (Thread)(Expand)


[info]msado
2009-04-29 02:56 pm UTC (link)
я попрошу посмотреть что есть уже сложенное

но при жтом надо понимать, что профильные таксономии очень легко дорабатываются, когда есть описанная предметная область. то есть достаточно всосать в систему несколько отраслевых справочников и классификаторов и вы получаете порядки точности в дереве

(Reply to this) (Parent)

(no subject) - [info]fox_1, 2009-04-29 05:02 pm UTC (Expand)
(no subject) - [info]green343, 2009-04-29 07:22 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-30 07:34 pm UTC (Expand)
(no subject) - [info]green343, 2009-04-30 07:57 pm UTC (Expand)

[info]yaker
2009-04-29 03:19 pm UTC (link)
Скажи, пожалуйста, а вот нечеткая математика aka fuzzy logic у вас там как-нибудь задействована?

Если нет, рекомендую поковырять в эту сторону. И даже могу попробовать вспомнить основы — я на этой штуке диплом писал в свое время.

Основная прелесть этой штуковины в том, что математика получается предельно простой, но при этом весьма эффективной (хотя иногда результат и повторяет, по сути, классические методы). В частности, в моем послужном списке выделение полезной информации из сигнала в телефонии при отношении сигнал/шум 12 дБ в пользу шума (!), а также алгоритм реконструкции изображений в рентгеновской томографии, который по качеству близок к классическому (с вооот такими уравнениями), но вычислений требует на порядок меньше.

(Reply to this) (Thread)(Expand)


[info]msado
2009-04-29 03:34 pm UTC (link)
насколько я знаю - да, но щас прийдет Валера Бардин и ответит тебе как на самом деле

(Reply to this) (Parent)

(no subject) - [info]fox_1, 2009-04-29 04:13 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-29 04:19 pm UTC (Expand)
(no subject) - [info]yaker, 2009-04-29 04:37 pm UTC (Expand)
(no subject) - [info]zabolotnov, 2009-04-30 10:05 am UTC (Expand)
(no subject) - [info]yaker, 2009-04-30 05:38 pm UTC (Expand)
Хочется решить реальную задачу
[info]schegloff
2009-04-29 03:31 pm UTC (link)
Автоматическую классификацию приговоров в базе Мемориала. Подробности здесь. Надеюсь, Ваша система окажется достаточно мощной, чтобы с ней справиться.

(Reply to this) (Thread)

Re: Хочется решить реальную задачу
[info]msado
2009-04-29 03:36 pm UTC (link)
структура приговоров есть?

(Reply to this) (Parent)(Thread)(Expand)

Re: Хочется решить реальную задачу - [info]schegloff, 2009-04-29 03:40 pm UTC (Expand)
Re: Хочется решить реальную задачу - [info]msado, 2009-04-29 03:52 pm UTC (Expand)
Посмотрели? - [info]schegloff, 2009-04-30 10:04 am UTC (Expand)
Re: Хочется решить реальную задачу - [info]setget, 2009-04-29 10:24 pm UTC (Expand)
Re: Хочется решить реальную задачу - [info]fox_1, 2009-04-30 08:16 pm UTC (Expand)
Re: Хочется решить реальную задачу - [info]sigurna, 2009-05-07 11:32 am UTC (Expand)

[info]nickalex79
2009-04-29 03:36 pm UTC (link)
1. Это конечно все очень круто, но вы знаете, что вы не пионеры? В принципе в этом направлении так или иначе экспериментировали все серьезные поисковые системы. Соглашусь конечно, что точно такого решения как у вас - я пока наверное не видел.
2. Основная проблема всего этого, которую я по своему опыту вижу - то, что людям в действительности не нужен поиск по понятиям. :( 90% людей хочет банально найти документ, содержащий нужное слово. Впрочем надеюсь, что узкую нишу клиентов, которым нужно именно это, вам удастся найти.
3. Я по ссылке от товарища пришел. "Вы" - это что за компания? :)

(Reply to this) (Thread)(Expand)


[info]msado
2009-04-29 03:54 pm UTC (link)
1. делать и сделать - это разные вещи. Патенты гугла и IBM мы изучали, они про другое.
2. есть некоторая естественная история развития поиска. сначала был поиск по буквосочетаниям. потом появилась морфология. потом стали экспериментировать с синонимией. потом вот понятийный поиск.

да будем мы внутри делать и словарный поиск, будем :-)

3. Хороший вопрос. http://www.dz.ru и http://www.relteam.ru/

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]nickalex79, 2009-04-29 04:18 pm UTC (Expand)
(no subject) - [info]setget, 2009-04-29 10:40 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-29 04:06 pm UTC (Expand)
(no subject) - [info]nickalex79, 2009-04-29 04:27 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-29 05:09 pm UTC (Expand)
(no subject) - [info]sigurna, 2009-05-07 11:39 am UTC (Expand)

[info]blokk
2009-04-29 04:35 pm UTC (link)
Интересная вещь в том смысле, что вот я, как руководитель аналитического отдела, постоянно сталкиваюсь с похожими, как вы описываете, проблемами при обработке больших массивов данных публикаций в существующих мониторинговых системах (Factiva, Интегрум, Медиалогия и т.д.). Вот бы вашу разработку интегрировать (продать т.е.) кому-нибудь из них?! Круто было бы загнать текст и попросить найти похожие "семантически" в вашем понимании, а то порой составление запроса для поиска занимает больше времение чем, собственно работа.

(Reply to this) (Thread)


[info]fox_1
2009-04-29 05:16 pm UTC (link)
Ну так я и работал директором по развитию НЭБ, потом Интегрума, в частности, из этого опыта и появился этот проект.

(Reply to this) (Parent)

(Deleted post)
(no subject) - [info]fox_1, 2009-04-30 07:54 pm UTC (Expand)
(no subject) - [info]dm_korshunoff, 2009-05-08 09:32 am UTC (Expand)

[info]i_v_a_n_o_f_f
2009-04-29 04:45 pm UTC (link)
так ты хату то в тот раз сдал?

(Reply to this) (Thread)


[info]msado
2009-04-29 07:43 pm UTC (link)
отож

(Reply to this) (Parent)


[info]boo.openbdsm.org
2009-04-29 05:04 pm UTC (link)
онтологии?

(Reply to this) (Thread)


[info]msado
2009-04-29 07:41 pm UTC (link)
ну да. а что?

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]boo.openbdsm.org, 2009-04-29 07:48 pm UTC (Expand)
(no subject) - [info]msado, 2009-04-29 08:16 pm UTC (Expand)
Тезаурус
[info]alexeykb
2009-04-29 05:36 pm UTC (link)
У Hummingbird или Inxight были подобные решения с использованием тезаурусов. Количество тезауросов, которое предлагалось совершенно по разным тематикам и направлением было очень большим и стоили они денег. К сожадению точного описания сервиса найти сейчас не могу, но работает примерно так, как Вы описали. Воозможно, что зарубежный опыт может помочь откорректировать Ваши планы.

(Reply to this) (Thread)

Re: Тезаурус
[info]msado
2009-04-29 07:43 pm UTC (link)
либо подобные, либо с тезаурусом. несовместимые утверждения

(Reply to this) (Parent)


[info]serj_n
2009-04-29 05:41 pm UTC (link)
Пиздец какой-то, прости Господи. Я понимаю, что вы "не языковеды", но столько ошибок даже распоследний математик не позволяет себе делать.

(Reply to this) (Thread)(Expand)


[info]tietokone
2009-04-29 06:11 pm UTC (link)
+1. Я сам программист и подобными вещами занимаюсь. Плюс лингвист доморощенный.

(Reply to this) (Parent)

(no subject) - [info]msado, 2009-04-29 07:42 pm UTC (Expand)

[info]b_e_s
2009-04-29 08:46 pm UTC (link)
http://www.autonomy.com/content/Functionality/idol-functionality-categorization/index.en.html

Вроде этого?

(Reply to this) (Thread)


[info]fox_1
2009-04-30 12:56 am UTC (link)
Вроде нет :))
Программ для изготовления таксономий просто море, а статей и патентов еще больше. Вещь полезная...
Поиск "по понятиям" таксономии использует, но не предлагает пользователю их сначала построить.

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]ponomarevmv, 2009-04-30 12:06 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-30 12:27 pm UTC (Expand)

[info]nm_work
2009-04-29 09:19 pm UTC (link)
Отличная тема :) я когда-то занимался автоматической классификацией текстов.

Застрял на том, что на более не менее длинных текстах (больше 2-3 килобайт) контекст полностью теряется :)

Вы его по рейтеровской базе прогоняли/тестировали? Какой процент правильных срабатываний?

(Reply to this) (Thread)


[info]fox_1
2009-04-29 10:56 pm UTC (link)
Зачем? У нас своя библиотека СМИ на 45 млн. статей.

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]karpolan, 2009-04-30 01:44 am UTC (Expand)
(no subject) - [info]setget, 2009-04-30 10:11 am UTC (Expand)
(no subject) - [info]karpolan, 2009-04-30 04:39 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-30 08:49 pm UTC (Expand)
(no subject) - [info]nm_work, 2009-04-30 02:10 am UTC (Expand)
(no subject) - [info]fox_1, 2009-04-30 12:06 pm UTC (Expand)
(no subject) - [info]setget, 2009-04-30 09:57 am UTC (Expand)
(no subject) - [info]fox_1, 2009-04-30 12:32 pm UTC (Expand)
(no subject) - [info]silpol, 2009-05-01 11:35 am UTC (Expand)

[info]studiomade
2009-04-29 09:23 pm UTC (link)
В одном месте таксономии, в другом -- таксонометрии. Это ошибка в наборе или действительно разные понятия (про таксонометрию впервые читаю)?

(Reply to this)


[info]afan
2009-04-29 09:24 pm UTC (link)
> Что можно сделать из этой штуки?

Прикрутить через API к Evernote и прописывать к заметкам некие автоматические метки для упрощения последующего поиска? Было бы дюже любопытно попробовать.

(Reply to this) (Thread)(Expand)


[info]afan
2009-04-29 09:28 pm UTC (link)
Собственно, посмотреть на вашем сервачке также было бы интересно. Можете организовать?

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]fox_1, 2009-04-30 01:18 am UTC (Expand)
(no subject) - [info]afan, 2009-04-30 07:40 am UTC (Expand)
(no subject) - [info]msado, 2009-04-30 05:32 am UTC (Expand)
(no subject) - [info]msado, 2009-04-30 05:31 am UTC (Expand)

[info]setget
2009-04-29 09:56 pm UTC (link)
> Более того, то что мы сделали демонстрирует, что семантика как таковая - тупиковая
> ветка развития смыслоанализа.

Каким образом демонстрирует?

Вообще, семантика не может быть тупиковой веткой смыслоанализа, т. к. любой анализ смысла - это и есть семантика. Семантика и "смыслоанализ" - синонимы.

> Пример Ашманова про тезариус.

А что за пример про тезаурус? Приведите, если можно, для тех, кто не был на презентации.

> рядом с двумя миллионами найденных документов у вас будет висеть классификатор по
> которому вы сможете сразу уточнить, что под кошкой имеете ввиду животное

Примерно так, как сделано на Searchme.com?

> динамические семантические поля по тематикам

Это что за зверь? В чем заключается "динамичность" таких полей?

(Reply to this) (Thread)


[info]msado
2009-04-30 05:36 am UTC (link)
про семантику я выше уже писал. это может быть связано с моим "неправильным" пониманием семантики, как дисциплины понимания лексем, в то время, как мы работаем на уровне онтологизаций, и в этом смысле это скорее герменефтика, а не семантика.

но сделайте скидку на то, что я могу понимать понятие неверно :-)

>

пример восстановлю по записи, чтобы не наврать

>

динамичность в том, что они рассчитываются по динамично изменяющейся базе, а значит в некоторой части изменчивы

(Reply to this) (Parent)(Thread)(Expand)

(no subject) - [info]setget, 2009-04-30 10:00 am UTC (Expand)

[info]stasik
2009-04-30 12:12 am UTC (link)
этот поиск обязательно надо в вашу новую ОС Фантом внедрить!

(Reply to this)


(Anonymous)
2009-04-30 12:48 am UTC (link)
ну нечто похожее уже есть у Нигмы,поиск,классификация результатов..
но честно говоря не особо помогает в поиске..не понимаю я строителей поисковиков гораздо более полезным для поиска будет введение нормальных widcards и возможности сортировки результатов по дате размеру и урл как в прямом так и обратном порядке.можно еще и сортировку по типу и названию документа добавить и наличию картинок в тексте вот это реально был бы хороший поисковик.

(Reply to this) (Thread)(Expand)


[info]setget
2009-04-30 10:02 am UTC (link)
У Нигмы кластеризация, не совсем то.

(Reply to this) (Parent)

(no subject) - (Anonymous), 2009-04-30 01:58 pm UTC (Expand)
(no subject) - [info]fox_1, 2009-04-30 09:05 pm UTC (Expand)
(no subject) - (Anonymous), 2009-04-30 10:56 pm UTC (Expand)

[info]karpolan
2009-04-30 01:38 am UTC (link)
Не взлетит...

(Reply to this)


[info]gorpa
2009-04-30 03:35 am UTC (link)
А может это велосипед и все это было раньше:
http://www.iqmena.ru/func.shtml

(Reply to this) (Thread)(Expand)


[info]setget
2009-04-30 10:08 am UTC (link)
Разных автоматических классификаторов сделано довольно много, да, в том числе и для русскоязычных текстов. Но все они сделаны в чем-то по-разному, т. е. по своей реализации - это не велосипед.

(Reply to this) (Parent)

(no subject) - [info]sigurna, 2009-05-07 11:47 am UTC (Expand)

[info]ivanov_petrov
2009-04-30 03:41 am UTC (link)
Благодарю Вас за текст, было крайне интересно читать. Поскольку я - не спец, могу лишь вожделенно ожидать, когда это где-нибудь заработает. Но, судя по описанию - это то. о чем давно раздумывал. и удивляляся, отчего люди не делают такие вещи. а делают всякие глупости. И вот - делают. Очень хорошо.

(Reply to this) (Thread)


[info]ohtori
2009-04-30 08:37 pm UTC (link)
+1

(Reply to this) (Parent)


[info]bigsammy
2009-04-30 04:33 am UTC (link)
Хм...
В принципе, для того, чтобы натравить "пониматель" на весь Рунет даже не надо собственной площадки, достаточно натравить его на кэш яндексовского паука.
Или, кстати, на ту самую публичную библиотеку.

А вот тут хороший вопрос прозвучал. Как он умеет работать с плотными семантиками?
Я даже не говорю про ассемблер или объектные языки, а вот скормить ему массив текстов на плэйн С?
Определить язык он сможет, это понятно, а залезть в контекст программы сумеет? Ну, при соответствующей доработке, разумеется?
Хотя бы до уровня "это код какой-то dll, имеющей взаимодействие с такими-то модулями, экспортирующей такие-то функции и имеющей нескрытые окна" ?

(Reply to this) (Thread)(Expand)


[info]msado
2009-04-30 05:45 am UTC (link)
индекс - уже плохой материал. по-хорошему матрицировать и индексировать нужно "одновременно", в смысле в едином процессе

(Reply to this) (Parent)

(no subject) - [info]setget, 2009-04-30 10:16 am UTC (Expand)

[info]bigsammy
2009-04-30 04:55 am UTC (link)
И вот да, кстати...
А как он сумеет разобраться с художественными текстами? Если в основной смысловой нагрузке сидят множественные эвфемизмы например? С аллюзиями, сравнениями - как?
Цитату неявную распознать?

(Reply to this) (Thread)(Expand)


[info]msado
2009-04-30 05:44 am UTC (link)
смотря что называть "разобраться". он же не интеллект, он классификатор.

(Reply to this) (Parent)

(no subject) - [info]setget, 2009-04-30 10:31 am UTC (Expand)
(no subject) - [info]fox_1, 2009-04-30 09:11 pm UTC (Expand)

[info]dm_korshunoff
2009-04-30 05:54 am UTC (link)
Интересно. Я сам в этом плохо разбираюсь, но наша компания что-то подобное делает. С помощью таксономий (у нас они так называются) можно разработать просто нереальные информационные базы. Один клиент вообще заказывал таксономическую структуру, которая содержала не только нашу базу прессы (35 000 первичных источников со всего мира), но и библиотеку конгресса США, и базу по террористам ФБР и заточенную исключительно под анализ экстремистских проявлений. Если интересно здесь все есть
http://solutions.dowjones.com/djcs/index.asp . Это рекламный материал. Еще могу посоветовать блог моей коллеги Daniela Barbosa на блогспоте.

(Reply to this)


(127 comments) - (Post a new comment)

Page 1 of 2
<<[1] [2] >>

Create an Account
Forgot your login or password?
Login w/ OpenID
English • Español • Deutsch • Русский…