Конференция “Ломоносовские чтения 2007″.
Февраль 14, 2007 – 10:14 ппВ конце апреля 2007 года состоится конференция, на которой мне предстоит сделать доклад по обозначенной выше теме. В связи с этим были поданы тезисы следующего содержания. (Оригинал)
На современном этапе развития науки, техники и культуры процессы переработки и обработки информации выдвигаются на одно из ведущих мест в процессе общественного производства, пронизывая все сферы человеческой деятельности. Все большее значение приобретают методы и средства обработки информации на естественном языке — от простейших систем подготовки документов до информационно-поисковых систем, систем машинного перевода и программ общения с пользователем на естественном языке. Необычайно широк спектр приложений, так или иначе связанных с обработкой естественно-языковых текстов; столь же различна глубина их проникновения в структуру текста. В связи с этим остро встает проблема автоматической коррекции грамматических ошибок.
В силу специфики предметной области алгоритмы делятся на безсловарные и словарные. Безсловарные алгоритмы,как правило, работают быстрее словарных, но дают большую погрешность в определении результатов, т.к. основываются на вероятностных и статистических данных.
Все словарные алгоритмы зависят от модели языка, на основе которой они работают, а так же от размера словаря. В [4] описан общепринятый формат словаря для любого флективного языка на основе [3]. Недостатком такого подхода является малая фрагментация слова, из чего следуют большие выборки, а следовательно меньшая скорость работы алгоритма. В [1] описана модель языка, основанного на [2], что позволяет более точно представить структуру слова. Проведенные эксперименты подтвердили выводы, сделанные в [4], о не пригодности реляционных баз данных для поддержки словарей. На основе схемы хранения словарей, описанной в [4], предлагается введение древовидной структуры, в которой в каждом узле будет находится следующая буква слова. Это позволит производить выборку слова за N шагов, где N – количество букв в слове. Данный подход позволит обработать любой флективный язык.
Литература:
- Д. Л. Кондратюк, В. И. Островский, Разработка и исследование метода повышения надежности вычислительных устройств, реализующих эвристические алгоритмы. 1993.
- А. И. Кузнецова, Т. Ф. Ефремова, Словарь морфем русского языка: Ок. 52000 слов. – М.: Рус. яз., 1986 – 1136 с.
- А. А. Зализняк, Грамматический словарь русского языка: Словоизменение. Ок. 100000 слов. – 3-е изд., стер. – М.: Рус. яз., 1987.– С. 880.
- И. М. Ножов, Д. Г. Лахути, Т. Ю. Кобзарева, Морфологическая и синтаксическая обработка текста (модели и программы). Москва, 2003.
Комментарии:
gde to ja yze eto chital.
By evol1980 on Июнь 27, 2008
Вы могли читать эту статью в сборнике “VI Научная конференция Ломоносовские чтения” 2007 года или на этом сайте. Я больше нигде эти тезисы не публиковал.
By Roinet on Июнь 27, 2008
oj sorri oshibsa
By evol1980 on Июль 19, 2008
opat vernylsa na etot sajt ctob skazat spasibo :)
By evol1980 on Авг 6, 2008
Не за что. :)
Всегда рад, если моя работа кому-то помогла.
By Roinet on Авг 6, 2008