Конференция “Ломоносовские чтения 2008″.
Март 24, 2008 – 11:51 ппНа конференцию “Ломоносовские чтения 2008″ в рамках дипломной работы мной были поданы тезисы следующего содержания. (Оригинал)
В связи с увеличивающимся проникновением электронной техники во все слои человеческой деятельности, взаимодействие между лингвистикой и computer science началось ещё полвека назад с возникновением теории Н. Хомского, развитием генеративизма и появлением электронно-вычислительных машин. Многие лингвистические идеи и концепции на протяжении последних десятилетий были заимствованы и воплощены в программировании, теоретической информатике и информационных системах.
В [1] было показано преимущество специализированных морфологических анализаторов для применения в процессе коррекции грамматических ошибок. Алгоритм давал 100% гарантии исправления слова, если оно присутствовало в словаре, однако давал кроме правильного варианта ещё 3-10 других вариантов исправления ошибки. Все результаты отличались друг от друга на 1 по Левенштейну и присутствовали в словаре. Целью этой работы была реализация отбора точно соответствующих слов. В процессе анализа литературы были выявлены основные методы, применяемые при машинной обработке естественных текстов. Для анализа были отобраны статистический [2] и фрагментационный [3] методы.
Преимуществом статистического метода является его простота. Однако одним из главных недостатков является сильная зависимость от объема базы данных – чем больше объем базы данных, тем больше время поиска словосочетаний с необходимым словом. В результате статистический метод использовался в основном на начальных этапах развития данной предметной области. На данный момент его практически вытеснили специализированные методы, учитывающие структуру языка и его конструкций.
Задача фрагментационного анализа состоит в выделении в предложении синтаксических единств (фрагментов) больших или равных словосочетанию (синтаксической группе) и в установлении иерархии на множестве этих единств, не используя семантической информации и информации о модели управления. Иерархия отражает тот факт, что в предложении некоторые фрагменты синтаксически зависимы от других.
В результате применения анализа сочетаемости и зависимости слов друг от друга в предложении удалось существенно сократить количество вариантов исправления ошибки. Дальнейшее уменьшение количества, можно за счет анализа семантической составляющей слова.
Литература:
- Автоматическая коррекция грамматических ошибок русского языка. «Ломоносовские чтения» 2007 года. – Севастополь: НПЦ «ЭКОСИ-Гидрофизика», 2007 – 412 с.
- Вероятностный синтаксический анализатор для информационно-поисковой системы. Интеллект издательство. Internet: http://www.inteltec.ru/publish/articles/textan/1kx5_9.shtml
- Фрагментационный анализ. АОТ. Internet: http://www.aot.ru/docs/fragman.html
