Конференция “Ломоносовские чтения 2008″.

Март 24, 2008 – 11:51 пп

На конференцию “Ломоносовские чтения 2008″ в рамках дипломной работы мной были поданы тезисы следующего содержания. (Оригинал)

В связи с увеличивающимся проникновением электронной техники во все слои человеческой деятельности, взаимодействие между лингвистикой и computer science началось ещё полвека назад с возникновением теории Н. Хомского, развитием генеративизма и появлением электронно-вычислительных машин. Многие лингвистические идеи и концепции на протяжении последних десятилетий были заимствованы и воплощены в программировании, теоретической информатике и информационных системах.

В [1] было показано преимущество специализированных морфологических анализаторов для применения в процессе коррекции грамматических ошибок. Алгоритм давал 100% гарантии исправления слова, если оно присутствовало в словаре, однако давал кроме правильного варианта ещё 3-10 других вариантов исправления ошибки. Все результаты отличались друг от друга на 1 по Левенштейну и присутствовали в словаре. Целью этой работы была реализация отбора точно соответствующих слов. В процессе анализа литературы были выявлены основные методы, применяемые при машинной обработке естественных текстов. Для анализа были отобраны статистический [2] и фрагментационный [3] методы.

Преимуществом статистического метода является его простота. Однако одним из главных недостатков является сильная зависимость от объема базы данных – чем больше объем базы данных, тем больше время поиска словосочетаний с необходимым словом. В результате статистический метод использовался в основном на начальных этапах развития данной предметной области. На данный момент его практически вытеснили специализированные методы, учитывающие структуру языка и его конструкций.

Задача фрагментационного анализа состоит в выделении в предложении синтаксических единств (фрагментов) больших или равных словосочетанию (синтаксической группе) и в установлении иерархии на множестве этих единств, не используя семантической информации и информации о модели управления. Иерархия отражает тот факт, что в предложении некоторые фрагменты синтаксически зависимы от других.

В результате применения анализа сочетаемости и зависимости слов друг от друга в предложении удалось существенно сократить количество вариантов исправления ошибки. Дальнейшее уменьшение количества, можно за счет анализа семантической составляющей слова.

Литература:

  1. Автоматическая коррекция грамматических ошибок русского языка. «Ломоносовские чтения» 2007 года. – Севастополь: НПЦ «ЭКОСИ-Гидрофизика», 2007 – 412 с.
  2. Вероятностный синтаксический анализатор для информационно-поисковой системы. Интеллект издательство. Internet: http://www.inteltec.ru/publish/articles/textan/1kx5_9.shtml
  3. Фрагментационный анализ. АОТ. Internet: http://www.aot.ru/docs/fragman.html

  1. Комментарии:

  2. Здравствуйте!
    Напишите, пожалуйста, ваши контакты для связи с вами. Моя почта vtorinf@bk.ru подробности публично писать не буду.

    By viktr on Дек 19, 2008

  3. Спасибо за информацию по теме. Не обращайте внимания на ботов. Просто затирайте их и все.

    By ynasn on Дек 19, 2008

  4. >> Здравствуйте!
    >> Напишите, пожалуйста, ваши контакты для связи с вами. Моя
    >> почта vtorinf@bk.ru подробности публично писать не буду.

    Извините, свой email стараюсь не светить, если вам что-то нужно из реализаций моих работ – пишите сюда. Я ссылки на свои реализации раздаю безвозмездно.

    By Roinet on Дек 22, 2008

  5. >> Спасибо за информацию по теме. Не обращайте внимания на
    >> ботов. Просто затирайте их и все.

    Спама очень много, потому прошу извинения у тех, чьи сообщения не являются спамом, но удаляются.

    By Roinet on Дек 22, 2008

Добавить комментарий: