Конференция “Ломоносовские чтения 2007″.

Февраль 14, 2007 – 10:14 пп

В конце апреля 2007 года состоится конференция, на которой мне предстоит сделать доклад по обозначенной выше теме. В связи с этим были поданы тезисы следующего содержания. (Оригинал)

На современном этапе развития науки, техники и культуры процессы переработки и обработки информации выдвигаются на одно из ведущих мест в процессе общественного производства, пронизывая все сферы человеческой деятельности. Все большее значение приобретают методы и средства обработки информации на естественном языке — от простейших систем подготовки документов до информационно-поисковых систем, систем машинного перевода и программ общения с пользователем на естественном языке. Необычайно широк спектр приложений, так или иначе связанных с обработкой естественно-языковых текстов; столь же различна глубина их проникновения в структуру текста. В связи с этим остро встает проблема автоматической коррекции грамматических ошибок.

В силу специфики предметной области алгоритмы делятся на безсловарные и словарные. Безсловарные алгоритмы,как правило, работают быстрее словарных, но дают большую погрешность в определении результатов, т.к. основываются на вероятностных и статистических данных.

Все словарные алгоритмы зависят от модели языка, на основе которой они работают, а так же от размера словаря. В [4] описан общепринятый формат словаря для любого флективного языка на основе [3]. Недостатком такого подхода является малая фрагментация слова, из чего следуют большие выборки, а следовательно меньшая скорость работы алгоритма. В [1] описана модель языка, основанного на [2], что позволяет более точно представить структуру слова. Проведенные эксперименты подтвердили выводы, сделанные в [4], о не пригодности реляционных баз данных для поддержки словарей. На основе схемы хранения словарей, описанной в [4], предлагается введение древовидной структуры, в которой в каждом узле будет находится следующая буква слова. Это позволит производить выборку слова за N шагов, где N – количество букв в слове. Данный подход позволит обработать любой флективный язык.

Литература:

  1. Д. Л. Кондратюк, В. И. Островский, Разработка и исследование метода повышения надежности вычислительных устройств, реализующих эвристические алгоритмы. 1993.
  2. А. И. Кузнецова, Т. Ф. Ефремова, Словарь морфем русского языка: Ок. 52000 слов. – М.: Рус. яз., 1986 – 1136 с.
  3. А. А. Зализняк, Грамматический словарь русского языка: Словоизменение. Ок. 100000 слов. – 3-е изд., стер. – М.: Рус. яз., 1987.– С. 880.
  4. И. М. Ножов, Д. Г. Лахути, Т. Ю. Кобзарева, Морфологическая и синтаксическая обработка текста (модели и программы). Москва, 2003.
    
    1. Комментарии:

    2. gde to ja yze eto chital.

      By evol1980 on Июнь 27, 2008

    3. Вы могли читать эту статью в сборнике “VI Научная конференция Ломоносовские чтения” 2007 года или на этом сайте. Я больше нигде эти тезисы не публиковал.

      By Roinet on Июнь 27, 2008

    4. oj sorri oshibsa

      By evol1980 on Июль 19, 2008

    5. opat vernylsa na etot sajt ctob skazat spasibo :)

      By evol1980 on Авг 6, 2008

    6. Не за что. :)
      Всегда рад, если моя работа кому-то помогла.

      By Roinet on Авг 6, 2008

    Добавить комментарий: