Конференция “Ломоносовские чтения 2008″.

Март 24, 2008 – 11:51 пп

На конференцию “Ломоносовские чтения 2008″ в рамках дипломной работы мной были поданы тезисы следующего содержания. (Оригинал)

В связи с увеличивающимся проникновением электронной техники во все слои человеческой деятельности, взаимодействие между лингвистикой и computer science началось ещё полвека назад с возникновением теории Н. Хомского, развитием генеративизма и появлением электронно-вычислительных машин. Многие лингвистические идеи и концепции на протяжении последних десятилетий были заимствованы и воплощены в программировании, теоретической информатике и информационных системах.

В [1] было показано преимущество специализированных морфологических анализаторов для применения в процессе коррекции грамматических ошибок. Алгоритм давал 100% гарантии исправления слова, если оно присутствовало в словаре, однако давал кроме правильного варианта ещё 3-10 других вариантов исправления ошибки. Все результаты отличались друг от друга на 1 по Левенштейну и присутствовали в словаре. Целью этой работы была реализация отбора точно соответствующих слов. В процессе анализа литературы были выявлены основные методы, применяемые при машинной обработке естественных текстов. Для анализа были отобраны статистический [2] и фрагментационный [3] методы.

Преимуществом статистического метода является его простота. Однако одним из главных недостатков является сильная зависимость от объема базы данных – чем больше объем базы данных, тем больше время поиска словосочетаний с необходимым словом. В результате статистический метод использовался в основном на начальных этапах развития данной предметной области. На данный момент его практически вытеснили специализированные методы, учитывающие структуру языка и его конструкций.

Задача фрагментационного анализа состоит в выделении в предложении синтаксических единств (фрагментов) больших или равных словосочетанию (синтаксической группе) и в установлении иерархии на множестве этих единств, не используя семантической информации и информации о модели управления. Иерархия отражает тот факт, что в предложении некоторые фрагменты синтаксически зависимы от других.

В результате применения анализа сочетаемости и зависимости слов друг от друга в предложении удалось существенно сократить количество вариантов исправления ошибки. Дальнейшее уменьшение количества, можно за счет анализа семантической составляющей слова.

Литература:

  1. Автоматическая коррекция грамматических ошибок русского языка. «Ломоносовские чтения» 2007 года. – Севастополь: НПЦ «ЭКОСИ-Гидрофизика», 2007 – 412 с.
  2. Вероятностный синтаксический анализатор для информационно-поисковой системы. Интеллект издательство. Internet: http://www.inteltec.ru/publish/articles/textan/1kx5_9.shtml
  3. Фрагментационный анализ. АОТ. Internet: http://www.aot.ru/docs/fragman.html

Программеры жгут.

Ноябрь 8, 2007 – 6:15 пп


Выдача ITNews.com.ua в 17:00 08.11.2007
Выдача ITNews.com.ua в 17:00 08.11.2007

Коррекция грамматических ошибок в русском языке.

Октябрь 26, 2007 – 11:55 пп

Данная работа была представлена на защиту в июне 2007 года. (Оригинал включает печатную версию и презентацию. Реализация представлена как есть, никакие претензии и вопросы по коду не принимаются.)

Введение.

Проникновение электронной информации во все слои человеческой деятельности заставляет библиотечные учреждения активно осваивать современные информационные технологии, внедрять автоматизированные системы, создавать электронные библиотеки, развивать Интернет-услуги. Цивилизованный мир однозначно воспринимает эти изменения как одну из характерных тенденций общества будущего, как систему, облегчающую доступ пользователей к информационным ресурсам.

Нарастание потоков электронной информации во всех сферах человеческой деятельности резко повышает статус информационных ресурсов как информационного и общественного института. Чтобы полно и оперативно удовлетворять информационные запросы современного пользователя, владельцы ресурсов должны быть в центре внедрения современных технологий и использования электронной информации. Реальностью сегодняшнего дня стали электронные издания, число которых постоянно увеличивается. Библиотеки, не имеющие в фонде тех или иных электронных изданий и предоставляющие к ним доступ через Интернет, уже с полным на это основанием включают их библиографические описания в свои каталоги и предоставляют их пользователям.

Главная особенность – самостоятельность пользователя в работе с информационными ресурсами. Это требует обеспечения определенного уровня обслуживания и заставляет владельцев таких ресурсов более тщательно относится к системе автоматизации, к возможностям информационных технологий, внедряемых в практику. [1]

При создании различных по назначению баз данных производится ввод текстовой информации, осуществляемый двумя способами – набором вручную или сканированием. В обоих случаях возможны орфографические ошибки. Положение орфографических ошибок в классификации ошибок русского языка дано в [2].

Современные текстовые редакторы (например, MS Word), как правило, проводят автоматизированную проверку орфографических ошибок. Это требует вмешательства пользователя. Автоматическая коррекция орфографических ошибок может быть более эффективным средством минимизации опечаток и их исправлений при создании текстовых файлов. В данной работе была поставлена задача разработать и реализовать метод автоматической коррекции грамматических ошибок. В результате выполнения работы были проанализированы различные источники данной предметной области. Реализованы два метода для сравнения.

Читать дальше »

Конференция “Ломоносовские чтения 2007″.

Февраль 14, 2007 – 10:14 пп

В конце апреля 2007 года состоится конференция, на которой мне предстоит сделать доклад по обозначенной выше теме. В связи с этим были поданы тезисы следующего содержания. (Оригинал)

На современном этапе развития науки, техники и культуры процессы переработки и обработки информации выдвигаются на одно из ведущих мест в процессе общественного производства, пронизывая все сферы человеческой деятельности. Все большее значение приобретают методы и средства обработки информации на естественном языке — от простейших систем подготовки документов до информационно-поисковых систем, систем машинного перевода и программ общения с пользователем на естественном языке. Необычайно широк спектр приложений, так или иначе связанных с обработкой естественно-языковых текстов; столь же различна глубина их проникновения в структуру текста. В связи с этим остро встает проблема автоматической коррекции грамматических ошибок.

В силу специфики предметной области алгоритмы делятся на безсловарные и словарные. Безсловарные алгоритмы,как правило, работают быстрее словарных, но дают большую погрешность в определении результатов, т.к. основываются на вероятностных и статистических данных.

Все словарные алгоритмы зависят от модели языка, на основе которой они работают, а так же от размера словаря. В [4] описан общепринятый формат словаря для любого флективного языка на основе [3]. Недостатком такого подхода является малая фрагментация слова, из чего следуют большие выборки, а следовательно меньшая скорость работы алгоритма. В [1] описана модель языка, основанного на [2], что позволяет более точно представить структуру слова. Проведенные эксперименты подтвердили выводы, сделанные в [4], о не пригодности реляционных баз данных для поддержки словарей. На основе схемы хранения словарей, описанной в [4], предлагается введение древовидной структуры, в которой в каждом узле будет находится следующая буква слова. Это позволит производить выборку слова за N шагов, где N – количество букв в слове. Данный подход позволит обработать любой флективный язык.

Литература:

  1. Д. Л. Кондратюк, В. И. Островский, Разработка и исследование метода повышения надежности вычислительных устройств, реализующих эвристические алгоритмы. 1993.
  2. А. И. Кузнецова, Т. Ф. Ефремова, Словарь морфем русского языка: Ок. 52000 слов. – М.: Рус. яз., 1986 – 1136 с.
  3. А. А. Зализняк, Грамматический словарь русского языка: Словоизменение. Ок. 100000 слов. – 3-е изд., стер. – М.: Рус. яз., 1987.– С. 880.
  4. И. М. Ножов, Д. Г. Лахути, Т. Ю. Кобзарева, Морфологическая и синтаксическая обработка текста (модели и программы). Москва, 2003.

    Тема.

    Февраль 14, 2007 – 10:11 пп

    Здесь и далее будут выкладываться результаты моей работы.
    Тема: “Автоматическая коррекция грамматических ошибок морфологическим анализом в русском и украинском языках.”