Российская Институт
академия проблем
наук информатики
В. Г. Васильев, М. П. Кривенко
Методы автоматизированной
обработки текстов
2008
РОССИЙСКАЯ АКАДЕМИЯ НАУК
ИНСТИТУТ ПРОБЛЕМ ИНФОРМАТИКИ
В. Г. Васильев, М. П. Кривенко
Методы автоматизированной
обработки текстов
Москва
ИПИ РАН
2008
2
УДК 004. 85
Печатается по решению Ученого совета
Института проблем информатики РАН
Рецензент:
доктор технических наук В. И. Будзко
Васильев В. Г. , Кривенко М. П. Методы автоматизированной обработки текстов. – М. : ИПИ РАН, 2008. –
305 с. – ISBN – 978-5-902030-63-8. В работе рассматриваются современные методы, применяемые для
автоматизированной обработки и анализа текстовых данных на естественном
языке. Основное внимание уделяется статистическим методам автоматической
классификации и кластерного анализа текстовых данных. Работа выполнена при
поддержке гранта президента Российской Федерации для государственной
поддержки молодых российских ученых МК-12. 2008. 10. ISBN – 978-5-902030-63-8
© Институт проблем информатики Российской академии наук (художественное
оформление) 2008
© Васильев В. Г. , Кривенко М. П. (содержание) 2008
3
Оглавление
1. ВВЕДЕНИЕ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . 5
2. МЕТОДЫ ЛИНГВИСТИЧЕСКОГО АНАЛИЗА ТЕКСТОВ... ... ... ... ... ... ... . 12
2. 1. Основные свойства текстов ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . 12
2. 2. Уровни рассмотрения текстов... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 13
2. 3. Графематический анализ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . 15
2. 4. Фонетическое кодирование ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . 18
2. 5. Морфологический анализ ... ... ... ... ...
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . 24
2. 6. Постморфологический анализ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 32
2. 7. Выделение словосочетаний ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . 37
2. 8. Синтаксический анализ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . . 49
2. 9. Семантический анализ ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 57
3. МЕТОДЫ ВЕКТОРНОГО ПРЕДСТАВЛЕНИЯ ТЕКСТОВ ... ... ... ... ... ... ... . . 61
3. 1. Векторная модель представления текстов ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . 61
3. 2. Методы задания весов терминов ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... . 68
3. 3.