Читать онлайн «Корпусная лингвистика»

Автор В. П. Захаров

Санкт-Петербургский государственный университет
Филологический факультет
Кафедра математической лингвистики






В. П. Захаров




Корпусная лингвистика


Учебно-методическое пособие








Санкт-Петербург
2005
ББК 81. 1
З-38
Рецензенты:
докт. филол. наук Л. Н. Беляева (Рос. гос. пед. ун-т им. А. И. Герцена)
канд. фил. наук С. А. Коваль (С. -Петерб. гос. ун-т)

Печатается по постановлению
Редакционно-издательского совета
С. -Петербургского государственного университета


Захаров В. П.
З-38 Корпусная лингвистика: Учебно-метод.
пособие.  – СПб. , 2005. – 48 с.

Предлагаемое пособие содержит описание предмета и основного содержания корпусной лингвистики – нового направления в лингвистике. Оно включает также программу учебной дисциплины «Корпусная лингвистика», которая изучается студентами отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета. Пособие базируется на исследовательской и преподавательской деятельности автора.
Для студентов и аспирантов, специализирующихся в области прикладной лингвистики и автоматизированных систем обработки текста.

ББК 81. 1







( В. П. Захаров, 2005
( Санкт-Петербургский государственный университет, 2005


1. Основные понятия
1. 1. Введение: корпусы и корпусная лингвистика
Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.
Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:
1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.
Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы.