Санкт-Петербургский государственный университет
Филологический факультет
Кафедра математической лингвистики
В. П. Захаров
Корпусная лингвистика
Учебно-методическое пособие
Санкт-Петербург
2005
ББК 81. 1
З-38
Рецензенты:
докт. филол. наук Л. Н. Беляева (Рос. гос. пед. ун-т им. А. И. Герцена)
канд. фил. наук С. А. Коваль (С. -Петерб. гос. ун-т)
Печатается по постановлению
Редакционно-издательского совета
С. -Петербургского государственного университета
Захаров В. П.
З-38 Корпусная лингвистика: Учебно-метод.
пособие. – СПб. , 2005. – 48 с.
Предлагаемое пособие содержит описание предмета и основного содержания корпусной лингвистики – нового направления в лингвистике. Оно включает также программу учебной дисциплины «Корпусная лингвистика», которая изучается студентами отделения структурной и прикладной лингвистики Санкт-Петербургского государственного университета. Пособие базируется на исследовательской и преподавательской деятельности автора.
Для студентов и аспирантов, специализирующихся в области прикладной лингвистики и автоматизированных систем обработки текста.
ББК 81. 1
( В. П. Захаров, 2005
( Санкт-Петербургский государственныйуниверситет, 2005
1. Основные понятия
1. 1. Введение: корпусы и корпусная лингвистика
Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий. Под названием лингвистический, или языковой, корпус текстов понимается большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач. В понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую в последнее время чаще всего называют корпусным менеджером (или корпус-менеджером) (англ. corpus manager). Это специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.
Целесообразность создания и смысл использования корпусов определяется следующими предпосылками:
1) достаточно большой (репрезентативный) объем корпуса гарантирует типичность данных и обеспечивает полноту представления всего спектра языковых явлений;
2) данные разного типа находятся в корпусе в своей естественной контекстной форме, что создает возможность их всестороннего и объективного изучения;
3) однажды созданный и подготовленный массив данных может использоваться многократно, многими исследователями и в различных целях.
Можно сказать, что все современные лингвистические исследования и работы по составлению словарей и грамматик так или иначе ориентированы на использование представительных корпусов текстов. Развитие современных интеллектуальных программных систем, предназначенных для обработки текстов на естественном языке, также требует большой экспериментальной лингвистической базы.