Виктор Павлович Захаров
корпуса русского языка
Введение
В последние годы создание корпусов и корпусно-ориентированные исследования стали неотъемлемой частью деятельности лингвистов. В мире корпусная лингвистика как особое направление сложилась к началу 1990-х годов. За прошедшие годы корпусная методология становится частью лингвистической науки, и все лингвисты, работающие в самых разных направлениях, как правило, проводят свои исследования на базе корпусов. Россия встала на этот «корпусный» путь с некоторым опозданием, но движется по нему очень быстро. Появляется большое число публикаций, посвященных созданию и использованию корпусов. О востребованности корпуса свидетельствуют многочисленные исследования и публикации, подготовленные на его основе. Однако корпуса русского языка сегодня создаются не только «в недрах» НКРЯ и не только в России. И если о НКРЯ сегодня написано много, то о других корпусах публикаций информации не хватает. С корпусной проблематикой во всем ее многообразии можно ознакомиться по материалам конференций «Корпусная лингвистика» (см. Однако был бы полезен единый очерк, дающий общее представление о корпусах русского языка. Есть, правда, обзоры корпусов славянских языков, включая русский [Резникова, Копотев 2005; Резникова 2009], то они не полны за прошедшие годы корпусная лингвистика и «корпусостроение», естественно, ушли вперед.
Задача настоящего очерка – дать краткий общий обзор различных корпусов русского языка в России и за рубежом в их многообразии. За пределами данного обзора остаются вопросы использования корпусов для исследований по русскому языку, в целях обучения, настройки лингвопроцессоров и решения других задач.
Функциональные возможности некоторых корпусных служб, включающих в себя русскоязычные корпуса, и, соответственно, функции корпусных менеджеров, предоставляемые лингвистам для выполнения запросов и проведения исследований, более подробно описаны в данном сборнике в статье [Захаров, Хохлова 2014].
1. Первые корпуса русского языка
Первый русскоязычный корпус был создан в 1980-е гг. в Университете Упсалы (Швеция). Однако еще до первых русскоязычных корпусов в полном смысле этого слова в 1960–70-е гг. был создан Частотный словарь русского языка под руководством Л. Н. Засориной [Засорина 1977], построенный на основе примитивных текстовых файлов, фактически, электронных словарных карточек, объемом в 1 млн словоупотреблений, включавших в себя лексику четырех жанров в примерно равной пропорции: общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных тематических областей и драматургию.
В процессе создания этих файлов – сегодня мы бы сказали, корпуса – решались все проблемы современной корпусной лингвистики, которые обсуждались и обсуждаются при создании полноценных корпусов:
репрезентативность,
сбалансированность,
графематический анализ,
нормализация,
лемматизация.
Так что фактически это был первый корпус русского языка, не дошедший до наших дней.
В 1985 г.