Введение
В последние годы создание корпусов и корпусно-ориентированные исследования
стали неотъемлемой частью деятельности лингвистов. В мире корпусная лингвистика как
особое направление сложилась к началу 1990-х годов. Россия встала на этот «корпусный»
путь с некоторым опозданием, но движется по нему очень быстро. О востребованности корпуса свидетельствуют многочисленные
публикации, подготовленные на корпусе. Часть из них находится на сайте корпуса в
разделе Studiorum. С корпусной проблематикой во всем ее многообразии можно
ознакомиться по материалам конференции «Корпусная лингвистика» (см. Начинают выходить учебные пособия по
корпусной лингвистике - см. Литературу.
2. Первые корпусы русского языка
Первый русскоязычный корпус был создан в 1980-е гг. в Университете Уппсалы,
Швеция. Однако еще до первых русскоязычных корпусов в 1960–1970-е гг. был создан
Частотный словарь русского языка под рук. Л. Н. Засориной, построенный на основе
примитивных текстовых файлов объемом в 1 млн словоупотреблений, включавшей в себя
лексику 4 жанров в примерно равной пропорции: общественно-политические тексты,
художественную литературу, научные и научно-популярные тексты из разных областей и
драматургию.
В процессе создания этих файлов – сегодня мы бы сказали, корпуса – обсуждались
все проблемы современной корпусной лингвистики:
репрезентативность,
графематический анализ,
нормализация,
лемматизация. Так что фактически это был первый корпус русского языка, не дошедший до наших дней. В 1985 г. в СССР по инициативе академика А. П. Ершова были начаты работы по
созданию Машинного фонда русского языка. Это был грандиозный проект. В создании
фонда принимали участие более 40 организаций-соисполнителей, среди них Институт
русского языка, Московский, Санкт-Петербургский, Харьковский, Гродненский,
Сыктывкарский и Саратовский университеты и др. В задачи фонда входило накопление на
машинных носителях и в базах данных текстовых, лексикографических и грамматических
источников, необходимых для научного изучения русского языка и для осуществления
прикладных разработок. Одновременно велось создание программных средств для
проведения лингвистических исследований. В 1985–1992 гг. были осуществлены
разработка концепции и архитектуры Машинного фонда русского языка, разработка
концепции терминологического банка данных, введены в компьютер текстовые источники
русской литературы XIX–XX вв. , главнейшие словари русского языка, краткая
академическая грамматика, созданы текстовые корпусы поэзии, художественной прозы,
общественно-политических и технических текстов.