Читать онлайн «Корпусная лингвистика в России»

Автор В. П. Захаров

Введение В последние годы создание корпусов и корпусно-ориентированные исследования стали неотъемлемой частью деятельности лингвистов. В мире корпусная лингвистика как особое направление сложилась к началу 1990-х годов. Россия встала на этот «корпусный» путь с некоторым опозданием, но движется по нему очень быстро. О востребованности корпуса свидетельствуют многочисленные публикации, подготовленные на корпусе. Часть из них находится на сайте корпуса в разделе Studiorum. С корпусной проблематикой во всем ее многообразии можно ознакомиться по материалам конференции «Корпусная лингвистика» (см. Начинают выходить учебные пособия по корпусной лингвистике - см. Литературу. 2. Первые корпусы русского языка Первый русскоязычный корпус был создан в 1980-е гг. в Университете Уппсалы, Швеция. Однако еще до первых русскоязычных корпусов в 1960–1970-е гг. был создан Частотный словарь русского языка под рук. Л. Н. Засориной, построенный на основе примитивных текстовых файлов объемом в 1 млн словоупотреблений, включавшей в себя лексику 4 жанров в примерно равной пропорции: общественно-политические тексты, художественную литературу, научные и научно-популярные тексты из разных областей и драматургию.
В процессе создания этих файлов – сегодня мы бы сказали, корпуса – обсуждались все проблемы современной корпусной лингвистики:  репрезентативность,  графематический анализ,  нормализация,  лемматизация. Так что фактически это был первый корпус русского языка, не дошедший до наших дней. В 1985 г. в СССР по инициативе академика А. П. Ершова были начаты работы по созданию Машинного фонда русского языка. Это был грандиозный проект. В создании фонда принимали участие более 40 организаций-соисполнителей, среди них Институт русского языка, Московский, Санкт-Петербургский, Харьковский, Гродненский, Сыктывкарский и Саратовский университеты и др. В задачи фонда входило накопление на машинных носителях и в базах данных текстовых, лексикографических и грамматических источников, необходимых для научного изучения русского языка и для осуществления прикладных разработок. Одновременно велось создание программных средств для проведения лингвистических исследований. В 1985–1992 гг. были осуществлены разработка концепции и архитектуры Машинного фонда русского языка, разработка концепции терминологического банка данных, введены в компьютер текстовые источники русской литературы XIX–XX вв. , главнейшие словари русского языка, краткая академическая грамматика, созданы текстовые корпусы поэзии, художественной прозы, общественно-политических и технических текстов.