Захаров В. П. , Масевич А. Ц.
Диахронические исследования на основе корпуса русских текстов Google Books Ngram Viewer Резюме. В статье рассматриваются возможности системы Google Books Ngram Viewer, осуществляющей поиск и построение графиков встречаемости N-грамм в очень больших корпусах текстов на 9 языках. Подробно описывается поисковый аппарат системы, даются примеры построенных графиков. Рассматриваются также отдельные проблемы в работе системы. Указывается на целесообразность их более глубокого изучения с применением статистических методов. Авторы считают, что система является очень ценным инструментом для диахронических исследований в области лингвистики и истории культуры.
Ключевые слова: диахронические исследования, корпуса текстов, графики встречаемости слов
V. P. Zakharov, A. Ts. MasevichDiachronic studies based upon the Google books Ngram Viewer.
Abstract. The paper considers features of Google Books Ngram Viewer, which performs search and creates charts of frequency of Ngrams in very large corpora of texts in 9 languages. Authors give detailed description of the search system and examples of charts. The paper also shows certain errors in the system’s work.
The need of study of these errors using statistical methods is stressed. In the conclusion, authors express their opinion in that the system is very valuable instrument for diachronic studies in the fields of linguistics and history of culture.
Key words: diachronic studies, linguistic corpora, charts of word frequency
Введение
Язык, как известно, – динамичная система. Изменения происходят в нем постоянно, в течение исторических периодов разной продолжительности и на всех уровнях - фонетика и письмо, морфология и лексика, синтаксис и семантика. Частота встречаемости одних элементов и явлений уменьшается, а бывает, что одни явления и элементы полностью исчезают, а другие возникают или начинают встречаться много чаще чем прежде. Изменения в языке имеют тесную связь с явлениями разной природы, но более всего,– психологическими, социальными и культурными. Выявление, описание и интерпретация изменений языка во времени – задача диахронического исследования.
Еще недавно проведение такого исследования требовало больших усилий и затрат времени. Сегодня компьютерные технологии и корпусная лингвистика дают для него принципиально новые инструменты. Корпусы языков и корпусные менеджеры позволяют сравнительно просто получить данные о встречаемости единиц языка в разные промежутки времени.
В настоящей статье описывается система Google Books Ngram Viewer. Возможности и ограничения системы мы попытаемся проиллюстрировать примерами, которые можно интерпретировать как с точки зрения лингвистики, так и с точки зрения истории культуры.
Описание системы Google books Ngram Viewer
Общие сведения. Система Google books Ngram Viewer является в настоящее время наиболее мощным инструментом диахронических исследований. Доступ к ней открыт, начиная примерно с 2009 года. Google books Ngram Viewer представляет собой информационную систему, которая содержит несколько корпусов размеченных текстов книг на 9 языках.