Лингвист Анастасия Бонч-Осмоловская о корпусной лингвистике, поиске изменений в языке и проблемах оцифрованных данных.
Большие данные представляют особый интерес в социальных науках, потому что из них мы можем получить обобщенные сведения о том, как люди живут, что ими движет, на какие группы они делятся, какие существуют социальные практики. Достаточно много примеров исследований, в которых для понимания этих социальных практик используются разные цифровые «следы», которые люди оставляют за собой. Это и их активность в соцсетях, и их предпочтения, покупки, передвижения по городу и так далее. Поскольку центральной социальной практикой является язык, коммуникация с использованием естественного языка, то становится интересно, какие здесь могут быть возможности и, собственно говоря, где вообще взять эти большие данные, эти цифровые следы, цифровые образцы, чтобы мы могли что-то понять про то, как язык используется, как он развивается, как люди говорят и как они не говорят.
К большому объему данных в лингвистике обращаться стали достаточно давно. Уже в конце XX века начала развиваться корпусная лингвистика. Лингвисты стали собирать корпуса, то есть такие большие наборы текстов, объединенные с некоторой идеей, с каким-то там балансом, которые в дальнейшем специальным образом обрабатывались, снабжались морфологической разметкой. И таким образом подготавливались ресурсы, для того чтобы потом ученые, специалисты могли к ним обращаться и получать какие-то сведения, какую-то выборку данных и работать с ними.
С самого начала корпуса использовались в двух направлениях. С одной стороны, лингвисты-теоретики с помощью корпусов могли получить примеры употребления определенной конструкции, примеры использования определенного класса глаголов. И конечно же, кроме самих примеров первое, что дает корпус, — это частотность их употребления. Частотность — это вообще самая главная вещь, которая эксплуатируется в корпусной лингвистике и в работе с большими или, может быть, не самыми большими, но все равно значительными языковыми данными.
Собственно говоря, с этой самой частотностью связано и второе направление использования корпусов — для решения задач компьютерной лингвистики, для машинного обучения. Когда стоит задача построения какой-то языковой модели, используется корпус, снабженный определенной разметкой. Разметка выделяет какие-то интересующие классы элементов, и дальше происходит обучение программы, специально написанного скрипта, который учится эти элементы различать. Таким образом решается задача, связанная непосредственно с лингвистикой. Например, задача морфологического анализа. Мы обучаем программу отличать существительное от глагола. Каким образом? Мы даем на вход корпус, где у нас уже размечено: вот у нас существительное, это глагол, это прилагательное, это предлог. И дальше по разным уже свойствам появления того или иного тега высчитывается некоторая вероятность того, будет ли слово существительным, или глаголом, или какой-то другой частью речи. И алгоритм принимает это решение. Такие программы уже есть и для русского языка и работают вполне хорошо.
Но кроме того, решаются самые разные нелингвистические задачи, связанные, например, с тематическим моделированием, то есть с определением темы текста. Или, более конкретно, с делением текстов по определенным тематикам. На вход подаются тексты с уже размеченной тематикой, на выходе получаются эти классы. Или на вход подаются тексты с какой-то другой разметкой, там тематика может быть не определена, но какие-то свойства все равно есть. И на выходе алгоритм машинного обучения делит этот корпус на какие-то тексты, близкие по тематике.
Хочу заметить, что все-таки и такой традиционный анализ примеров, полученных из корпуса, и машинное обучение — это не тот анализ данных, который мы имеем в виду, когда мы говорим про большие данные, про процессы, которые можем выявить только некоторым статистическим образом. Это направление стало развиваться недавно, и здесь есть интересное противоречие. Когда мы анализируем большие языковые данные, то мы либо очень сужаем задачу и как бы сужаем эти данные, остаемся в пределах лингвистики, либо мы всегда рискуем выйти в какие-то экстралингвистические исследования. То есть мы уже говорим не про язык, а, условно говоря, о том, как меняется жизнь, которая некоторым хитрым образом, не очень понятным, отражается в тех текстах, которые мы анализируем.
Что, собственно говоря, является самым интересным, привлекающим исследователей и что они надеются узнать с помощью такого анализа данных? Это то, как язык меняется, возможность увидеть, каким-то образом поймать язык в динамике. Но это очень хитрая вещь, потому что лингвистика начиналась со сравнительного исторического языкознания, которое, привлекая данные разных языков на уровне какой-то лексики и немножко грамматики, показывало языковые изменения в глобальном масштабе. То есть мы видим следы этих изменений, но это какие-то другие языки, которые реконструируются, и мы не очень можем себе на самом деле представить, что это были за языки.
Но если сузить фокус и сказать, что сейчас мы читаем текст XIX века или даже текст 50-х годов XX века и понимаем, что что-то изменилось: так люди уже не говорят, а вот это вообще сложно понять. И школьникам, например, очень сложно понимать тексты классической литературы XIX века: это совершенно другой для них язык. Что изменилось? Как это описать? Как это поймать?
Оказывается, что без корпусов это описать достаточно сложно. Мы можем находить что-то одно и говорить: «Ну да, вот этот глагол сейчас употребляется по-другому». Но в целом описать, что происходило с языком, очень трудно. И насколько я понимаю, какой-то такой четкой методологии пока нет.
Плейлист
Big date