Что такое корпусная лингвистика?

Ещё несколько десятилетий назад об автоматизации лингвистических исследований ученые могли только мечтать. Работа выполнялась вручную, к ней привлекалось большое количество студентов, существовала значительная вероятность ошибки «по невнимательности», а главное – на всё это требовалось много, очень много времени.

С развитием компьютерных технологий стало возможным проводить исследования на порядок быстрее, и сегодня одним из перспективных направлений в исследовании языка является корпусная лингвистика. Её основной особенностью является использование больших объемов текстовой информации, сведенной в единую базу, специальным образом размеченной и именуемой корпусом.

На сегодняшний день существует множество корпусов, созданных с различными целями, на базе различного языкового материала, охватывающего от миллионов до десятков миллиардов лексических единиц. Данное направление признается перспективным и демонстрирует значительные успехи в достижении прикладных и научно-исследовательских целей. Специалистам, так или иначе имеющим дело с естественным языком, рекомендуется ознакомиться с корпусами текстов хотя бы на базовом уровне.

История корпусной лингвистики

Становление данного направления связано с созданием в США Брауновского корпуса в начале 60-х годов прошлого века. Собрание текстов насчитывало всего 1 миллион словоформ, и сегодня корпус такого объема был бы совершенно неконкурентоспособен. В значительной степени это обусловлено темпами развития компьютерных технологий, а также растущими требованиями к новым исследовательским ресурсам.

В 90-х годах корпусная лингвистика сформировалась в полноценную и самостоятельную дисциплину, собрания текстов были составлены и размечены для нескольких десятков языков. В этот период был создан, например, Британский национальный корпус на 100 миллионов словоупотреблений.

По мере развития данного направления лингвистики, объемы текстов становятся всё больше (и достигают миллиардов словарных единиц), а разметка оказывается всё более разнообразной. На сегодняшний день в интернет-пространстве можно найти корпусы письменной и устной речи, мультиязыковые и обучающие, ориентированные на художественную или академическую литературу, а также многие другие разновидности.

Какие бывают корпуса

Типы корпусов в корпусной лингвистике могут быть представлены по нескольким основаниям. Интуитивно понятно, что базой для классификации может являться язык текстов (русский, немецкий), режим доступа (открытый источник, закрытый, коммерческий), жанр исходного материала (художественная литература, документальная, академическая, публицистика).

Интересным образом осуществляется генерация материалов, представляющих устную речь. Поскольку намеренная запись такой речи создала бы искусственные условия для респондентов, и полученный материал нельзя было бы назвать «спонтанным», современная корпусная лингвистика пошла другим путём. Доброволец оснащается микрофоном, и в течение суток производится запись всех разговоров, в которых он участвует. Окружающие люди, разумеется, не могут знать, что в ходе бытового разговора осуществляют вклад в развитие науки.

Позже полученные аудиозаписи сохраняются в банке данных и сопровождаются печатным текстом по типу стенограммы. Таким образом, становится возможной разметка, необходимая для создания корпуса устной повседневной речи.

Применение

Там, где возможно использование языка, возможно и использование корпусов текстов. Целью применения корпусных методов в лингвистике может являться:

  • Создание программ определения тональности, активно использующихся в политике и бизнесе для отслеживания положительных и негативных отзывов избирателей и клиентов, соответственно.
  • Подключение информационной системы к словарям и переводчикам для улучшения показателей их работы.
  • Разнообразные научно-исследовательские задачи, способствующие пониманию устройства языка, истории его развития и предсказаний его изменения в ближайшем будущем.
  • Разработка систем извлечения информации на основании морфологических, синтаксических, семантических и иных признаков.
  • Оптимизация работы различных лингвистических систем и др.

Использование корпусов

Интерфейс ресурсов схож с типичной поисковой системой и предлагает пользователю ввести некоторое слово или сочетание слов для поиска по информационной базе. Помимо формы точного запроса можно воспользоваться расширенной версией, которая позволяет находить текстовую информацию практически по любым лингвистическим критериям.

Основанием для поиска может стать:

  • принадлежность к определенной группе частей речи;
  • грамматические признаки;
  • семантика;
  • стилистическая и эмоциональная окраска.

Кроме того, можно совмещать критерии поиска для последовательности слов: например, найти все вхождения глагола в настоящем времени, первого лица, единственного числа, после которого идёт предлог «в» и существительное в винительном падеже. Решение такой простой задачи занимает у пользователя несколько секунд и требует лишь нескольких щелчков мышью в заданных полях.

Процесс создания

Сам поиск можно осуществлять как по всем подкорпусам, так и по одному, конкретно выбранному, в зависимости от потребностей при достижении какой-то определенной цели:

  1. Первым делом определяется, какие тексты лягут в основу корпуса. В практических целях часто используются публицистические, газетные материалы, интернет-комментарии. В научно-исследовательских проектах находят применение самые разнообразные типы корпусов, однако тексты должны быть подобраны по некоторому общему основанию.
  2. Полученная совокупность текстов подвергается предобработке, происходит исправление ошибок, при их наличии, подготавливается библиографическое и экстралингвистическое описание текста.
  3. Отсеивается вся нетекстовая информация: удаляются графики, картинки, таблицы.
  4. Происходит выделение токенов, обычно представляющих собой слова, для их дальнейшей обработки.
  5. Наконец, осуществляется морфологическая, синтаксическая и иная разметка полученного множества элементов.

Результатом всех произведенных операций является синтаксическая структура с распределенным по ней множеством элементов, для каждого из которых определены часть речи, грамматические и, в некоторых случаях, семантические признаки.

Сложности при создании корпусов

Важно понимать, что для получения корпуса недостаточно собрать воедино множество слов или предложений. С одной стороны, собрание текстов должно быть сбалансированным, то есть представлять различные типы текстов в определенных пропорциях. С другой – содержимое корпуса должно быть специальным образом размечено.

Первый вопрос решается путём договоренности: например, в собрание включается 60% художественных текстов, 20% документальных, определенная доля отводится письменному представлению устной речи, законодательным актам, научным работам и т. д. Идеального рецепта сбалансированного корпуса на сегодняшний день не существует.

Второй вопрос, касающийся разметки содержимого, решается сложнее. Существуют специальные программы и алгоритмы, используемые для автоматической разметки текстов, однако они не дают стопроцентного результата, могут вызывать сбои и требуют ручной доработки. Возможности и проблемы при решении данной задачи подробно описываются в работе В. П. Захарова по корпусной лингвистике.

Разметка текста осуществляется на нескольких уровнях, которые мы перечислим далее.

Морфологическая разметка

Со школьной скамьи мы помним, что в русском языке существуют различные части речи, и каждая из них имеет свои особенности. Например, глагол обладает категориями наклонения и времени, которых нет у существительного. Носитель языка не задумываясь склоняет существительные и спрягает глаголы, но для разметки корпуса в 100 млн. словоупотреблений ручной труд не подойдет. Все необходимые операции сможет выполнить компьютер, правда, для этого его требуется научить.

Морфологическая разметка необходима, чтобы компьютер «понимал» каждое слово как некоторую часть речи, имеющую определенные грамматические признаки. Поскольку в русском (как и в любом другом) языке функционирует ряд регулярных правил, возможно построить автоматическую процедуру морфологического анализа, вложив в машину некоторое количество алгоритмов. Однако существуют и исключения из правил, а также различные усложняющие факторы. В результате, чистый компьютерный анализ сегодня далёк от идеала, и даже 4% ошибок даёт значение в 4 млн. слов на корпусе в 100 млн. единиц, требуя ручной доработки.

Подробно эту проблему описывает книга Захарова В. П. «Корпусная лингвистика».

Синтаксическая разметка

Синтаксический анализ или парсинг – это процедура, определяющая взаимоотношение слов в предложении. С помощью набора алгоритмов становится возможным определить в тексте подлежащее, сказуемое, дополнения, различные обороты речи. Выясняя, какие слова в последовательности являются главными, а какие – зависимыми, мы можем эффективно извлекать информацию из текста и обучить машину выдавать в ответ на поисковый запрос только интересующую нас информацию.

К слову, современные поисковые системы пользуются этим, чтобы выдавать конкретные цифры вместо пространных текстов в ответ на соответствующие запросы типа: «сколько калорий в яблоке» или «расстояние от Москвы до Петербурга». Впрочем, для понимания даже самых азов описываемого процесса потребуется ознакомиться с «Введением в корпусную лингвистику» или иным базовым учебным пособием.

Семантическая разметка

Семантика слова – это, говоря простым языком, его смысл. Широко применимым подходом в семантическом анализе является приписывание слову тэгов, отражающих его принадлежность к набору смысловых категорий и подкатегорий. Подобная информация является ценной для оптимизации алгоритмов анализа тональности текста, автоматического реферирования и выполнения других задач методами корпусной лингвистики.

Существует некоторое количество «корней» дерева, представляющих собой абстрактные слова, имеющих очень широкую семантику. По мере ветвления этого дерева образуются узлы, содержащие всё более конкретные лексические элементы. Например, слово «существо» может быть связано с такими понятиями как «человек» и «животное». Первое слово будет дальше ветвиться на различные профессии, термины родства, национальности, а второе – на классы и виды животных.

Применение информационно-поисковых систем

Сферы использования корпусной лингвистики охватывают самые разнообразные области деятельности. Корпусы используются для составления и корректирования словарей, создания автоматических систем перевода, реферирования, извлечения фактов, определения тональности и иной обработки текстов.

Кроме того, подобные ресурсы активно используются при исследовании языков мира и механизмов функционирования языка в целом. Доступ к большим объёмам предварительно подготовленной информации способствует оперативному и всестороннему изучению тенденций в развитии языков, образовании неологизмов и устойчивых речевых оборотов, изменении значений лексических единиц и др.

Поскольку работа со столь крупными объёмами данных требует автоматизации, сегодня осуществляется тесное взаимодействие компьютерной и корпусной лингвистики.

Национальный корпус русского языка

Данный корпус (сокращенно, НКРЯ) включает в себя ряд подкорпусов, позволяющих использовать ресурс для решения самых разнообразных задач.

Материалы в базе НКРЯ подразделяются:

  • на публикации в СМИ 90-х и 2000-х годов как отечественных, так и зарубежных;
  • записи устной речи;
  • акцентологически размеченные тексты (т.е. с отметками об ударении);
  • диалектную речь;
  • поэтические произведения;
  • материалы с синтаксической разметкой и др.

Информационная система включает также подкорпуса с параллельными переводами произведений с русского на английский, немецкий, французский и многие другие языки (и обратно).

Также в базе есть раздел исторических текстов, представляющих письменную речь на русском языке в различные периоды его развития. Существует и обучающий корпус, который может быть полезен иностранным гражданам при овладении русским языком.

Национальный корпус русского языка включает в себя 400 миллионов лексических единиц и по многим параметрам опережает значительную часть корпусов языков Европы.

Перспективы

Фактом в пользу признания данного направления перспективным является наличие лабораторий корпусной лингвистики в российских вузах, равно как и в иностранных. С применением и исследованиями в рамках рассматриваемых информационно-поисковых ресурсов сопряжено развитие некоторых направлений в области высоких технологий, вопросно-ответных систем, однако это обсуждалось выше.

Дальнейшее развитие корпусной лингвистики предсказывается на всех уровнях, начиная от технического, в плане внедрения новых алгоритмов, оптимизирующих процессы поиска и обработки информации, расширения возможностей компьютеров, увеличения оперативной памяти, и заканчивая бытовым, поскольку пользователи находят всё больше способов применения данного типа ресурсов в повседневной жизни и в работе.

В заключение

В середине прошлого века 2017 год представлялся далеким будущим, в котором космолеты бороздят просторы Вселенной и роботы выполняют всю работу за людей. В действительности же наука изобилует «белыми пятнами» и предпринимает отчаянные попытки ответить на вопросы, столетиями тревожащие человечество. Вопросы функционирования языка здесь занимают почётное место, и корпусная и компьютерная лингвистика способны помочь нам ответить на них.

Обработка больших массивов данных позволяет обнаруживать закономерности, недоступные ранее, предсказывать развитие определенных языковых черт, отслеживать формирование слов практически в реальном времени.

На практическом глобальном уровне корпусы могут рассматриваться, например, как потенциальный инструмент оценки общественных настроений – Интернет представляет собой беспрерывно пополняемую базу различных текстов, созданных реальными пользователями: это и комментарии, и отзывы, и статьи, и многие другие формы речи.

Кроме того, работа с корпусами способствует разработке тех же технических средств, что участвуют в информационном поиске, знакомом нам по сервисам «Гугл» или «Яндекс», машинном переводе, электронных словарях.

Можно с уверенностью утверждать, что корпусная лингвистика делает лишь первые шаги, и в ближайшем будущем будет бурно развиваться.

Комментарии