Никита Яблочков
г. Киев
РАЗРАБОТКА СИСТЕМЫ ПРОВЕДЕНИЯ ЛИНГВИСТИЧЕСКИХ ЭКСПЕРИМЕНТОВ НА ОСНОВЕ КОРПУСНЫХ ТЕХНОЛОГИЙ
Основываясь на методах корпусной лингвистики и используя Украинский национальный лингвистический корпус, была сделана попытка разработки автоматизированного программного комплекса для проведения лингвистических экспериментов над украиноязычными текстами. Основной целью таких экспериментов является исследование лингвистических свойств разных типов коллокаций. С этой целью были разработаны формальные структуры представления грамматической, синтаксической, статистической информации, а также метаинформации, относящейся к обработанной выборке.
Пробная реализация была выполнена в виде лексикографического агента корпусной идентификации и статистического анализа эквивалентов слов (далее ЭС), которые можно рассматривать как частный вариант коллокаций длинны 2. Это было сделано как часть работы по исследованию ЭС, которая проводилась совместно с коллегами из Киево-Могилянской Академии.
Целью исследования был сбор статистической информации об употреблении предложных ЭС в украинских тестах разных стилей и выделение возможных кандидатов ЭС согласно выделенным грамматическим моделям.
Учитывая экспериментальный характер работы, для начала были выделены для обработки только два специфических «гнезда» ЭС, которые соответствуют схеме «Prep + N» (предлог и существительное):
Гнездо №1 (структурная схема «без+N2fs» (сущ. род. п., ж. род, ед. ч.) – как пример: «без пам'яті», «без утоми», «без передишки».
Гнездо №2 (структурная схема «на+N6ms» (сущ. мест. п., м. род, ед. ч.) - как пример: «на виду», «на бігу», «на корені».
Полученная статистика должна быть дополнена информацией о микроконтекстах употреблений ЭС для возможности дальнейшего комплексного анализа и ввиду дальнейшей интеграции с платформой ULISS.
Исследование проводилось на трёх выборках текстов из УНЛК, разделённых по стилям:
- Художественный – 400 текстов, 11 418 905 слов
- Публицистический – 290 текстов, 9 726 416 слов
- Научный – 465 текстов, 8 592 724 слов
Далее приводятся сокращённые результаты обработки выбороки поиска двух гнёзд ЭС:
- Художественный стиль – было найдено 148 употреблений (9 уникальных) из первого гнезда и 582 (8 уникальных) из второго.
- Публицистический стиль – было найдено 12 употреблений (6 уникальных) из первого гнезда и 58 (7 уникальных) из второго.
- Научный стиль – было найдено 49 употреблений (6 уникальных) из первого гнезда и 52 (7 уникальных) из второго.
Полученные результаты после обработки всех выборок были оценены как пригодные к дальнейшему анализу коллегами из Киево-Могилянской Академии.
Дальнейшее развитие комплекса будет проводиться в следующих направлениях:
а) Расширение структуры представления данных с существительных и предлогов до всех остальных частей речи.
б) Интеграция с системами поиска (в том числе и библиографического) УНЛК
в) Разработка функции автоматизированного выделения коллокаций из текстов, в которых присутствует грамматическая разметка.
Список литературы
- Широков В. А. Корпусна Лінгвістика. К.: «Довіра», 2005.
- Лучик А. А. Словник еквівалентів слова української мови. К.: Изд. дом «Києво-Могилянська академія», 2008.
|