Каталог статей конференції

Головна » Статті » Статті 2014

Никита Яблочков. РАЗРАБОТКА СИСТЕМЫ ПРОВЕДЕНИЯ ЛИНГВИСТИЧЕСКИХ ЭКСПЕРИМЕНТОВ НА ОСНОВЕ КОРПУСНЫХ ТЕХНОЛОГИЙ

Никита Яблочков

г. Киев

РАЗРАБОТКА СИСТЕМЫ ПРОВЕДЕНИЯ ЛИНГВИСТИЧЕСКИХ ЭКСПЕРИМЕНТОВ НА ОСНОВЕ КОРПУСНЫХ ТЕХНОЛОГИЙ

Основываясь на методах корпусной лингвистики и используя Украинский национальный лингвистический корпус, была сделана попытка разработки автоматизированного программного комплекса для проведения лингвистических экспериментов над украиноязычными текстами. Основной целью таких экспериментов является исследование лингвистических свойств разных типов коллокаций. С этой целью были разработаны формальные структуры представления грамматической, синтаксической, статистической информации, а также метаинформации, относящейся к обработанной выборке.

Пробная реализация была выполнена в виде лексикографического агента корпусной идентификации и статистического анализа эквивалентов слов (далее ЭС), которые можно рассматривать как частный вариант коллокаций длинны 2. Это было сделано как часть работы по исследованию ЭС, которая проводилась совместно с коллегами из Киево-Могилянской Академии.

Целью исследования был сбор статистической информации об употреблении предложных ЭС в украинских тестах разных стилей и выделение возможных кандидатов ЭС согласно выделенным грамматическим моделям.

Учитывая экспериментальный характер работы, для начала были выделены для обработки только два специфических «гнезда» ЭС, которые соответствуют схеме «Prep + N» (предлог и существительное):

Гнездо №1 (структурная схема «без+N2fs» (сущ. род. п., ж. род, ед. ч.) – как пример: «без пам'яті», «без утоми», «без передишки».

Гнездо №2 (структурная схема «на+N6ms» (сущ. мест. п., м. род, ед. ч.) - как пример: «на виду», «на бігу», «на корені».

Полученная статистика должна быть дополнена информацией о микроконтекстах употреблений ЭС для возможности дальнейшего комплексного анализа и ввиду дальнейшей интеграции с платформой ULISS.

Исследование проводилось на трёх выборках текстов из УНЛК, разделённых по стилям:

Художественный – 400 текстов, 11 418 905 слов
Публицистический – 290 текстов, 9 726 416 слов
Научный – 465 текстов, 8 592 724 слов

Далее приводятся сокращённые результаты обработки выбороки поиска двух гнёзд ЭС:

Художественный стиль – было найдено 148 употреблений (9 уникальных) из первого гнезда и 582 (8 уникальных) из второго.
Публицистический стиль – было найдено 12 употреблений (6 уникальных) из первого гнезда и 58 (7 уникальных) из второго.
Научный стиль – было найдено 49 употреблений (6 уникальных) из первого гнезда и 52 (7 уникальных) из второго.

Полученные результаты после обработки всех выборок были оценены как пригодные к дальнейшему анализу коллегами из Киево-Могилянской Академии.

Дальнейшее развитие комплекса будет проводиться в следующих направлениях:

а) Расширение структуры представления данных с существительных и предлогов до всех остальных частей речи.

б) Интеграция с системами поиска (в том числе и библиографического) УНЛК

в) Разработка функции автоматизированного выделения коллокаций из текстов, в которых присутствует грамматическая разметка.

Список литературы

Широков В. А. Корпусна Лінгвістика. К.: «Довіра», 2005.
Лучик А. А. Словник еквівалентів слова української мови. К.: Изд. дом «Києво-Могилянська академія», 2008.

Категорія: Статті 2014 | Додав: redaktor (06.06.2014)

Переглядів: 481 | Рейтинг: 0.0/0

Всього коментарів: 0

Друзі сайту

Статистика

Онлайн всього: 1

Гостей: 1

Користувачів: 0

Прикладна лінгвістика

Каталог статей конференції