Неділя, 19.05.2024, 00:59
Вітаю Вас Гість | RSS

Прикладна лінгвістика

Меню сайту
Форма входу

Категорії розділу

Каталог статей конференції

Головна » Статті » Статті 2017

Крива Уляна. КОРПУСНИЙ МЕНЕДЖЕР SPACYCORP ДЛЯ ОПРАЦЮВАННЯ СТРУКТУРНО РОЗЗНАЧЕНОГО ТЕКСТУ

Крива Уляна 

м. Львів

КОРПУСНИЙ МЕНЕДЖЕР SPACYCORP ДЛЯ ОПРАЦЮВАННЯ СТРУКТУРНО РОЗЗНАЧЕНОГО ТЕКСТУ

У царині мовознавства завжди була необхідність в опрацюванні великих обсягів текстових даних для дослідження особливостей мови чи мовлення. Корпуси текстів і забезпечують доступ до таких даних та дають можливість опрацьовувати їх.

Розвиток корпусної лінґвістики та створення корпусів текстів вагомо вплинули на процес проведення лінґвістичних досліджень та на якість їхніх результатів. Як уважає С. Ґріс, аналіз мовних чи мовленнєвих даних, що базується на корпусному підході, має такі переваги: 1) корпуси текстів – це дані, взяті з реальних комунікативних ситуацій, і вони не є синтетично створеними; 2) ці дані зберігають контекстуальний аспект використання мови [3]. Це, відповідно, дає можливість досліджувати як зовнішньомовні, так і внутрішньомовні особливості текстів [2, с. 27]. Отож, окрім того, що корпуси текстів дозволяють полегшити роботу та зекономити час дослідникам під час вибірки даних, вони також є більш репрезентативним матеріалом для дослідження, аніж власноруч підготовлена вибірка.

І. Кульчицький вважає, що корпусом можна вважати «призначену для різноманітних лінґвістичних досліджень лінґвістично компетентно описану сукупність мовних чи мовленнєвих даних, які подані в електронній формі та споряджені відповідним спеціалізованим програмним забезпеченням» [1, с. 26]. Тому, як бачимо, наявність роззначених текстів та можливість доступу до них ще не є запорукою успішного проведення лінґвістичних досліджень на матеріалі цих текстів, бо необхідним також є й інструмент для роботи з ними. І, відповідно, функційність цього інструменту диктує можливості роботи з роззначеними текстами. Власне, таким інструментом і є корпусний менеджер [1, с. 26].

Створена нами програма SpacyCorp – це корпусний менеджер, що дозволяє опрацьовувати структурно роззначені за попередньо узгодженим набором позначок тексти. Позначки передбачені для таких елементів: абзац, цитата, речення, пряма мова. Відповідно, можливості цієї програми це: пошук речень, цитат, абзаців та прикладів прямої мови у структурно роззначених текстах і надання кількісної інформації про шукані елементи.

SpacyCorp було написано мовою програмування Python (версії 3.6) з використанням бібліотеки tkinter (для створення графічного інтерфейсу). Основний алгоритм за яким працює SpacyCorp:

  1. Завантажує один або більше файлів у форматі .txt та з кодуванням UTF-8;
  2. Зчитує та зберігає вміст цих файлів у змінну;
  3. За допомогою регулярних виразів шукає за позначками шукані елементи у текстах, збережених у змінній;
  4. Підраховує кількість знайдених елементів та зберігає це значення;
  5. Додає перед кожним знайденим елементом порядковий номер;
  6. Додає пронумерований знайдений елемент до списку;
  7. Для зручності перегляду видаляє за допомогою регулярних виразів усі позначки зі знайдених елементів, що збережені у списку;
  8. Виводить на екран кількість знайдених елементів, власне усі елементи та їхні порядкові номери.

Отож, зважаючи на те, що корпусний менеджер SpacyCorp може працювати тільки зі структурно роззначеними текстами, користувач може отримати лише деяку кількісну інформацію про тексти та їхню зовнішню будову; наприклад, скільки разів автор тексту покликається на когось. Однак, для глибшого та більш різнопланового аналізу текстів цього недостатньо. Тому ми бачимо такі шляхи вдосконалення та розширення функційності корпусного менеджера SpacyCorp: 1) можливість працювати з текстами іншого типу роззначення (морфологічного, семантичного, синтаксичного тощо) і, відповідно, збільшення можливостей пошуку у таких текстах; 2) надання користувачеві можливості встановлювати інші позначки у програмі (щоб користувач міг працювати з текстами для яких розроблено іншу систему позначок ніж та, яка стандартно закладена у SpacyCorp).

Список використаної літератури

  1. Кульчицький І. М. Технологічні аспекти укладання корпусів текстів / І. М. Кульчицький // Дані текстових корпусів у лінгвістичних дослідженнях : монографія / В. А. Широков, І. В. Шевченко, А. П. Загнітко та ін. ; за ред. О. П. Левченко .— Львів : Видавництво Львівської політехніки, 2015 .—
    С. 29-45
  2. Dash N. S. Corpus Linguistics: An Introduction / N. S. Dash .— New Dehli: Pearson Education-Longman, 2008 .— 208 p.
  3. Gries S. Th. Methodological and interdisciplinary stance in Corpus Linguistics [Електронний ресурс] / Stefan Th. Gries // John Benjamins Publishing Company. 2011 .— Режим доступу: http://www.linguistics.ucsb.edu/faculty/stgries/research/2011_STG_Interview_PerspCorpLing.pdf
Категорія: Статті 2017 | Додав: melnyknatv (07.11.2017) | Автор: Крива Уляна Романівна E
Переглядів: 793 | Коментарі: 6 | Рейтинг: 0.0/0
Всього коментарів: 1
1 bepPibutt  
0
<a href=https://cialiss.makeup>buy cheap cialis online</a> I m dealing with kids for the next 4 weeks so I ll wait for using tren

Ім`я *:
Email *:
Код *:
Друзі сайту
Статистика

Онлайн всього: 1
Гостей: 1
Користувачів: 0