П`ятниця, 29.03.2024, 16:14
Вітаю Вас Гість | RSS

Прикладна лінгвістика

Меню сайту
Форма входу

Категорії розділу

Каталог статей конференції

Головна » Статті » Статті 2015

Ірина Білятинська. ПРЕДСТАВЛЕННЯ СЛОВНИКІВ В ЕЛЕКТРОННОМУ ВИГЛЯДІ

Ірина Білятинська,

м. Київ

ПРЕДСТАВЛЕННЯ СЛОВНИКІВ В ЕЛЕКТРОННОМУ ВИГЛЯДІ

На сьогоднішній день у світі укладено величезна кількість різних (тлумачних, перекладних, граматичних тощо) словників. Ці лексикографічні праці ввібрали в себе досвід та майстерність лексикографів та можуть бути основою для укладання нових словникових видань (як паперових, так і електронних) словників та проведення різноманітних лінгвістичних досліджень. Щоб більш ефективного використовувати накопичений лексикографічний матеріал його потрібно представити у цифровій формі. Для досягнення цієї мети потрібно виконати такі завдання:

  1. Побудова концептуальної моделі словника;
  2. Сканування;
  3. Розпізнавання;
  4. Виявлення та виправлення недоліків допущених на етапі 3;
  5. Парсинг тексту.

На першому етапі побудови відбувається аналіз структури словникових статей, виділення основних структурних елементів та визначення зав'язків між ними. Коли загальна структура вже сформована, слід для всіх структурних елементів описати формальні ознаки, які базуються на поліграфічному оформленні словникових статей та можуть бути використані для ідентифікації окремих структурних елементів під час процедури парсингу, а отже служать орієнтиром для формулювання вимог до електронного представлення словника.

Етап сканування включає в себе вибір, налаштування обладнання та програмного забезпечення, підготовку словника до сканування та, власне, процес сканування. До обладнання відносяться сканери різного типу, елементи освітлення, V-подібні люльки для розміщення книг, тощо. Звичайно, що основним пристроєм є сканер, який підбирається відповідно до особливостей об’єкту сканування, його формату та матеріалу. Під час вибору скануючого пристрою слід пам’ятати, що оцифрування словників являє собою роботу з великим об’ємом матеріалу для сканування, адже, як правило, нас цікавлять великі, в середньому на 100 тисяч реєстрових одиниць, продукти лексикографування, тобто для одного словника потрібно відсканувати близько 1000 сторінок, тому є важливими показники швидкості та якості сканування.

Для виконнаня процесу сканування використовується спеціалізоване програмне забезпечення до функціоналу якого може входити коректування отриманого зображення (яскравість, контрастність, поворот на певний кут), налаштування розширення зображення, багатосторінкове сканування, збереження отриманого результату в різні формати, тощо.  Прикладами таких програм є ABBYY FineReader, CuneiForm 12 Master,  Readiris Pro 11, Scanitto Liteрамного, тощо. Для підвищення якості відсканованого матеріалу, від якої залежатиме успішність процесу розпізнавання, слід правильно налаштувати режим сканування: обрати розширення отриманого зображення, задати режим сканування відповідно до того, який текст ми скануємо: чорно-білий, кольоровий чи текст з відтінками сірого; вказати формат словника, при необхідності встановити режим поділу відсканованого зображення на сторінки (якщо скануюча поверхня сканера дозволяє розмістити книгу в розгорнутому вигляді), ввімкнути автоматичне та налаштувати багатосторінкове сканування. Метою таких маніпуляцій є отримання найбільш якісного зображення, а складність полягає в тому, що немає універсальних правил, адже на результат значно впливають властивості матеріалу, на якому надруковано словник, якість та чіткість друку, наявність пошкоджень, тощо. Варто здійснити кілька пробних сканувань із різними налаштуваннями, щоб визначити найбільш оптимальні. Під час підготовки до сканування, у разі відсутності V-подібної люльки слід словник розшити.

Етап розпізнавання включає в себе налаштування програмного забезпечення, вибір режиму розпізнавання,  формату збереження даних, розпізнавання тексту, збереження його у файл.

На етапі розпізнавання відбувається виділення тексту із отриманих під час сканування матеріалів. В процесі розпізнавання зображень сторінок словників, як це вже згадувалось раніше, крім тексту надзвичайно важливим є виділення шрифтового та поліграфічного оформлення, адже за рахунок нього відбуватиметься ідентифікація структурних елементів словникових статей. Часто, під час розпізнавання втрачається курсив чи напівжирний стиль, або помилково ідентифікуються специфічні символи, що утворюють метамову словника. Це може бути свідчення того, що були не правильно налаштовані параметри сканування. В таких ситуаціях  слід спробувати повторити процес сканування з іншими налаштуваннями, змінити програму розпізнавання тексту або в режимі навчання, який передбачають більшість програм розпізнавання, задати особливості розпізнавання потрібних символів. Нажаль, досить часто помилки розпізнавання пов’язані з якістю сканованого матеріалу та на етапі сканування не виправляються.

Під час виявлення та виправлення недоліків слід сформулювати вимоги до вихідного тексту словника після розпізнавання, здійснити аналіз розпізнаного матеріалу, виявити недоліки, систематизувати та сформулювати правила їх виправлення.

Вимоги до вихідного тексту словника формулюються на основі формального опису структурних елементів словникової статті: все шрифтове оформлення, поліграфічні ознаки, спеціальні символи, які використовуються для ідентифікації структурних елементів повинні бути відтворені. Недоліки, виявленні під час аналізу, слід систематизувати за спільними ознаками та визначити шляхи їх усунення. Справа в тому, що частина  помилок повторюється і для них можна сформулювати правила виправлення за допомогою функції автоматичної заміни, доступної в більшості текстових редакторів. Наприклад, символи «(» та «)» часто розпізнаються як «{» та «}» відповідно. Оскільки ймовірність того, що в тексті словникових статей зустрінеться один з символів «{» або «}» досить низька, можна замінити автоматично символ «(» на «{» та «)» на «}» для всього тексту. Взагалі, ми класифікуємо всі помилки на три групи: ті, які ліквідуються за допомогою автоматичної заміни, ті, які можуть бути виправлені автозаміною з переглядом та ті, які потребують ручної правки.

Подальша обробка матеріалу може бути різною. За технологією, як загально прийнята в Українському мовно-іформаційному фонді для формування словникових баз даних, виконується процедура парсингу.

 У широкому значенні парсинг – це  процес співставлення лінійної послідовності лексем природньої мови з її формальною граматикою, результатом якого є синтаксичне дерево. Дану процедуру виконує програма, або певний блок програми, який називається парсером.

Парсер виявляє на основі метамови словника його структурні елементи, присвоює їм маркери, на основі яких відбувається конверсія вмісту словника до лексикографічної бази даних.

Лексикографічна база даних забезпечує широкі можливості для побудови  зовнішніх інтерфейсів різних типів

Категорія: Статті 2015 | Додав: ira-denysyuk (16.11.2015)
Переглядів: 937 | Коментарі: 2 | Рейтинг: 0.0/0
Всього коментарів: 2
2 Читач  
0
В статті багато уваги приділено процесу розпізнавання, але це виконується, як зазначено в статті, спеціалізованим ПЗ, що не розробляється чи адаптується під завдання авторкою.
І дуже мало, а іноді і зовсім немає, уваги саме побудові концептуальної моделі, внутрішньої та зовнішньої моделям, розробленню системи парсингу тексту.

1 Читач  
0
В статті написано, - "Парсер виявляє на основі метамови словника його структурні елементи, присвоює їм маркери, на основі яких відбувається конверсія вмісту словника до лексикографічної бази даних.", - так от питання, а звідки тут взялась БД, якщо в завданнях, що, як зазначає авторка, потрібно виконати для досягнення мети, ніякої бази та її проектування немає? І наступне питання, про які типи зовнішніх інтерфейсів (функціональні, системні тощо), я так розумію користувацьких?, йдеться? Типізуйте, будь ласка, ці інтерфейси, бо незрозуміло, про що мова.
І ще одне питання. В чому новизна Вашої роботи у порівнянні з іншими роботами співробітників згадуваного Вами інституту (Український мовно-іформаційний фонд), що було представлено наприклад в монографіях:

Елементи лексикографії: Моногр. / В. А. Широков; Укр. мов.-інформ. фонд НАН України. — К.: Довіра, 2005. — 304 с. — Бібліогр.: с. 294–301. — укр.
8.Інформаційна теорія та системотехнічні засади комп'ютерної лексикографії: Автореф. дис… д-ра техн. наук: 05.13.06 / В. А. Широков; НАН України. Нац. б-ка України ім. В. І. Вернадського. — К., 1999. — 32 с. — укр.

Корпусна лінгвістика: Монографія / Широков В. А., Бугаков О. В., Грязнухіна Т. О., Костишин О. М., Кригін М. Ю., Любченко Т. П., Рабулець О. Г., Сидоренко О. О., Сидорчук Н. М., Шевченко І. В., Шипнівська О. О., Якименко К. М.; Український мовно-інформаційний фонд НАН України. – К.: Довіра, 2005, – С. 309-330 с.

Ім`я *:
Email *:
Код *:
Друзі сайту
Статистика

Онлайн всього: 1
Гостей: 1
Користувачів: 0