Редагування спецдокументації (стр. 5 из 25)

Комп’ютерні словники, які використовують для редагування текстів, класифікують:

за типом лексичних одиниць - словники словоформ, в яких слова подають у всіх їх словозмінних формах, і словники основ, у яких до основи кожного слова вказують всі її можливі закінчення;

за наявністю блоків для аналізу морфем (префіксів, суфіксів, закінчень), за допомогою яких від основ можна утворювати нові похідні слова.

Для аналітичних мов (на зразок англійської) частіше використовують словники словоформ, а для синтетичних (як українська) - словники основ.

Кожен із цих словників має свої недоліки і переваги. Так, словник словоформ дуже легко можна створити, опрацювавши на комп’ютері достатньо великий масив текстів і записавши всі однакові слова у вигляді словника на комп’ютерний носій інформації. На жаль, такий словник за обсягом у кілька разів буде перевищувати аналогічний словник основ, який можна створити лише нетрадиційним способом. Тому інколи для синтаксичних мов використовують комбінований тип словників, в яких для найуживаніших словоформ подають також усі інші можливі закінчення.

2.3.2 Методи реконструкції

Операції виправлення значно складніші, ніж операції контролю. Вони дають змогу автоматично виправляти лише окремі знаки в словах. Серед цих методів найвідоміший абревіатурний, алфавітний, базовий, комбінаторний та цифровий. Розглянемо їх на прикладі алфавітного методу.

Для алфавітного методу кожен запис у реконструюючому словнику утворюють із чотирьох полів:

для запису правильного (нормованого) слова;

для запису довжини слова в знаках;

для запису алфавіту від „а” до „я”;

для позиційного запису кількості входжень літер у правильне слово. Подамо приклад такого запису:

поле 1: структура

поле 2: 9

поле 3: а б в г ґ д е є ж з и і ї й к л м н о п р с т у ф х ц ч ш щ ю я

поле 4: 112122

У такому словнику всі записи сортують за довжинами слів. Слова, довжина яких менша, ніж три літери, до словника не входять; їх реконструюють на основі окремого словника часто вживаних слів. Редакторові як підказку видають слів-кандидатів для виправлення тексту (найчастіше до 10), з яких редактор повинен вибрати потрібне. Таке слово за командою редактора автоматично вставляється в текст на місце помилкового.

Ефективність алфавітного методу реконструкції за певних умов може досягати 0,8. Недоліками цього та інших методів реконструкції є те, що вони для слів малої довжини видають порівняно велику кількість слів-кандидатів.

Метод повністю автоматизованої реконструкції полягає в тому, що помилки в деяких часто вживаних словах є однаковими у великій кількості людей, а тому можна задати їх автоматичне виправлення за допомогою реконструюючого словника підстановок (наприклад, завжди заміняти зпід на з-під, свойого на свого тощо). За допомогою такого словника можна контролювати й автоматично заміняти суржик і типові часто повторювані помилки.

Інтегрована лексикографічна система.

„Словники України"

НАЦІОНАЛЬНА АКАДЕМІЯ НАУК УКРАЇНИ

УКРАЇНСЬКИЙ МОВНО-ІНФОРМАЦІЙНИЙ ФОНД

Інтегрована лексикографічна система

Словники України

Передмова.

Інтегрована лексикографічна система "Словники України" призначена для надання користувачам лексикографічної інформації. Вона складається з п'яти словникових підсистем-модулів - парадигматичної, транскрипції, фразеології, синонімічної та антонімічної.

Реєстр.

Основу генерального реєстру системи "Словники України" складає реєстр Орфографічного Словника української мови, 2-е видання (К.: Довіра, 1999), який практично повністю відтворено й значно розширено в цій системі. Генеральний реєстр включає понад 150 тис. слів.

Парадигма.

Парадигматичний модуль створено на основі розробленої в Українському мовно-інформаційному фонді НАН України словозмінної класифікації української лексики, в якій виділено за певними формальними ознаками близько 1500 парадигматичних класів для всіх відмінюваних повнозначних частин мови, а з урахуванням акцентуації - близько 3000 класів. Завдяки вказаній класифікації й розробленій процедурі парадигматизації побудовано повний перелік усіх граматичних форм для усіх лексичних одиниць, наведених у реєстрі. Це забезпечило візуалізацію усіх словоформ в усіх граматичних значеннях. Повне число словоформ для понад 150 тис. одиниць реєстру є порядку 3 млн. У модулі "Парадигма" користувач, вибравши в реєстрі будь - яке слово, автоматично одержує в правому вікні екранну таблицю всіх словоформ для вибраної реєстрової одиниці з поданням їх граматичних параметрів.

Транскрипція.

Модуль "Транскрипція" забезпечує автоматизоване виведення за допомогою транскрипційних знаків інформації про артикуляцію лексичних одиниць реєстру згідно із сучасною літературною вимовою звуків. В основу модуля покладено інформацію, що міститься в Орфоепічному словнику української мови, перший том якого вийшов у серії "Словники України" (К.: "Довіра", 2001). Його реєстр тут значно розширено за рахунок слів, які пишуться через дефіс, словосполучень тощо.

Фразеологія.

Фразеологічний модуль містить близько 56 тис. фразеологічних одиниць, які вживаються у сучасному українському мовленні. Фразеологізми є основою національного обличчя кожної мови; в них, як ні в якій жодній одиниці, яскраво виявляється специфічний національний колорит, особливості образного народного мислення, власне національне сприйняття "мовної картини світу", віддзеркалення характерних особливостей культури і побуту, народних звичаїв, символіки, історичного минулого. Фразеологічний модуль з достатньою повнотою передає фразеологічне багатство української мови на матеріалі літературної мови XIX-XX століть. Основою фразеологічного модуля послужили "Фразеологічний словник української мови" у 2-х книгах (К.: Наукова думка, 1993 та друге видання - 1999 рік), а також підготовлений до друку в серії "Словники України" новий "Фразеологічний словник української мови", де найповніше відображено загальновживану фразеологію української мови і дано всебічну лексикографічну характеристику фразеологізмів.

Синонімія.

Модуль синонімії з достатньою повнотою подає синонімічне багатство української мови (на матеріалах літературної мови ХІХ-ХХ ст. та народнорозмовної лексики). Модуль синонімії створено на основі "Словника синонімів української мови" у 2-х томах, який було випущено в серії "Словники України", (К.:, Наукова думка, 1999-2000 рр). Модуль словника містить синонімічні ряди (близько 9200), що складаються зі слів або їхніх окремих значень, а також сталих словосполучень (номінативних та граматичних). Ядром кожного синонімічного ряду є його домінанта - лексична одиниця, що має найзагальніші для цього ряду семантичні особливості. У словниковій статті вона є реєстровим словом. Члени синонімічних рядів супроводжуються семантичними, граматичними та стилістичними характеристиками. Уживання синонімів ілюструється типовими для них контекстами - цитатним матеріалом із художньої, публіцистичної, наукової та ін. літератури й словосполученнями.

Антонімія.

Основна частина модуля - словник антонiмiв, в якому подано понад 250 словникових статей. За змістом він відповідає Словникові антонімів української мови, який вийшов в серії "Словники України" у 1999 р. Загалом у модулі антонімів представлено понад 2200 компонентiв антонiмiчних пар, якi є у всiх частинах словникових статей.

Робота з системою.

Доступ користувача до кожного з модулів інтегрованої лексикографічної системи "СЛОВНИКИ УКРАЇНИ" забезпечується інтерфейсною програмою. У лівому вікні інтерфейсної програми знаходиться українська абетка, а також частина реєстру словника, що починається з вибраної літери. У правому вікні - інформація, яка відповідає вибраному реєстровому слову словника, з яким працює користувач. Вибір необхідної лексикографічної функції (словника) здійснюється кнопками "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія", розміщеними на верхній панелі програми. При натисканні на кнопки "Фразеологія", "Синонімія" або "Антонімія" у правому від реєстра стовпчику з'являються літери "Ф", "С" або "А", відповідно, біля реєстрових одиниць, наявних у складі певних фразеологізмів, синонімічних або антонімічних рядів.

Дружній програмний інтерфейс системи дозволяє користувачеві:

Вільно переходити від одного словника до іншого.

Переглядати зміст вибраного словника.

Проводити пошук слова у кожному з словників.

Для перегляду слів у словниках слід:

"Вибрати потрібний словник, натиснувши мишкою на одну з кнопок "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія".

Вибрати літеру, з якої починається слово у лівій панелі інтерфейсної програми.

Використовуючи смуги прокрутки, можна переглядати слова на вибрану літеру

Для пошуку слів у словниках необхідно:

Вибрати потрібний словник, натиснувши мишкою на одну з кнопок "Парадигма", "Транскрипція", "Фразеологія", "Синонімія", "Антонімія".

Ввести необхідне слово у стрічці вводу.

Натиснути мишкою кнопку "Пошук".

У системі проведено досить глибоку індексацію текстів словникових статей, що містяться в модулях "Фразеологія", "Синонімія", "Антонімія". Регулярно не індексувалися лише невідмінювані неповнозначні частини мови, оказіоналізми, деякі діалектизми та рідковживані слова, деякі власні назви тощо. При індексуванні автори намагалися якомога повніше і глибше забезпечити зняття омонімії, у тому числі граматичної, що зроблено уперше в україномовних автоматизованих системах опрацювання мови. Завдяки проведеній індексації значно полегшується пошук інформації про лексичні одиниці. Так, подвійне натискання мишкою на будь-яке слово у правому (інформаційному) вікні програми забезпечує вибір його основної форми та автоматичний перехід до цього слова у реєстрі.