1. Що таке слово? Визначення слова, що було б коштовне в теоретичному відношенні й мало б конкретне практичне значення ще не існує. "Теоретичне слово", яке виділяється у граматиці і "формальне слово",яке пишеться разом, важко об'єднати в рамках одного поняття. Є спеціальний граматичний термін, але спеціального орфографічного терміна не існує, відсутність чіткості в термінології веде в ряді випадків до неточностей. В ідеалі орфографія має потребу в єдиному правилі: одне слово пишеться разом, два слова - окремо. На справді все не так просто. Слова важко розмежувати між собою. Існує багато випадків, коли декілька "теоретичних слів" варто писати, як одне "формальне слово". Наприклад, 图书馆 'бібліотека' - це одне слово? Два слова? Три слова? Чому пишеться разом? Що таке 馆 'офіційна установа'? Слово? Морфема? Суфікс? Постпозитивний елемент? Афікс? Показник приналежності до частини мови? Чи таке твердження є логічним: "Іменник (书 'книга') і наступний односкладовий показник приналежності до частини мови (馆) пишуться разом"?
2. Орфографія зв'язана з усіма аспектами мови: її граматикою, семантикою, словотвором, ритмічною організацією. Однак цей зв'язок суперечливий. Не можна враховувати тільки один аспект. При врахуванні декількох аспектів який з них вважати головним? Наприклад, у пропозиції 我吃饭,你吃面 'Я їм рис, а ти хліб' 吃饭 'їм рис' пишеться окремо, а в словосполученні 吃饭问题 'проблема їжі' 吃饭 пишеться разом. Чи правильно це? Змінилися значення слів, однак дієслівно-об'єктні відносини змін не мають. Чому ж ми виходимо не з дієслівно-об'єктних відносин, а зі значень? Знову ж якщо 兄弟 'брати' розуміти 弟弟 'молодший брат', то це слово пишеться разом, якщо ж під ним розуміються 哥哥和弟弟 'старший і молодший брати', то воно пишеться наполовину разом (у середині ставиться дефіс). Чи можна, виходячи з формальних критеріїв, і в тім, і в іншому випадках писати разом? [15,378-383].
3. Важливим процесом, що спостерігається в ритмічній організації китайської мови, є його перетворення у двоскладну мову. Це впливає на орфографію, однак вступає в протиріччя із граматикою й словотвором. Наприклад, назва顺邑县 Шуньи сянь 'повіт Шуньи' може вимовлятися як 顺邑Шуньи, а слово сянь 'повіт' при цьому може бути опущено, тоді як назва峒县Тунсянь 'повіт Тунсянь' не може бути скорочене до 峒Тун (не можна опустити 县сянь 'повіт'). Як тут писати 县сянь? Разом? Окремо? Або із двоскдадовим власним ім'ям писати окремо, а з односкладовим - разом? У назвах островів 鹏胡岛Пэнхудао й Пэнхуледао 蓬岵仂岛писати власне ім'я й ім'я загальне разом, окремо або односкладове ім'я загальне писати із власним ім'ям разом, а двоскладове - окремо? Чому?[14](456,265,734)
4. На орфографію також впливає частотність уживання. Наприклад, числівники й рахункові слова пишутся окремо 三本书(сань бэнь шу 'три книги'), однак 一个игэ (числівник і 'один' з рахунковим словом гэ) за звичкою пишеться разом, тому що воно часто вживається (за характером вживання подібне до невизначеного артикля). Як визначити частотність? Як часто повинне вживатися слово, для того щоб писати його разом?
5. У китайській мові багато "зчіпних слів", які можна писати як окремо так і разом. Як діяти? У вихідній формі писати їх разом, а в її варіантах - окремо? Наприклад, як записувати алфавітом 鞠躬цзюйгун 'кланятися', 鞠了躬цзюйле гун 'поклонився', 鞠了一个躬цзюйле иге гун 'відбив один уклін', 鞠没有цзюй мей ю? – 鞠了цзюйле 'поклонився? - поклонився', 几个躬цзігэ гун? –一个躬 иге гун 'скільки уклонів? - один уклін'?
6. Слова з веньяня здебільшого односкладові, їх украй важко сприймати на слух, і за характером вони відрізняються від слів байхуа. Якщо в ченъюях веньяня кожне слово писати окремо, то перестане відчуватися єдність тексту й при їхньому вживанні в байхуа буде порушене зорове сприйняття. У контексті такі слова буде складно відокремити від тих, які стоять перед і за ним, що ускладнить читання й розуміння тексту. У японському "Словнику китайської мови" Кураіси Такесіро ченъюі вэньяня пишуться разом в один суцільний ряд що також представляється занадто громіздким. В останні роки намітилася тенденція до компромісного рішення: писати слова або словосполучення з вэньяня через дефіс, що їх одночасно й з'єднує, і роз'єднує, наприклад: 愚公移山Yugong-Yі- Shan 'Юй Гун пересуває гору', 惩前毖后chengqіan- bіhou 'щоб помилки минулого послужили уроком на майбутнє'. Однак і тут виникає побоювання, що доведеться писати занадто багато дефісів. Як бути?
Під час відсутності затверджених правил написання слів в різних друкованих виданнях, які видаються на алфавіті піньінь цзиму написання 85% слів збігається, у написанні 15%, що залишилися є великі розбіжності. Потрібно прагнути до усунення цих розбіжностей за допомогою звичного "загальновживаного" написання, а цього не можна досягти за короткий час.
"Проект фонетичного алфавіту для китайської мови" дає норму запису складів. Орфографія дає норму запису слів і словосполучень. З'єднання "Проекту" з орфографією й стане добре розробленою системою алфавітного письма[10,68-71].
РОЗДІЛ 4
СИСТЕМА СПОЛУЧЕННЯ ДВОХ МЕТОДІВ МАШИННОЇ ОБРОБКИ КИТАЙСЬКИХ ТЕКСТІВ
4.1 Початок дослідження методів обробки китайських текстів
Деякі говорять, що, коли можлива машинна обробка ієрогліфічних текстів, алфавіт більше не потрібний. Але все навпаки. Без алфавіту ЕОМ не могло стати знаряддям підвищення культури широких мас. ЕОМ, що обробляли ієрогліфічні тексти, потребували значних коштів, у них застосовувалися складні операції, одній людині важко було працювати на такій машині. Масове впровадження ЕОМ можливе було тільки у випадку використання машин, що обробляли тексти, записані алфавітом. Це також вигідно й з боку встановлення зв'язку з міжнародною інформаційною системою. Це так само вірно, як і те, що алфавітні друкарські машинки мали масове застосування, а ієрогліфічні могли експлуатуватися не широким колом людей, а лише спеціально підготовленими друкарками в установах. Для того щоб машинна обробка китайських текстів ішла в ногу з часом , необхідно було використовувати систему, що сполучала два методи: обробляла на ЕОМ і ієрогліфічні тексти, і алфавітні. Перший із цих методів варто було застосовувати організаціям, що мали для цього необхідні людські й матеріальні ресурси й до того ж існувала велика потреба у використанні ієрогліфів. Другий - приватними особами, у родині, у шкільних класах, у порівняно невеликих установах.
У той час багатьма організаціями Пекіна проводилися експерименти з метою створення штучного інтелекту. Наприклад, в Академії китайської медицини ЕОМ використовували для постановки діагнозів хворим, ведення історій хвороби, виписки рецептів; в Інституті мовознавства на ЕОМ проводилися експерименти в рамках діалогу "людина - машина"; в Інституті психології за допомогою ЕОМ ставили експерименти по "розумінню китайської мови". У всіх цих експериментах використовували алфавіт, а не ієрогліфи. Чому? Причина дуже проста: обробка ієрогліфічних текстів вимагала дорогого устаткування й складних процедур. Тому система сполучення двох методів фактично вже існувала, причому машини, що обробляли алфавітні тексти, зайняли провідне положення[9,156-157].
Звичайно, це не означило, що не потрібно було розвивати електронно-обчислювальну техніку, яка обробляла б ієрогліфічні тексти. При обробці ієрогліфічних текстів основні труднощі полягали у введенні ієрогліфів в ЕОМ. До теперішнього часу розроблено більше 400 способів введення ієрогліфів в ЕОМ. Вони підрозділяються на три групи:
1) графічні: ієрогліфи вводяться безпосередньо в ЕОМ у порядку черговості по елементах. Цей метод уже затвердився, підходить для використання в таких великих установах, як друкарні;
2) кодування за допомогою числового коду: більше 400 наявних способів належать головним чином саме до цієї групи;
3) перетворення алфавіту.
4.2 Способи кодування ієрогліфів
Способи кодування ієрогліфів за допомогою числового коду також підрозділяються на кілька видів.
1. Кодування елементів. Елементи, з яких складаються ієрогліфи, бувають великими й малими. Великий елемент відповідає, як правило, ключу ієрогліфа, малі елементи утворяться в результаті подальшого розкладання великого. Кожному елементу відповідає певна клавіша на панелі ЕОМ або ж йому дається певний числовий код.
2. Кодування ієрогліфів за їхніми особливими ознаками. У цьому випадку кодуються певні особливі ознаки ієрогліфів, наприклад третій або четвертий кут, перша або остання риска.
3. Кодування по рисках. Ієрогліфи складаються з рисок, які зводяться до декількох основних видів. Кожному такому виду відповідає клавіша на панелі ЕОМ або ж йому дається певний числовий код. Це старий спосіб, що розвивається на новій основі.
4. Числове кодування: кожному ієрогліфу на підставі його місця в словнику, частотності вживання або якої-небудь іншої характеристики дається числовий код. Найбільш старим і розповсюдженим з таких кодів є чотиризначний телеграфний код.