Автоматизація реферування (стр. 4 из 9)

В Україні вже здійснюються спроби підготовки та видання реферативної інформації. Так, Черкаський центр інформації з хімічної промисловості видає реферативні збірники, що являють собою фактично збірники коротких оригінальних статей з проблем хімії та хімічної промисловості або ж містять виробничий досвід. "Медицинский реферативний журнал", який видає з 1994 року Республіканський центр наукової медичної інформації Міністерства охорони здоров’я України, містить реферати зарубіжних медичних періодичних видань. Інститут проблем реєстрації інформації НАН України з 1995 року видає український реферативний журнал "Джерело" (чотири рази на рік). Журнал містить авторські реферати статей, що публікуються лише у періодичних виданнях НАН України. Реферування кожного журналу здійснюється нетематично, незважаючи на те, що багато статей має міжгалузеве значення В журналі відсутній довідково-пошуковий апарат. Усе це не дозволяє вважати журнал повноцінним реферативним виданням.

Отже, в Україні вже тепер можна застосовувати систему реферування за двома схемами: децентралізованою та централізованою. Однак при застосуванні децентралізованої схеми в системі реферування буде задіяно багато різних міністерств та відомств, що викличе труднощі в координації цієї роботи. Тому доцільно застосовувати централізовану систему реферування.

Згідно з Законом України "Про видавничу справу" видання реферативних журналів покладається на Книжкову палату. Враховуючи те, що Книжкова палата України одержує обов’язковий примірник всієї друкованої продукції, має власну видавничо-поліграфічну базу, можна стверджувати, що вона має всі підстави стати провідною організацією у сфері реферування.

З метою підвищення оперативності та якості підготовки реферативних журналів та збереження бюджетних коштів було б доцільним застосовувати авторський реферат, який в обов’язковому порядку повинен супроводжувати рукопис документа, що видається.

Таким чином, запропонована нами організаційно-функціональна структура системи реферування має основним своїм ланцюгом центральний заклад з підготовки та видання реферативних журналів – Книжкову палату України. На неї повинні бути покладені такі функції:

• одержання від видавництв, реєстрація та обробка рефератів і формування бази даних рефератів;

• формування змістовної частини, оформлення та підготовка до друку випусків реферативних журналів;

• контроль за виконанням вимог нормативно-методичних документів щодо системи реферування;

• створення реферативних баз даних;

• довідково-інформаційне обслуговування в традиційному та автоматизованих режимах;

• здійснення в установленому порядку міждержавного обміну реферативного інформацією.

Пропозиції щодо фінансово-господарського механізму функціонування системи реферування складаються з вимог поширення чинності законодавства України, що стосується державної підтримки періодичних видань засобів масової інформації, на реферативні видання. Це дасть можливість одержати пільги та звільнення від податку на додану вартість на папір, картон та інші поліграфічні матеріали вітчизняного виробництва, а також на послуги підприємств поліграфії, зв’язку та транспорту.

Підготовка, видання та розповсюдження реферативних журналів ведеться на безприбуткових засадах. Саме фінансування робіт з підготовки та видання реферативної інформації повинне здійснюватись із держбюджету за державним замовленням та за рахунок коштів від розповсюдження реферативних видань.

3. Автоматичне реферування

Одним з класичних завдань комп’ютерної лiнгвiстики є побудова систем автоматичного реферування наукових, технiчних, полiтичних, дiлових текстiв. Актуальнiсть цього завдання значно зростає у зв’язку з появою на iнформацiйному ринку повнотекстових баз даних. Цi бази мiстять у виглядi документiв не реферати, а тексти наукових статей. У свiтлi сказаного в Главi 2 стає очевидною необхiднiсть вияву в кожному з таких текстiв найбiльш iнформативних речень, iнакше якiсть пошуку буде невисокою. Якщо ж iдеться про iншомовнi бази, то треба, очевидно, прагнути до побудови систем, якi iнтегрують 3 основнi функцiї: пошук, переклад i реферування. Розробка системи автоматичного реферування є можливою на основi експериментально-семантичного дослiдження мiжфразової структури тексту, з наступною реалiзацiєю IС, що володiють спроможнiстю гiперсинтаксичного “розумiння” текстiв.

3.1 Теоретичнi аспекти мiжфразового аналiзу

Одне з найважливiших лiнгвiстичних явищ - рiзне значення мовних одиниць в iзольованому станi та в бiльш складному мовному цiлому. Ще А.А.Потебня вiдзначав, що значення будь-якої граматичної форми проявляється по зв’язку з iншими формами в мовi та текстi [Потебня, 1958]. Звiдси можна зробити висновок, що принципову важливiсть має аналiз граматичних i семантичних явищ у контекстi, тобто моделювання їх поводження у текстi. При цьому очевидно, що контекст, взагалi кажучи, може вийти за рамки речення, так що внутрiшньофразовий опис вiдповiдних одиниць буде заздалегiдь помилковим. Мiжфразовi зв’язки реалiзуються в текстi двома засобами: експлiцитно та iмплiцитно. При розробцi систем автоматичної переробки тексту необхiдно враховувати цi розбiжностi у вiдносинах мiж реченнями; зрозумiло, що для їхнього моделювання необхiднi рiзнi апарати. З iншого боку, не треба розглядати вивчення цих зв’язкiв як принципово рiзнi завдання: для вияву в текстi iмплiцитних мiжфразових вiдносин необхiдно спочатку навчитися виявляти експлiцитнi вiдносини. Очевидно, що автоматизована система, що враховує при переробцi тексту тiльки експлицитнi вiдношення мiж реченнями, неминучо минає деякi мiжфразовi вiдносини лише тому, що вони не мають формального вираження. Велика кiлькiсть промислових iнформацiйних систем (наприклад, системи iндексування, перекладу), використовуючи тiльки “поверхнi” мовнi явища, як ми бачили, тим не менше, є досить ефективними. В данiй главi описуються теоретична база та реалiзованi на її основi автоматизованi системи, що аналiзують тексти на мiжфразовому рiвнi. Створення таких систем переслiдувало двi цiлi: практичну та теоретичну. Перша полягає в автоматизацiї процесу реферування текстiв у промислових iнформацiйних системах, друга - у перевiрцi правильностi лiнгвiстичних гiпотез про структуру тексту й розподiл iнформацiї в ньому.

3.2 Мiжфразовi зв’язки

Для того щоб вивчити характеристики тексту як єдиного цiлого, необхiдно, в першу чергу, визначити поняття зв’язностi. На перший погляд, природно розглядати речення як смисловi одиницi i виявляти в текстi їх смисловi зв’язки. У виглядi прикладу такого пiдходу можна навести теорiю семантичної еквiвалентностi Е. Агриколи [Agricola, 1977], який вважає, що основною формою об’єднання речень є семантична еквiвалентнiсть - явнi чи неявнi смисловi вiдносини рiзноманiтного типу мiж словами, якi входять у речення. Рiзновидом такого пiдходу є всiлякi модифiкацiї (явного) лексично-семантичного повтору, прибiчники якого дотримуються погляду, що смисловий зв’язок речень у текстi проявляється в смисловiй близькостi слiв, котрi входять до їх складу, вважаючи, очевидно, що смислова близькiсть слiв гарантує або принаймнi прогнозує смислову близькiсть речень.

Роботи цього напрямку походять вiд вiдомого дослiдження О.В. Падучевої [Падучева, 1965], яка, вивчивши об’єктивнi характеристики тексту, ввела поняття прямої та непрямої домiнацiї, пiзнiше iнтерпретованi як лексичний i семантичний повтор [Рылова, 1969; Бэлза, 1971; Гиндин, 1971; Бондаренко, 1975]. Розумiючи, що явища прямої i непрямої домiнацiї становлять одну з характерних особливостей тексту, цi дослiдники пiшли, на наш погляд, “шляхом найменшого опору”, вважаючи саме повтор механiзмом зв’язностi. Це, в свою чергу, дозволяло поставити питання про достатнiсть використання семантичних словникiв [Гиндин, 1972] для вияву зв’язкiв мiж реченнями тексту, правда, без наступної iнженерно-лiнгвiстичної перевiрки цiєї гiпотези. Iнакше кажучи, при такому пiдходi практично вiдпадає необхiднiсть утворення особливої граматики мiжфразового рiвня мови, тому що вся iнформацiя, необхiдна для опису мiжфразових вiдносин, може бути апрiорно зафiксована в словнику. Проте, незвжаючи на спокусливу простоту, при бiльш глибокому розглядi цей пiдхiд починає викликати заперечення. З одного боку, методологiчно невиправданим було б розглядати текст як свого роду гербарiй, елементи якого можуть бути сгрупованi за ознакою спорiдненостi. В текстi речення не повторюють, а доповнюють одне одне (див. нижче), а ступiнь їх “смислової близькостi” та “далекостi” практично неможливо вимiрити. З iншого боку, i самий iнструмент аналiзу мiжфразових зв’язкiв - семантичнi словники - виглядає надто ненадiйним i таким, що не вiдповiдає всiй гамi мiжфразових вiдносин. Реальнi семантичнi словники вiдбивають лише малу частину реально iснуючих смислових вiдносин, причому останнi часто вiдбираються для включення в словник iз суто прагматичних мiркувань: так, в iнформацiйно-пошукових тезаурусах задаються вiдносини синонiмiї, антонiмiї, родово-видовi та деякi види асоцiативних. Але цей “екстракт” жодним чином не вичерпує всiх смислових вiдносин мiж словами i, отже, не може бути й мови про достатнiсть використання словникiв для вияву в текстi непередбачених, апостерiорних вiдносин. Це вiдноситься, в першу чергу, до слiв “загального” значення, що має дуже нечiтку семантику [Блехман, 1982: Формалiзация...]. Крiм того, в текстi часто зустрiчаються випадки “просторової” близькостi об’єктiв, що не мають жодного априорного, словникового смислового зв’язку. Так, у вiдомiй англiйськiй лiчилцi

(1) Humpty-Dumpty sat on the wall. Humpty-Dumpty had a great fall.
(2) Humpty-Dumpty sat on the wall. He enjoyed the state greatly and never had any trouble about it.

Якщо в першому уривку сидiння Шалтая-Болтая на стiнi розглядається як причина наступної катастрофи, то в другому - як джерело насолоди. Таким чином, для правильного, тобто такого, що вiдповiдає задуму автора, розумiння деякого речення Si неминучо потрiбно враховувати iншi речення того ж тексту, кiлькiсть яких у текстi з t речень може складати вiд 1 до t-1. Притягнення iнформацiї з iнших речень для розумiння даного I.I.Ревзiн у своїй класичнiй роботi з лiнгвiстики тексту [Ревзин, 1978] назвав “насиченням” речення. Проте, треба пiдкреслити, що саме по собi насичення, власне кажучи,є недостатнiм для адекватного розумiння речень тексту, тому що повної насичувальної iнформацiї значно бiльше: вона вiдбиває багатий досвiд, накопичений людством за тисячолiття свого iснування, вiн мiститься в багатьох тисячах усних i письмових текстiв рiзних жанрiв.Справдi, чи можна зводити, наприклад, змiст речення The cow jumped over the Moon до простої констатацiї того факту, що корова перестрибнула через Мiсяць? Лiнгвiстику ж мають цiкавити, головним чином, вiдношення мiж реченнями, якi входять в одне й те ж мовне цiле - текст, i саме тому I.I.Ревзiн запропонував абстрагу-ватися вiд позалiнгвiстичних чинникiв при аналiзi тексту. Отже, зв’язок речень у текстi має сенс розглядати не як деяку їх семантичну близькiсть (“семантичнi близькими” є всi речення тексту, оскiльки вони є частками єдиного цiлого), а як насичення одних речень iншими. Речення Si пов’язане з реченням Sk, якщо одне з них насичує iнше. (В загальному виглядi, як було сказано вище, насичуюча iнформацiя може мiститися бiльш нiж в одному реченнi тексту). Там, де немає насичення, вiдсутнiй зв’язок речень. При такому пiдходi мiжфразовий зв’язок розглядається як явище, що носить апостерiорний характер, i, природно, семантичнi повтори самi по собi не можуть розглядатися анi в якостi причини, анi у виглядi показника зв’язку речень. Тепер можна встановити, що таке насичення речень i в чому проявляється їх ненасиченiсть. Продовжуючи мiркування, якi ми почали вище, скажемо, що ненасиченiсть речення Si може бути викликана або наявнiстю в ньому деякого предмету, бiльш докладний опис якого мiститься в Sk, або деяким логiчним вiдношенням мiж Si i Sk (пор. приклад iз Шалтаєм-Болтаєм). Переходячи до аналiзу мовного оформлення зв’язкiв мiж реченнями тексту, треба визначити, що в одних випадках мiжфразовi вiдносини “попадають” у план вираження, так що їх можна назвати поверхнево-синтаксичними, в iнших же “залишаються” в планi змiсту. Експлiцитнiсть поверхнево-синтаксичних зв’язкiв зумовлена тим, що речення Si мiстить спецiальний сигнал про наявнiсть у ньому предмету, котрий визначається в деякому Sk, чи логiчного зв’язку Si з деяким Sk. Найбiльш розповсюджене найменування таких сигнальних елементiв - конектори. Особливiсть конектора полягає в тому, що вiн одночасно - i маркер, i причина ненасиченостi речення. Будемо (пор. [Берзон, Зубов, 1977]), розрiзняти безоцiнювальнi та логiчно-смисловi конектори. Рiзниця мiж ними полягає в тому, що другi безпосередньо виражають логiчнi вiдношення мiж Si i Sk. Зокрема, причинно-наслiдковi логiчно-смисловi конектори (“следовательно”, “поэтому”, “hence” тощо) не тiльки оформлюють зв’язок мiж реченнями, але й маркують її характер, а саме - причинно-наслiдковi вiдносини даних речень. Що ж стосується безоцiнкових конекторiв (“этот”, “the” тощо), то вони не несуть такого семантичного навантаження, маркуючи лише об’єктивно iснуючi в текстi суто анафоричнi (з вiдсиланням назад) i катафоричнi (з вiдсиланням уперед) речення. Це не означає, зрозумiло, що речення, формально зв’язанi безоцiнковим конектором, не можуть знаходитися в логiчних вiдносинах. Наведемо простий приклад: