Смекни!
smekni.com

Автоматизація реферування (стр. 7 из 9)

3.6 Система квазiреферування

Опрацювання системи автоматичного реферування має чималий практичний iнтерес. Це викликано не тiльки регулярним збiльшенням обсягу документальних потокiв, але й таким важливим чинником, як запровадження в дiю промислово-орiєнтованих АСНТI з автоматичним iндексуванням i систем машинного перекладу, а також повнотекстових баз даних. При цьому реферування, будучи одним iз ключових процесiв аналiтично-синтетичної переробки текстiв, поки що виконується вручну. У той же час, автоматичне реферування, з нашої точки зору, може бути справдi ефективним тiльки в тому випадку, якщо виконуються такi п’ять вимог: - система має формувати реферат iз речень вхiдного тексту (можливо, з деякими скороченнями за рахунок порiвняно малоiнформативних сегментiв - цитат, вiдсилок i т.iн.), а не породжувати його на пiдставi смислового аналiзу текстiв. Iншими словами, система повинна повнiстю наслiдувати термiнологiю та стиль автора, не допускаючи багатозначного тлумачення його думок. Таким чином, йдеться про розробку системи, що має перший рiвень “розумiння” тексту, - системи квазiреферування; - реферати, що формуються системою, мають мiстити не тiльки “сигнальну” iнформацiю про документ, але й дозволяти прослiдкувати хiд думок автора, тобто система повинна породжувати саме реферати, а не анотацiї; - мiра скорочення тексту, яка називається звичайно коефiцiентом редукцiї i пiд якою розумiють вiдношення кiлькостi речень у вхiдному текстi до кiлькостi їх у рефератi, має бути достатньо високою (не менше 4-5); - швидкiсть автоматичного реферування повинна бути значно вищою за швидкiсть ручного; - система має легко переналагоджуватися на обробку текстiв рiзних мов. Розглянемо тепер принципи реалiзацiї розробленої пiд керiвництвом автора системи квазiреферування[Берзон,Блехман, Захаров, Певзнер, 1984]. На першому етапi реалiзацiї принцип дiї системи полягає у формуваннi квазiреферата з автосемантичних речень тексту. Програмне забезпечення системи для ЕС ЕОМ включає головну програму й сiм процедур. Головна програма виконує такi функцiї: - читання тексту, що реферується; - розмiщення словникiв в оперативнiй пам’ятi; - аналiз тексту по реченнях: видiлення слiв, пошук в Ск i перевiрку збiгу лексичної одиницi, що аналiзується, з одним iз конекторiв; - у разi збiгу - звернення до процедур, обчислення значення логiчної функцiї по результатах роботи процедур, прийняття рiшення про iстинiсть конектора i визначення типу речення вiдповiдно до типу конектора; - прийняття рiшення про включення чи невключення речення до квазiреферату; - друк квазiреферату на принтерi. По мiрi роботи головної програми формується таблиця речень, що є основним результатом цiєї програми. Рядок таблицi вiдповiдає одному реченню. На час звернення до процедури всi рядки, котрi мають вiдношення до попереднiх за порядком слiдування реченням, цiлком заповненi. Рядок, котрий вiдноситься до речення, пiд час аналiзу якого сталося звертання до процедури, в момент звернення заповнений частково. Рядок таблицi має таку структуру: - номер речення; - кiлькiсть символiв у реченнi; - тип речення; - автосемантичне чи синсемантичне; - номер речення, з яким дане знаходиться в синтаксичному зв’язку; - номер конектора в Ск. Кожна процедура має доступ до адрес початку тексту, початку речення, аналiзованого слова, початку таблицi речень, початку Ск, початку Св, а також до порядкових номерiв речення, аналiзованого слова в реченнi, першого символу слова вiдносно початку речення, до змiщення початку запису Ск, до значень параметрiв, зазначених в описах Ск. Як бачимо, програмне забезпечення системи не залежить вiд мови тексту, що обробляється. Для реферування текстiв на iншiй мовi достатньо органiзувати словник конекторiв i допомiжний словник на цiй мовi. Система реалiзована на мовi Асемблер пiд управлiнням ДОС i ОС ЕС ЕОМ. Документ надходить до системи у виглядi текстового файлу, в якому допускається видiлення за допомогою спецiальних службових символiв заголовкiв документiв i окремих його пiдроздiлiв, а також елементiв бiблiографiчного опису. Вся видiлена таким чином iнформацiя включається системою у квазiреферат. Результатом роботи системи є друкована копiя квазiреферату, сформованого з автосемантичних речень тексту з вказiвкою їх порядкових номерiв у вхiдному текстi. Якщо при цьому коефiцiент редукцiї вхiдного тексту виявляється менше 4, то у квазiреферат не вводяться iзольованi автосемантичнi речення [Берзон, 1972]: з послiдовностi автосемантичних речень у квазiреферат вводяться тiльки першi. Передбачений також режим, у якому до квазiреферату потрапляють не тiльки автосемантичнi речення, але й вказiвка на тип вилучених синсемантичних. Це дозволить у майбутньому органiзувати дiалог користувача з ЕОМ, запрошуючи у системи субтексти, котрi мають iнтерес для абонента (детальнiше див. [Берзон, Брайловский, 1979]).


3.7 Експерименти

На заключному етапi побудови ВIЛМ мiжфразової структури наукового тексту був проведений експеримент, що полягав в автоматичному реферуваннi 10 англiйських текстiв такої тематики: - металознавство - чотири тексти; - обчислювальна технiка - чотири тексти; - порошкова металургiя - два тексти. Оскiльки система не використовує тезаурусної iнформацiї (це дещо знижує її розпiзнавальну спроможнiсть), можна сказати, що тематика документу, що реферується, для неї не є iстотною. У зв’язку з тим, що при реферуваннi аналiзуються тiльки формально вираженi зв’язки мiж реченнями, а “глибиннi” вiдносини не враховуються i концептуальне подання самих речень не береться до уваги, система виявилася досить стiйкою до помилок при пiдготовцi даних: 90% помилок не впливають на якiсть реферування. Тривалiсть реферування тексту, що складається з 70 речень, - 1,5 хвилин роботи центрального процесора ЕОМ ЕС-1022. Середнiй коефiцiент редукцiї - 4. У процесi експерименту квазiреферати, якi вiдносяться до металознавства та порошкової металургiї, були пред’явленi фахiвцю-металлургу; квазiреферати з обчислювальної технiки аналiзував автор. Всi квазiреферати одержали оцiнку “4” за 7-бальною шкалою: “Реферат у цiлому задовiльний, шуму мало, але втрати найбiльш важливої iнформацiї дещо бiльше припустимого рiвня”. Отже, квазiреферат, обсяг якого в чотири рази менший за обсяг вхiдного тексту, дає досить повне уявлення про тематику документу, мiстить мало другорядних вiдомостей (отже, може бути використаний також в АСНТI для автоматичного iндексування документу), проте в ньому вiдсутня частина iстотної iнформацiї. Можна припустити, що останнє частково викликане самим принципом квазiреферування, яке не враховує, зрозумiло, того факту, що важлива, з точки зору користувача, думка може бути висловлена в деяких реченнях, серед яких можуть опинитися синсемантичнi, якi вилучаються при квазiреферуваннi. Наведемо приклад квазiреферування роздiлу статтi N.Berhood, et al. The Yield and Flow Stress of Cu-1% Cd Alloy. - Acta Metallurgica, 1980, 28, p. 1141. Цифрами позначенi порядковi номери речень у вхiдних текстах.

On the Lower Bainite Transformation

00. Pickering [1] systematically studied the variation of the transition temperature between upper and lower bainite as function of carbon contenent in steels containing 0 plus boron, or 1,5 mc. 01. (L; развитие мысли) 02. (L; развитие мысли) 03. In order to explain the apparent initial rise in transition temperature with an ancrease in carbon content he proposed that it gets progressively difficult to remove carbon from supersaturated bainite ferrite as the alloy carbon content increases since the conceтеration gradients in austenite will become shallower. 04. (C; следствие) 05 (B; противопоставление) 06 (E; дополнение) 07. (E; дополнение) 08. (C; следствие) 09. (L; развитие мысли) 10. (E; дополнение) 11. (L; развитие мысли) 12. In fig 2, comparison of Pickering’s data with the bainite start (bs) and marteniste start (ms) lines given by Steven and Haynes suggests that the transition temperature between upper and lower bainite or the lower bainite start temperature should also vary in a similar manner. 13. (J; подтверждение) 14. (J; подтверждение) 15. It is assumed that the lower bainite start temperature should also vary in a similar manner. 17. (J; подтверждение) 18. The following table list shows that the steels in which lower bainitic epsilon carbide has been positively identified invariably have a high carbon content. 19. (B; противопоставление) 20. (L; развитие мысли) 21. Bhadeshia [3] originally suggested that the lack of epsilon carbide in the 0,43 C alloy steel may be due to the presence of the substantial amount of manganese. 22. (B; противопоставление) 23. Kalish and Kohen [4] have shown that it is energetically favourable for carbon atoms to remain segregated at dislocation compared with their presence in the epsilon carbide lattice. 24. (C; следствие) 25. (L; развитие мысли) 26. Kalish and Kohen estimate that a dislocation density of 2110 CN will prevent epsilon carbide precipitation in steels of up to 5,28 wt% carbon.

На наступному етапi були проведенi пряма nf непряма перевiрки лiнгвiстичних гiпотез вiдповiдно до iдей, висловлених у Главi 1.

3.8 Пряма перевiрка гiпотез

Мною була сформулювана та пiддана прямiй перевiрцi гiпотеза про текстоутворюючий механiзм категорiї визначеностi в англiйському науковому текстi. Гiпотеза була сформулювана так: 1) Механiзм спiввiдношення граматично визначеного об’єкту з антецедентом, що виступає у виглядi “адреси” цього об’єкту в класi подiбних, лежить в основi маркованого денотативного зв’язку речень англiйського наукового тексту -А-зв’язку речень. 2) Залежно вiд характеру спiввiдношення об’єкту з його “адресою” в класi подiбних, розрiзняються такi рiзновиди А-зв’язку: - експлiцитний прямий повний; - експлiцитний прямий частковий; - експлiцитний непрямий повний; - експлiцитний непрямий частковий; - тезаурусний прямий повний; - тезаурусний прямий частковий; - тезаурусний непрямий повний; - тезаурусний непрямий частковий; - списковий прямий повний; - списковий непрямий повний; - списковий непрямий частковий; - iмплiцитний прямий; - iмплiцитний непрямий. 3) А-зв’язок речень бере участь у формуваннi синтаксичної мiжфразової структури наукового тексту. Докладний виклад даної гiпотези з прикладами А-зв’язку див. у [Блехман, 1985]. З точки зору комп’ютерної лiнгвiстики, ця гiпотеза може мати силу тiльки за умови експериментальної перевiрки її iстиностi. Для здiйснення такої перевiрки був розроблений аналог дослiджуваного об’єкту - гiпотетична модель А-зв’язку [Блехман, 1985], пiсля чого ця модель була представлена у виглядi алгоритму вияву А-зв’язкiв у англiйських наукових текстах. Алгоритм був орiєнтований на функцiювання в реальнiй iнформацiйнiй системi, яка здiйснює автоматичне квазiреферування англiйських текстiв. Як ми бачили вище, ця система володiє нульовим рiвнем “розумiння” тексту й використовує морфологiчний i гiперсинтаксичний засiб “розумiння”. Алгоритм базується на формальному апаратi опису експлiцитного та спискового А-зв’язкiв i не дозволяє виявляти в текстах тезаурусний та iмплiцитний А-зв’язок. Експеримент полягав у безпосередньому аналiзi правильних i помилкових рiшень алгоритму при реалiзацiї в системi квазiреферування та у виявi причин помилок. Iнженерна реалiзацiя моделi пiдтвердила такi положення сформульованої гiпотези: 1) Механiзм спiввiдношення граматично визначеного об’єкту з антецедентом, що виступає у виглядi “адреси” цього об’єкту в класi подiбних, лежить в основi маркованого денотативного зв’язку речень англiйського наукового тексту. Дане припущення пiдтверджується тим, що реальна iнформацiйна система, котра використовує аналог лiнгвiстичного об’єкту, що моделюється, з досить високою надiйнiстю виявляє в до-вiльно взятих наукових текстах об’єктивно iснуючi в них А-зв’язки речень, причому мiра надiйностi, очевидно, може бути пiдвищена при використаннi синтаксичного та семантич-ного засобiв “розумiння” тексту, що,однак, потребує окремої експериментальної перевiрки. 2) Залежно вiд характеру спiввiдношення об’єкту з його антецедентом - “адресою” в класi подiбних об’єктiв -розрiзняються зазначенi вище рiзновиди експлiцитного, тезаурусного та спискового А-зв’язку речень. Дане припущення частково пiдтверджується тим, що використаний формальний апарат, який задає умови iснування в текстi кожного з рiзно-видiв А-зв’язку, крiм iмплiцитного та тезаурусного, дозволяє комп’ютеру розпiзнавати цi рiзновиди в реальних текстах при їх квазiреферуваннi. При цьому iнженерному моделюванню тезаурусного та iмплiцитного А-зв’язкiв має передувати поглиблене теоретичне дослiдження їх механiзмiв. 3) А-зв’язок двох речень бере участь у формуваннi синтаксичної мiжфразової структури англiйського наукового тексту. Дане припущення пiдтверджується тим, що IС, котра здiйснює квазiреферування англiйських текстiв, виявляє в процесi розпiзнавання мiжфразової синтаксичної структури текстiв, що опрацьовуються, А-зв’язки, якi задовольняють визначенню синтаксичного мiжфразового (гiперсинтаксичного) зв’язку, а саме: - А-зв’язок базується на насиченнi синсемантичного речення, що мiстить граматично визначений об’єкт, реченням, що мiстить “адресу” цього об’єкту в класi подiбних; - А-зв’язком, що виявляється iнформацiйною системою, зв’язуються речення, котрi знаходяться в логiчно-смисловому мiжфразовому зв’язку того чи iншого типу.