Термин фрейм был предложен в 70-е годы для обозначения структуры знаний для восприятия пространственных сцен. Фрейм – это абстрактный образ для представления некоего стереотипа восприятия. Фреймом также называется и формализованная модель для отображения образа.
Различают:
- фреймы-образцы (прототипы) – хранятся в базе данных
- фреймы-экземпляры – создаются для отображения реальных фактических ситуаций на основе поступающих данных
- фреймы-структуры – используются для обозначения объектов и понятий
- фреймы-роли
- фреймы-сценарии
- фреймы-ситуации
Обычно структура фрейма представляется как список свойств:
(ИМЯ ФРЕЙМА:
(имя 1-го слота: значение 1-го слота),
(имя 2-го слота: значение 2-го слота),
--------------------------
(имя N-го слота: значение N-го слота)
В качестве значения слота может выступать имя другого фрейма, так образуется сеть фреймов.
Существует несколько способов получения слотом значений во фрейме-экземпляре:
- по умолчанию от фрейма-образца (значение default)
- через наследование свойств от фрейма, указанного в слоте АКО (a kind of)
- по формуле, указанной в слоте
- через присоединенную процедуру
- явно из диалога с пользователем
- из базы данных.
Возможности представления знаний на базе языка HTML
Рассмотрим, каким образом HTML-документ может быть представлен в виде семантической сети. Нам необходимо выделить те конструкции языка, которые могут быть полезными для решения этой задачи.
Прежде всего, к числу таких конструкций относятся теги типа <TITLE>, <META…> и <A…>. Первый тег важен для фиксации семантики всего HTML – документа, так как текст, заключенный между тегами <TITLE> и </TITLE> чаще всего отражает его назначение или содержание.
Теги типа <META…> вводят имена атрибутов и их значения с помощью параметров name=”…” и content=”…”, а ссылки и якоря фиксируют отношения между частями одного документа или между отдельными документами.
Теги типа <META…> явно вводят семантику значений атрибутов, одинаково интерпретируемых броузерами за счет ключевых слов, которые могут быть значениями параметра name.
Теги типа <A…> фиксируют лишь факт наличия отношения между ссылкой и ее якорем. В некоторых случаях этому отношению можно «приписать» имя SeeAlso (смотри также), в других случаях – ConsistOf, PartOf или иное подходящее имя, но семантика данной конструкции имплицитна, а встроенная интерпретация ее связана лишь с переходом по ссылке и визуализацией начала соответствующего фрагмента документа или загрузкой нового документа для просмотра.
Другими полезными конструкциями являются заголовки разделов и подразделов (тексты между тегами <Hi> и </Hi>), списки, таблицы и другие элементы языка.
Но в целом, выделение значимых для семантической интерпретации конструкций является экспертной задачей, решаемой каждый раз автором соответствующей Интернет - публикации по-своему. Но существуют определенные стереотипы. Например, на страницах Интернет – магазинов каталоги товаров в большинстве случаев представляются таблицами или списками, либо «зашиты» в чувствительные для щелчка мыши графические объекты. Это характерно и для индексов на сайтах машин поиска.
Рассмотрим в качестве примера страницу официального сайта компании Microsystems LTD, расположенную в сети по адресу http://www.analyst.ru. На этой странице располагается по информация по программе TextAnalyst 2.0. Экранная форма этой страницы показана на рисунке.
Фрагмент соответствующего HTML – текста представлен ниже:
<html>
<head>
---------------------------------
<meta name="KEYWORDS" content="Microsystems, TextAnalyst, text mining, knowledge discovery, textmining, e-commerce, classification, semantic analysis, neuro networks, natural linguistc, text processing, Микросистемы, анализ текстов, база знаний, документооборот, классификация, семантический анализ, нейронные сети, натуральные языки, текст процессор">
<meta name="GENERATOR" content="Microsoft FrontPage 4.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<title>Microsystems, Ltd</title>
<link rel="stylesheet" type="text/css" href="style.css">
</head>
-----------------------------------------------
<body topmargin="0" leftmargin="0">
<table border="0" cellspacing="0" cellpadding="0">
<tr>
<td valign="top" width="239"><a href="/index.php?lang=eng"><img
border="0" src="/images/top_logo.gif"></a></td>
<td valign="top" align="left">
<table border="0" cellspacing="0" cellpadding="0">
<tr><td width="100%"><img border="0" src="/images/top_up.gif">
</td></tr>
<tr> <td width="100%">
<table border="0" cellspacing="0" cellpadding="0" width="100%"
bgcolor="#001395" height="23">
<tr><td width="100%">
-------------------------------------
</table>
</td></tr>
</table>
<!-- end menu -->
----------------------------------------------
<!-- start menu here -->
<table border="0" cellspacing="0" cellpadding="0" width="100%">
<tr> <td width="241" valign="top" align="left">
<table border="0" width="100%" cellspacing="0" cellpadding="0">
<tr><td width="100%">
<p> </p>
<p align="center">
<img border="0" src="/images/10thyear_s.gif" width="210" height="52">
</p>
</td></tr>
<tr><td width="100%" valign="top" align="left">
<!-- left menu-->
<table border="0" width="218">
<tr><td width="210" bgcolor="#DDDDDD" valign="top" align="left">
<p align="right"><b>Products</b></td>
</tr>
<tr onmouseout="this.style.backgroundColor='transparent'"
onmouseover="this.style.backgroundColor='#6B8ADE'">
<td width="210" align="right">
<a href="/index.php?lang=eng&dir=content/products/&id=body&left=
content/products/menu.txt " target="_self">
<span style="color: #000000; text-decoration: none">
TextAnalyst SDK</span></a>
</td></tr>
<tr><td width="210" align="right">
<p align="right"><img border="0" src="/images/bd14580_.gif" width="12"
height="12">
TextAnalyst</p>
</td></tr>
<tr onmouseout="this.style.backgroundColor='transparent'"
onmouseover="this.style.backgroundColor='#6B8ADE'">
<td width="210" align="right">
<a href="/index.php?lang=eng&dir=content/products/&id=
tref&left=content/products/menu.txt
" target="_self">
<span style="color: #000000; text-decoration: none">
Text Referent</span></a>
</td></tr>
<!-- end left menu-->
----------------------------------------
</table>
<!-- end here -->
</td>
<!-- free space -->
<td valign="top" align="left">
</td>
<!-- end free space -->
<td valign="top" align="left" width=100% >
<!-- content started here -->
<table border="0" cellspacing="6" cellpadding="0">
<tr> <td width="100%" valign="top" align="left">
<head>
<meta name="DESCRIPTION" content="TextAnalyst - personal text mining system">
<meta name="KEYWORDS" content="TextAnalyst, personal, text mining">
<title>TextAnalyst</title>
</head>
<div align="left">
<table border="0" align="left" cellspacing="4" cellpadding="3">
<tr> <td valign="top" align="center" width="250">
<p align="center"> </p>
<p align="center"><a href="cgi-bin/stat/loadfile.pl?file=ta_rus">
<img border="0" src="images/downloads.gif"></a></p>
<p align="center">Получите бесплатную версию
TextAnalyst</p>
<table border="0">
<tr><td width="100%" bgcolor="#008000">
<p align="center" class="menu">
<font color="#FFFFFF">Системные требования</font></td> </tr>
<tr><td width="100%">Intel-based PC</td> </tr>
<tr> <td width="100%">Windows 9X, NT, 2000, Me</td> </tr>
<tr> <td width="100%" bgcolor="#C0C0C0">
<p align="center" class="menu">
<font color="#FFFFFF">Технические характеристики</font></td>/tr>
<tr><td width="100%" valign="top" align="left">
<ul>
<li> Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).</li>
<li>Максимальный объем анализируемой подборки не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.</li>
<li>Собственный объем TextAnalyst не превышает 5Мб.</li>
<li>Форматы обрабатываемых файлов:</li>
<li>*.txt (ANSI, DOS), *.rtf</li>
<li>Экспорт информации в форматы: *.txt,
*.csw (электронные таблицы).</li>
</ul> </td></tr>
</table>
-----------------------------------
<h1 align="center">
<img border="0" src="../../images/octopus_shaden.gif" align="left" width="99" height="112">TextAnalyst 2.0 </h1>
<p align="center"><b>персональная система автоматического анализа текста </b></p>
<p>TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности: </p>
<ul>
<li>анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей; </li>
<li>анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем; </li>
<li>смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста; </li>
<li>автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз; </li>
<li>кластеризации информации - анализа распределения материала текстов по тематическим классам;</li>
<li>автоматической индексации текста с преобразованием в гипертекст; </li>
<li>ранжирования всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования; </li>
<li>автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации; </li>
</ul>
<p align="center"><b>Не пугайтесь обилия возможностей!</b></p>