Смекни!
smekni.com

T media : от музейной библиотеки к информационной среде для интеграции музейных ресурсов и сервисов (стр. 2 из 3)

Полнотекстовый поиск и его функциональные возможности.

Специализированная подсистема «Полнотекстовый поиск» организована как совокупность гибких параметризируемых запросов к полнотекстовой SQL-базе данных. Подсистема ориентирована на компьютерную поддержку тех видов деятельности пользователя, в основе которой лежит многоплановая работа с текстом первоисточника.

Все реализованные в T-Libra v.5.2. запросы предназначены для экспликации терминологических полей разного типа, вида и уровня.

Термины выступают здесь в роли своеобразных смысловых «зарядов», а их различным образом упорядоченные совокупности репрезентируют смысловые поля, в явном или чаще неявном виде содержащиеся в первичном тексте.

В архитектуре подсистемы предусмотрены: а) блок электронных словарей с программой автоматической генерации лексико-грамматических парадигм естественного языка (в версии 5.2. имеется около 1 млн. словоформ русского языка); б) блок гибких параметризируемых поисковых запросов (в версии 5.2. представлены 2 типа и 6 видов таких запросов); в) блок функциональных моделей смыслового (концепт-ориентированного) поиска (в версии 5.2. не представлен).

Методологически и технически в системе запросов выделяются: а) единицы поиска (в зависимости от вида запроса это могут быть термины, цепочки терминов, многослойные терминологические структуры и т.д.), б) единицы результатов поиска (произвольный абзац, частотно-ранжированная совокупность терминов и т.д.), в) единицы представления результатов поиска (авторский абзац, таблица частотно-ранжированных терминов и т.д.).

Для каждого из запросов имеется возможность формировать «корзину ресурсов», то есть область определения запроса, в пределах которой он выполняется.

В версии 5.2. реализованы 2 типа запросов: «Абзацно-ориентированный поиск» и «Частотно-ориентированный поиск», каждый из которых представлен тремя видами. Первый тип запросов ориентирован на экспликацию линейно упорядоченных терминологических полей в пределах естественной смысловой единицы текста – авторского абзаца. Второй тип – на частотный анализ текста и построение частотно-ранжированных таблиц терминов, «терминограмм» произведения или совокупности произведений.

Пример запроса типа «Абзацно-ориентированный поиск»: Расширенный (многослойный) терминологический поиск.

Производится по нескольким терминам, которые одновременно: а) принадлежат разным тематическим «слоям» терминов, при этом количество слоев варьируется и б) находятся на определенном «расстоянии» между собой. Результатом запроса является совокупность авторских абзацев из выбранного произведения, содержащих указанную многослойную терминологическую структуру.

Запрос позволяет на некотором терминологическом поле, определяемом всеми терминами запроса, фиксировать смысловую связь между терминами, относящимися к разным слоям. Изменяя пять параметров: 1) содержание списков терминов в каждом из слоев, 2) количество терминов, включаемых в каждый из слоев, 3) количество слоев, включаемых в запрос, 4) количество слоев, реально учитываемых при поиске, 5) расстояние между терминами, принадлежащими разным слоям, можно производить смысловую фокусировку поиска, варьировать смысловую плотность эксплицированного терминологического поля.

Пример запроса типа «Частотно-ориентированный поиск»: Абсолютный частотный поиск.

Создает частотно-ранжированный список слов (существительных) по «корзине ресурсов» (произведению или нескольким произведениям), собранной из первичных ресурсов. При поиске учитываются все русскоязычные словоформы, которые затем приводятся к нормальной форме: существительное в именительном падеже, единственном числе. Результатом запроса является таблица, содержащая столбец с частотно-ранжированным списком слов, а также столбцы с указанием абсолютной и относительной частоты встречаемости слова (в промилле). Глубина ранжирования может варьироваться пользователем (в диапазоне от 1 до 200 слов); по умолчанию она равна 30 словам.

Запрос дает своеобразную «терминограмму» произведения или их совокупности, неявно определяющую их общую предметно-тематическую ориентацию. Он позволяет текстологически сравнивать друг с другом несколько произведений и/или авторов (путем сравнения соответствующих списков слов), а также сравнивать объективно полученные терминограммы и субъективные экспертные списки терминов.

4. T-Media = T-Libra + Expositor. На платформе T-Libra в настоящее время создается информационная система T‑Media, объединяющая полнотекстовые и нетекстовые электронные ресурсы (графика, звук, видео и т.д.), обладающая возможностями унифицированного поиска по гетерогенным базам данных и последующего формирования на этой основе тематических экспозиций: как вручную (с помощью специального модуля Expositor), так и в автоматизированном режиме, с использованием методологии и технологии каскадных концепт-ориентированных запросов.

Технологической основой информационной среды T-Media с возможностями создания мультимодальных тематических экспозиций является подсистема «Полнотекстовый поиск» ЭБ T-Libra, которая организована как совокупность гибких параметризируемых запросов к полнотекстовой SQL-базе данных.

Эта подсистема, как сказано выше, связана с подсистемой файловых баз данных «Депозитарий», содержащей файловые ресурсы различных форматов (*.pdf, *.doc, *html и т.д.) и информационных модальностей (тексты; графика, в том числе тексты в виде графики; аудио-файлы, видео-файлы, и т.п.). Обе вышеназванные подсистемы имеют собственные настраиваемые рубрикаторы ресурсов. Вместе с тем обе они объединены в единую интегрированную среду с помощью подсистемы «Каталог», обладающей настраиваемой структурой полей и возможностями поиска по текстовым метаданным (библиографическим, иконографическим и т.д. описаниям первичных ресурсов), организованным в виде SQL-базы данных.

Таким образом, в качестве основы для интеграции ресурсов различной информационной модальности может быть избран текст, то есть (полно)текстовая модальность информации, а для создания унифицированной поисковой системы в мультимодальной среде – гибкая параметризируемая система поиска по текстовым метаданным и полнотекстовым ресурсам, существующим в формате SQL-баз данных.

Для создания произвольной тематической экспозиции администратор и/или удаленный пользователь может выбрать путь ее «ручного» комплектования из множества предварительных результатов запросов к различным подсистемам T-Media (из авторских абзацев, отобранных по данной теме, графических файлов и т.д.).

Сделать это можно в специализированном функциональном разделе T-Media – модуле Expositor, с применением технологии графического интерфейса “drag and drop”.

Этот модуль имеет двухоконный интерфейс, который включает в себя окно «Инструменты для экспозиции» и окно «Монтаж экспозиции».

В окне «Инструменты» имеются следующие функциональные разделы:

а) «корзина ресурсов», которая формируется из результатов запросов ЭБ T-Libra с мультимодальным расширением, или вручную.

В нее входят: авторские абзацы, найденные с помощью полнотекстового поиска; электронные карточки Каталога (необходимые, например, для составления списка литературы по теме экспозиции); текст, созданный непосредственно администратором / пользователем при составлении экспозиции; графические файлы из Депозитария или других источников (в том числе тексты в виде графики, архивные материалы и т.п.); аудио-файлы из Депозитария или других источников (не из T-Media); видео-файлы из Депозитария или других источников (не из T-Media); прочее (например, ссылки на релевантные Веб-сайты);

б) меню, позволяющее работать с экспозицией как целостным объектом (содержит функции «редактировать экспозицию»; «опубликовать экспозицию», «записать экспозицию в файл» и т.д.);

в) меню для выбора шаблонов художественного и технического оформления экспозиции.

В окне «Монтаж экспозиции» имеется функциональный раздел для создания многоуровневого оглавления экспозиции, а также монтажный стол, на котором с применением технологии “drag and drop” (перетаскиванием объектов из корзины ресурсов в блок-ячейки монтажного стола) происходит создание заготовок для будущих html-страниц экспозиции.

Элементы оглавления задают логику развертывания экспозиции и соотносятся со страницами экспозиции по принципу «один ко многим».

В готовой экспозиции (пока она остается функциональной частью архитектуры Web-browser / Web-server / SQL-server, т.е. пользователь работает с информационной системой в режиме онлайн) один из ее элементов содержит возможность прямого выхода в поисковую систему T-Libra.

Сами же итоговые html-страницы экспозиции формируются по окончанию монтажных работ, и могут быть отделены от Интернет/Интранет-среды, в которой они создавались, и записаны на независимые переносимые носители информации.

5. T-Media = T-Libra + Expositor + Conceptor. Тематическая экспозиция может быть составлена не только «ручным» путем, описанным в п.4., но и в автоматизированном режиме.

Это делается с помощью концепт-ориентированной информационной системы (Conceptor), соединяющей «текст» и нетекстовые модальности информации как в содержательном плане, (через «библиотеки концептов» и релевантные тезаурусы), так и в технологическом (например, через механизм нелинейного каскадного концепт-ориентированного запроса и презентации его результата).