Специализированные базы данных в Интернет – это сайты, как правило, поддерживаемые информационными и консалтинговыми фирмами. В них сконцентрированы данные из многих наиболее интересных источников СМИ, описанных выше. Все или почти все, что публикуется в газетах или журналах автоматически оказывается в таких хранилищах. Кроме этого, они содержат огромное количество другой разнообразной и постоянно обновляемой информации.
Основное преимущество таких баз – возможность поиска с использованием специализированных языков запросов. Количество подобных продуктов с такими возможностями постоянно увеличивается на рынке. В данной работе рассмотрим несколько наиболее характерных примеров:
Информационно-поисковая система «Артефакт».
«Артефакт» (http://www.integrum.com) - одна из самых больших и объемных публичных российских информационных систем коллективного пользования, содержащая политическую, коммерческую, юридическую, научную и адресно-справочную информацию.
В настоящее время «Артефакт» содержит около 3000 различных баз данных, что суммарно составляет свыше 50 миллионов документов. Ежедневно число документов увеличивается более чем на десять тысяч, и ежемесячно прибавляется порядка 30 новых баз. Разработку, поддержку и сопровождение системы осуществляет информационное агентство «Интегрум-техно», контрольный пакет акций которого недавно приобретен российской инвестиционной группой «Атон».
В базе «Артефакт» хранятся полные тексты документов без ограничения размеров. При нахождении информации учитываются все слова составляющие документ базы данных, а поиск информации производится по запросам на эффективном специализированном языке.
Информационно-аналитическая система «Галактика-Zoom».
По некоторым характеристикам информационно-аналитическая система «Галактика-Zoom» (http://zoom2.galaktika.ru) аналогична рассмотренному выше «Артефакту», хотя и уступает ему в объемах доступных баз данных. С другой стороны, при создании системы были предложены некоторые весьма оригинальные идеи и подходы. В настоящее время система поддерживается одним из структурных подразделений известной компьютерной фирмы «Галактика» (http://www.galaktika.ru).
«Галактика-Zoom» позволяет проводить аналитическую обработку текстовых неструктурированных документов в базах данных. С помощью системы можно работать с базами данных до 100 Гбайт, распределять по темам информационный поток, анализировать и выявлять направления развития ситуаций.
Благодаря этим возможностям система полезна не только при традиционном поиске текстовой информации, но и при автоматизации типовых маркетинговых задач.
Информационная система «Россия»
Межуниверситетская информационная система «Россия» (http://www.cir.ru) создана Научно-исследовательским вычислительным центром МГУ им. М.В. Ломоносова и автономной некоммерческой организацией – Центром информационных исследований. Эта система функционирует в рамках Российского университетского информационно-исследовательского консорциума по социальным и гуманитарным наукам. Она абсолютно бесплатна для университетов Российской Федерации, и при подключении к ней нужно соблюсти лишь некоторые формальности.
Ее базы пополняются достаточно регулярно и включают в себя:
- нормативные документы федерального уровня (законы, указы, распоряжения);
- статистику Госкомстата и Центризбиркома;
- постановления и стенограммы пленарных заседаний ГД РФ;
- ряд СМИ («Аргументы и факты», «Независимая газета», «Комсомольская правда», «Известия», «Сегодня», журнал «Эксперт»);
- доклады, публикации, статистические отчеты исследовательских центров.
Другие информационные системы.
Национальная электронная библиотека (http://www.nns.ru) - один из самых крупных электронных архивов русскоязычных средств массовой информации. Ежедневно в НЭБ поступает свыше 10 тысяч новых документов из 400 источников. В едином поисковом пространстве находится более 6 млн. документов.\
«Парк» (http://is.park.com) - традиционная по своей идеологии поисковая система, представляющая собой полнотекстовую базу данных с информацией из различных источников (центральных и региональных информационных агентств, газет, журналов, государственных структур), а также с коммерческой информацией, каталогами, справочниками и т.д.
Информационная система «СКРИН Эмитент» (http://www.skrin.ru) содержит сведения о более чем 1500 российских компаниях – эмитентов акций. Она эффективна, информативна и удобна в использовании. Система позволяет ознакомиться с учредительными документами эмитента, планом приватизации и иной полезной информации.
4) Поисковые системы, Интернет-каталоги и метапоисковые системы
По своей сути поисковые системы, каталоги и метапоисковые системы являются специализированными базами данных, в которых хранится информация о других сайтах Интернет. От традиционных поисковых систем они отличаются тем, что хранят не сами документы, а информацию о документах и ссылки на них.
В настоящее время в российском секторе Интернет функционируют сотни каталогов – наиболее массовое и часто встречающееся средство поиска информации. Естественно, они весьма неравнозначны по качеству исполнения и информационному содержанию. Среди наиболее заслуживающих внимания модно выделить следующие: http://www.list.ru, http://www.oko.ru, http://www.refer.ru и др.
Основное отличие поисковых систем от каталогов – автоматический «робот», сканирующий Интернет на предмет появления новых сайтов или информации и накапливающий эту информацию в специальных индексных файлах базы данных. А вот информация в Интернет-каталоги заносится весьма традиционным способом – обслуживающим персоналом или самим автором.
Пользование поисковыми системами осуществляется абсолютно бесплатно, и поэтому, на сегодня это самый доступный вид информационных ресурсов.
Наиболее популярными в русскоязычном секторе Интернет являются системы «Яндекс» (http://www.yandex.ru), «Апорт» (http://www.aport.ru), и «Rambler» (http://www.rambler.ru). Все перечисленные системы могут считаться и каталогами, т.к. имеют встроенные рубрикаторы, представляющие в конечном счете систематизированные подборки ссылок.
При этом необходимо отметить, что существуют поисковые системы, в которых отсутствуют классификаторы. Среди таковых можно выделить http://www.google.ru, http://www.punto.ru, http://ya.ru.
«ЯНДЕКС». «Яндекс» считается очень удачным проектом в русской части Интернет. Ежедневно система обрабатывает колоссальное количество информации в поисках изменений или появлении новых ссылок. «Яндекс» - система, настроенная для пользователя, т.к. не требует специальных знаний при работе. В то же время система хотя и «понимает» не очень сложные запросы на естественном языке, однако все же затребует специальный язык запросов при поиске больших массивов информации.
«RAMBLER». «Rambler» - старейший и известнейший поисковый сайт в России. Был запущен в эксплуатацию в 1996 году. На нем функционирует рейтинговая система Rambler’s Top100 – одна из лучших классификаторов российского Интернет. С 1998 года это один из наиболее посещаемых сайтов в России, его ежемесячная аудитория составляет более 50% всех пользователей Интернет. «Rambler» объединяет в себе поисковую систему, рейтинг-классификатор, ряд бесплатных сервисов и информационных проектов. Его ресурсы ежесуточно регистрируют несколько миллионов посещений
«АПОРТ». Оценивая некоторые позиции, можно утверждать, что «Апорт» способен конкурировать с «Яндекс» и «Rambler». Однако на деле этого не происходит. Можно также отметить, что «Апорт» обладает весьма интеллектуальными и тщательно продуманными алгоритмами поиска информации.
Существует весьма обширный класс поисковых систем – метапоисковые системы. Они не обладают собственной индексной информационной базой данных и работают лишь как шлюзы между пользователями и собственно поисковыми системами и каталогами, транслируя запрос и получая результаты поиска.
Качество поиска будет определяться теми поисковыми системами и каталогами, к которым производится обращение. Положительный эффект здесь достигается за счет интеграции действий – нет необходимости последовательно использовать различные сайты, достаточно одного запроса, чтобы была инициирована работа нескольких поисковых систем.
Типичный пример метапоисковой системы – Метапоисковая система «Metabot.ru» (http://www.metabot.ru). С ее помощью можно одновременно искать в нескольких наиболее распространенных русскоязычных поисковых системах и каталогах, а также наиболее известных англоязычных системах.
5) Ординарные веб-сайты.
Остальные ресурсы Интернет можно объединить под общим названием – ординарные веб-сайты. Они представляют из себя некоторое бессистемное информационное пространство. Отыскать что-либо в таком пространстве даже с помощью вышеперечисленных поисковых систем бывает сложно, а иной раз – невозможно.
Итак, попытаемся произвести некоторую классификацию. Условно данная категория может быть разделена на три составляющие.
Сайты, принадлежащие юридическим лицам, содержат информацию фирм, компаний и организаций. Обычно это публикация истории компании, ее адреса, состава руководства, контактных телефонов, услуг, планов на ближайшее будущее и т.д.
Сайты, принадлежащие частным лицам, могут содержать абсолютно любую информацию, начиная от деклараций планов по переустройству мира и заканчивая описанием собственной жизни, привычек, домашних животных и т.д.
В отдельную нишу, поддающуюся определенной систематизации, модно выделить так называемые познавательные сайты - электронные библиотеки, научные и околонаучные тексты, информация справочного характера, коллекции определенных тематических ссылок и др.
В этом конгломерате особую ценность имеют любые сайты со систематизированной и предварительно обработанной информацией, содержащие обзоры, подборки и т.д. В качестве примера можно привести сайт http://www.referats.ru (Коллекция рефератов и сочинений) или http://www.persons.ru (Известные персоны России).