Каталоги ресурсов представляют собой базы данных с адресами ресурсов Интернета и самыми разными тематиками. Обычно они имеют иерархическую структуру, привычную для пользователя, и некоторые средства поиска по ней. Эти каталоги в большей своей части обслуживаются специалистами по классификации, то есть предопределяется некоторый субъективный подход к отбору информации, который, с одной стороны, несколько гарантирует достоверность информации, но с другой - предопределяет возможность отсутствия (пропуска) части информации, а также се запоздалое размещение в каталоге.
Поисковые машины - это механизм автоматического построения ссылок (индексов) на различные ресурсы. Поисковые машины могут быть ориентированы на глобальные, специализированные или локальные ресурсы. По сути они являются мощными ИПС, которые с помощью специальных программ-роботов (так называемых "пауков") постоянно осуществляют автоматический поиск требуемой информации в Интернете. Созданные на этой основе специализированные БД обеспечивают поиск информации по запросам пользователей на основе специальных ИПЯ. Правда, охват просматриваемой информации зависит от применяемых алгоритмов и даже для мощных поисковых машин оставляет желать лучшего.
Электронная почта применяется в Интернете и в WWW. Адреса при этом попадают в поисковые системы и доступны поисковым машинам.
Почтовые роботы - это специальные программы, способные отвечать определенными действиями на команды, поступающие им, но электронной почте. Их основное назначение - пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет формат электронной почты. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.
Usenet и другие региональные и специализированные телеконференции представляют собой электронные "доски объявлений", где пользователь размещает свою информацию в одной из тематических групп новостей, передаваемых подписчикам соответствующей тематики. Этот ресурс наиболее значим для быстрого накопления информации, но узкому вопросу, а при поиске - чаще для получения частной, неофициальной информации.
Ресурсы, доступные по telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всею по библиотечным каталогам европейских и американских университетов, а также государственных учреждений.
Как уже отмечалось, система файловых архивов ftp имеет достаточно обширные ресурсы ценной информации, до сих пор не переведенной в WWW. Архивы ftp представляют собой в первую очередь источники получения программного обеспечения. Поиск в них может представлять определенный интерес при знании структуры архивов; построения файловых систем, имен файлов и каталогов, содержащих требуемые ресурсы.
Поиск необходимой информации в Интернете можно осуществлять различными способами:
· Поиск с помощью поисковых машин по ключевому слову
· Поиск с помощью классификаторов поисковых машин
· Каталоги и коллекции ссылок (более общие понятия)
· Рейтинги (самые популярные ресурсы)
· Конференции, чаты
· Страницы ссылок (“Links”) на тематических сайтах (редкие, специализированные вещи)
· Несетевые способы (советы друзей, знакомых; реклама в печатных изданиях)
В начале поиска информации необходимо определить ее тип. Условно можно выделить 4 типа информации.
1 тип — общая (например: история Российской империи),
2 тип — менее общая (например: император Александр II),
3 тип — конкретная (например: реформы Александра II),
4 тип — более конкретная (например: отмена крепостного права).
В зависимости от типа информации определяются и пути поиска.
Информация 1 типа ищется с помощью классификаторов поисковых машин (из российских — рекомендуется Яндекс www.Yandex.ru ). Если сразу сайты с требуемой информацией не находятся, то следует просматривать найденные по классификатору каталоги и страницы ссылок (“Links”), которые находятся сайтах подобной тематике. Эти сайты приводятся в классификаторе по теме и найденных каталогах.
Информация 2 типа ищется подобно поиску для 1 типа, но с преимуществом поиска по каталогам и страницам ссылок.
Информация 3 типа — по ключевым словам, которые вводятся в строку поиска поисковых машин, каталогам, страницам ссылок
Информация 4 типа — по подробным данным, которые вводятся в строку поиска. Данные находятся согласно способам поиска изложенных для 2 и 3 типов.
Примеры:
Поиск по 1 типу. Требуемая информация: «История Российской империи».
Заходим в Яндекс — Наука и образование / Общественные науки / История. По описанию темы находим сайт http://rus-hist.on.ufanet.ru.. Если в нем нет необходимой информации, то переходим на страницу ссылок этого сайта. На ней имеются ссылки на каталоги ресурсов: www.history.ru, http://www.lants.tellur.ru/history/index.htm. В них, скорее всего, будут найдены сайты по на заданную тему.
Поиск по 2 типу. Требуемая информация: «Император Александр II».
Поиск осуществляется аналогично предыдущему, но больше внимания уделяется работе с каталогами www.history.ru, http://www.lants.tellur.ru/history/index.htm .
Поиск по 3 типу. Требуемая информация: «Реформы Александра II»
Здесь появляется новый способ поиска — по ключевым словам. Пишем в строке поиска Яндекса «Реформы Александра II». Результат для просмотра — 1790 страниц, которые находятся на 170 сайтах, в число которых входят и каталоги. Для сужения информации можно добавить новые ключевые слова — дополнительные факты в уже найденном подборе сайтов, например: «1860-1870 гг.» и т. д. В других поисковых машинах набирается полностью «Реформы Александра II в 1860-1870 гг.». Для поиска заданной информации можно еще использовать “Links”, которые приводятся на найденных сайтах
Как и другие информационные технологии, Интернет создают разработчики, но в данном случае в основном это создатели ресурсов (начиная от специалистов, ведущих поддержку hard- и software, дизайнеры, художники, редакторы и самое главное - авторы информационных ресурсов). Естественно, создание ресурсов - не самоцель, ресурсы востребуются пользователями сети, то есть теми же специалистами и потребителями ресурсов, среди которых, как уже отмечалось, появляется новый слой - специалисты по datamining, по поиску информации. Информационные ресурсы Интернета, как, впрочем, и другие, в том числе неэлектронные информационные ресурсы (в частности, средства массовой информации), характеризуются определенными состояниями своей деятельности (рис. 9.3).
Ресурс зарождается в соответствии с потребностями общества и его возможностями (в частности, связанными с уровнем технического и социального состояния общества).
По мере возможности происходит "взросление", становление ресурса (или его исчезновение при полном отсутствии востребованности, то есть исчезновение, возможно, не в физическом смысле - сайт может существовать, а именно в смысле востребованности).
При определенном уровне востребованнности и (в том числе и стараниями авторов сайта) происходит его каталогизация, то есть сведения о ресурсе появляются в различных каталогах, соответствующих типу ресурса.
Индексирование, то есть появление ресурса в индексах поисковых машин, происходит при достижении определенных объемов информационного наполнения и востребованности.
При наличии постоянного роста востребованности происходит и постоянное развитие ресурса, в противном случае ресурс угасает и постепенно исчезает из индексов и каталогов.
Как отмечалось ранее, чертами, присущими профессиональному поиску, являются его полнота, достоверность и высокая скорость. Наиболее серьезным и нетривиальным фактором, определяющим быстроту достижения цели поиска, оказывается планирование поисковой процедуры. Это требует, с одной стороны, выбора типа ресурсов, которые потенциально способны нести информацию, релевантную поисковой задаче, а с другой - выбора инструментов поиска, обслуживающих соответствующее информационное поле, в зависимости от их предполагаемой результативности. Если говорить о наиболее емком на сегодняшний день с точки зрения информационного наполнения WWW-пространстве, то относительное изобилие его поисковых средств делает решение большинства практических задач многовариантным. Построение оптимальной последовательности применения тех или иных инструментов на каждом этапе поиска и предопределяет его эффективность. Помочь решить проблему выбора может четкое представление о видах, назначении и особенностях работы информационно-поисковых систем (ИПС) Интернета.
2.5 Структура поисковых сервисов
Реальными носителями информации о ресурсах, которыми располагает Интернет, являются поисковые машины и каталоги. Информационно-поисковые системы Интернета различаются, но принципу отбора информации, который в той или иной степени присутствует и в сканирующей программе поисковой машины, и в деятельности специалистов, производящих каталогизацию. Как правило, различают два основных показателя: пространственный масштаб системы и ее специализация.
При формировании информационного массива поисковая система может следить за обновлением заранее заданного набора документов, каталогов или конечного числа узлов, отобранных по некоторому принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальным и. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационно» поля Интернета (WWW или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, используемого такой системой для постоянного увеличения числа просмотренных сайтов.