Общие сведения.
В настоящее время Интернет объединяет сотни миллионов серверов, на которых размещены миллиарды различных сайтов и отдельных файлов, содержащих различного рода информацию. Это гигантское хранилище информации. Существуют различные приемы поиска информации в Интернет.
Поиск по известному адресу. Необходимые адреса берутся из справочников. Зная адрес, достаточно ввести его в адресную строку Браузера.
Пример 1.
www.gov.ru - сервер органов государственной власти России.
Конструирование адреса пользователем. Зная систему формирования адреса в Интернет, можно при поискеWeb-сайтов конструировать адреса.
К ключевому слову (названию фирмы, предприятия, организации или простому английскому существительному) необходимо добавить домен тематический или географический, при этом необходимо подключать интуицию.
Пример 2.
Адреса коммерческих Web-страниц:
www.cnn.com (всемирные новости CNN),
www.sony.com (фирма SONY),
www.mtv.com (музыкальные новости MTV).
Пример 3.
Адреса учебных заведений:
www.ntu.edu (Национальный университет США).
Пример 4.
Адреса региональных серверов:
www.poland.net (Польша),
www.israil.net (Израиль).
Для поиска информации в Интернет разработаны специальные информационно-поисковые системы. Поисковые системы имеют обычный адрес и отображаются в виде Web-страницы, содержащей специальные средства для организации поиска (строку для поиска, тематический каталог, ссылки). Для вызова поисковой системы достаточно ввести ее адрес в адресную строку Браузера.
По способу организации информации информационно-поисковые системы делятся на два вида: классификационные (рубрикаторы) и словарные.
Рубрикаторы (классификаторы) - поисковые системы, в которых используется иерархическая (древовидная) организация информации. При поиске информации пользователь просматривает тематические рубрики, постепенно сужая поле поиска (например, если необходимо найти значение какого-то слова, то сначала в классификаторе нужно найти словарь, а затем уже в нем найти нужное слово).
Словарные поисковые системы - это мощные автоматические программно-аппаратные комплексы. С их помощью просматривается (сканируется) информация в Интернет. В специальные справочники-индексы заносятся данные о местонахождении той или иной информации. В ответ на запрос осуществляется поиск в соответствии со строкой запроса. В результате пользователю предлагаются те адреса (URL), на которых в момент сканирования найдены искомые слово или группа слов. Выбрав любой из предложенных адресов-ссылок, можно перейти к найденному документу. Большинство современных поисковых систем являются смешанными.
Наиболее известные и популярные системы поиска:
www.aport.ru www.yahoo.com www.rambler.ru www.yandex.ru www.altavista.com www.google.com
Существуют системы, специализирующиеся на поиске информационных ресурсов по различным направлениям.
Поиск людей в Интернет:
www.whowhere.ru ww. bigfoot.com
Поиск по телеконференциям (Usenet):
www.dejanews.com
Предметные поисковые системы:
www.webring.org
Поиск программного обеспечения:
www.files.com
www.files.ru
Поиск по файловым архивам:
http://ftpseach. city.ru, http://ftpsearch. licos.com
Каталоги (тематические подборки ссылок с аннотациями):
http://www.atrus.ru
www.aup.ru
Часто эффективный поиск информации можно провести с помощью региональных каталогов - специализированных серверов, содержащих данные о предприятиях или Web-ресурсах какого-то города или региона. Например, для Санкт-Петербурга такой каталог располагается по адресу http://www.spb.ru.
Список ИПС можно найти на сайте www.monk. newmail.ru
Более подробный перечень поисковых систем и каталогов представлен в табл. 3.2.
В каждой поисковой системе в разделе Помощь (Help) можно получить сведения о том, как искать, как составить строку запроса. Ниже приведена информация о типовом, "усредненном" языке запросов.
Простой запрос.
Ввести одно слово, определяющее тему поиска. Например, в поисковой системе Rambler.ru достаточно ввести: автоматика.
Находятся документы, в которых встречаются слова, указанные в запросе. Распознаются все формы слов русского языка, как правило, регистр букв игнорируется.
В запросе можно использовать символ "*" или "?". Знаком "?" в ключевом слове заменяется один символ, на место которого может быть подставлена любая буква, а знаком "*" - последовательность символов.
Например, запрос автомат* позволит найти документы, включающие слова автоматический, автоматика и т.д.
Сложный запрос.
Часто возникает необходимость комбинирования ключевых слов для получения более определенной информации. В этом случае используются дополнительные слова-связки, функции, операторы, символы, комбинации операторов, разделенные скобками.
Например, запрос музыка & (beatles | битлз) означает, что пользователь ищет документы, содержащие слова музыка и beatles или музыка и битлз.
В табл.3.1 приведены правила формирования запросов, принятые в системе Апорт (http://www.aport.ru).
Таблица 3.1
Операторы для формирования запросов
Оператор | Синонимы | Комментарий |
И | AND & | По запросу будут найдены документы, содержащие оба ключевых слова. Его можно и не писать. Например, запрос: информатика и учебник эквивалентен информатика учебник |
ИЛИ | OR | | Производится поиск тех документов, в которых используется любое из указанных слов или оба слова одновременно |
НЕ | NOT - ~ | Поиск ограничивается документами, не содержащими слово, указанное после оператора |
" " | ' ' | Двойные или одинарные кавычки позволяют находить словосочетание |
Дата= | дата:date= | Поиск ограничивается документами, попадающими в заданный интервал дат.Пример 1. валюта дата=01/02/2002-01/03/2002. По этому запросу будут выданы документы, содержащие слово "валюта" и имеющие дату от 1 февраля 2002 г. до 1 марта 2002 г.Пример 2. date=01/03/2002 валютаПример 3. дата: <02/03/2002 валюта |
Таблица 3.2
Список поисковых серверов и каталогов
Адрес | Описание |
www.excite.com | Поисковый сервер с обзорами узлов и путеводителями |
www.alta-vista.com | Поисковый сервер, имеются возможности расширенного поиска |
www.hotbot.com | Поисковый сервер |
www.poland.net www.israil.net | Региональные поисковые серверы Польши, Израиля |
www.ifoseek.com | Поисковый сервер (простой в использовании) |
www.ipl.org | Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня" |
www.wisewire.com | WiseWire - организация поиска с применением искусственного интеллекта |
www.webcrawler.com | WebCrawler - поисковый сервер, прост в обращении |
www.yahoo.com | КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista |
www.aport.ru | Апорт - русскоязычный поисковый сервер |
www.yandex.ru | Яндекс - русскоязычный поисковый сервер |
www.rambler.ru | Рамблер - русскоязычный поисковый сервер |
Справочные ресурсы Интернет | |
www.yellow.com | Желтые страницы Интернет |
monk. newmail.ru | Поисковые системы различного профиля |
www.top200.ru | 200 лучшихWeb-сайтов |
www.allru.net | Каталог русских ресурсов Интернет |
www.ru | Каталог русских ресурсов Интернет |
www.allru.net/z09. htm | Образовательные ресурсы |
www.students.ru | Сервер российского студенчества |
www.cdo.ru/index_new. asp | Центр дистанционного обучения |
www.open. ac. uk | Открытый университет Великобритании |
www.ntu.edu | Национальный университет США |
www.translate.ru | Электронный переводчик текстов |
www.pomorsu.ru/guide. library.html | Список ссылок на сетевые библиотеки |
www.elibrary.ru | Научная электронная библиотека |
www.citforum.ru | Электронная библиотека |
www.infamed.com/psy | Психологические тесты |
www.pokoleniye.ru | Web-сайт Федерации Интернет образования |
www.metod. narod.ru | Образовательные ресурсы |
www.spb. osi.ru/ic/distant | Дистанционное обучение в Интернет |
www.examen.ru | Экзамены и тесты |
www.kbsu.ru/~book/ | Учебник информатики |
Mega. km.ru | Энциклопедии и словари |
Проблемы, не лежащие на поверхности, нередко дают о себе знать лишь "задним числом", после того как определенный этап поисковых работ завершен и, возможно, исходя из его результатов уже принято какое-либо решение. Что же мешает сделать ситуацию прозрачной с самого начала эксплуатации той или иной информационно-поисковой системы (ИПС)? Ответ довольно прост: отсутствие исчерпывающей информации подобного рода со стороны разработчика. Прямым следствием этого становятся недостоверность получаемых данных и их неконтролируемая потеря. Редко удается встретить в Сети поисковую систему, которая не обладала бы некоторыми "недокументированными" особенностями. Казалось бы - пользователю необходимо не так уж много сведений, а именно:
как происходит наполнение базы данных ИПС и каков ее объем;
полный спектр возможностей поискового языка системы;
основные особенности представления результатов поиска, прежде всего алгоритма ранжирования записей из списка отклика на поисковый запрос.
Увы, источником подобной информации обычно является не документ, доступный с головной страницы поискового сервера, а разбросанные по Сети, книгам и компьютерным журналам публикации отдельных авторов. К причинам такого положения дел, по-видимому, можно отнести не только небрежность разработчика, но и фактор, именуемый маркетинговой политикой. Проще говоря, предоставление поисковой системой наиболее полной информации о самой себе не всегда положительно сказывается на ее рейтинге. Тем не менее, взять ситуацию под контроль в ряде случаев пользователю оказывается вполне по силам. Выяснить особенности работы избранного поискового сервиса часто удается с помощью тестирования. Построение специальных тестовых запросов, быстро проясняющих именно тот аспект работы системы, который наиболее важен для текущей задачи, во многих случаях оказывается нетривиальным. Тому, как избежать некоторых неприятностей при работе с ИПС, мы и посвятим наше обсуждение. В качестве примеров, иллюстрирующих изложение, будут рассмотрены широко известные поисковые системы Интернета.