Работ ПУ происходит в четыре этапа:
1. Сканирование веб-пространства. Поисковая система круглосуточно с помощью специальных программ просматривает доступное пространство Web и копирует к себе все встреченные страницы. Сканирование осуществляется с помощью специальных программных средств. Их общее название – поисковые роботы (еще – черви, гусеницы, краулеры..). Каждый поисковый указатель имеет свою собственную программу, основанную на патентованном алгоритме. Но общий принцип действия один:
- поисковые роботы начинают просмотр Сети с какого-то заданного адреса
- копируют найденный документ на сервер своей системы
- посматривают его, находят в нем все гиперссылки
- переходят по ним, находят новые документы, копируют их, находят в них гиперссылки. переходят по ним и т.д.
- периодически роботы возвращаются к ранее просмотренным документам, чтобы отследить изменения. Об изменениях они узнают по размеру и дате создания документа.
2. Индексация ресурсов. Обнаруженные поисковыми роботами страницы обрабатываются специальными программными средствами и из них составляется специальная база данных, именуемая указателем. Цель индексации – получить индексный файл, с помощью которого запрос клиента обрабатывается почти мгновенно. Каждая система проводит индексацию по своим алгоритмам, которые являются коммерческой тайной.
3. Поиск по запросу. Поисковый указатель принимает запрос от пользователя в виде ключевых слов и отбирает ссылки на те ресурсы, которые соответствуют запросу. Высокая скорость поиска обеспечивается за счет первых двух этапов своей работы, благодаря которым поисковая машина при обработке запроса пользователя обращается не в Сеть, а в свою базу данных. Количество найденных страниц может быть очень велико, поэтому перед выдачей результатов клиенту происходит ранжирование результатов поиска. То есть система определят ценность каждого из найденных ресурсов и отсортировывает их так, чтобы наиболее ценные располагались в начале списка. Для этого каждому ресурсу дается оценка. На повышение оценки влияют следующие факты:
- если ключевые слова встречаются в заголовке Web страницы – это значит, что страница действительно посвящена той теме, которую исследует клиент
- если ключевые слова, обнаруженные в документе, имеют шрифт увеличенного размера – это говорит о том, что они входят в заголовки разделов документов
- если ключевые слова неоднократно повторяются внутри документа (особенно, если в первых 5-8 абзацах текста)
- если ключевые слова входят в так называемый альтернативный текст (тот. который подменяет иллюстрации, если их изображение отключено). Это значит, что пользователь придает им особое значение.
4. Формирование результирующей страницы. Система формирует динамическую web-страницу оформленных результатов поиска. Пример результирующей страницы систем Google приведен на рисунке 3.
Основы работы в поисковых указателях
1. Поиск группы слов.
Слова "открытое" или "образование" дадут при поиске поодиночке большое число разнообразных ссылок, относящихся к совершенно различным темам, причем вряд ли имеющим отношение к "открытому образованию". Поэтому рекомендуется добавлять одно или два ключевых слова, связанных с искомой темой. Например, "открытое образование" или "технологии открытого образования". Необходимо также сужать область вопроса. Если необходимо найти информацию об автомобилях марки Ford, то запрос "автомобиль Ford" выдаст более подходящие документы, чем "легковые автомобили". Количество слов в группе не ограничивается.
2. Поиск словоформ.
В большинстве случаев поисковая система по умолчанию ищет все словоформы языка. Однако, можно указать поисковой системе не перебирать все словоформы слов из запроса при поиске.
Рис. 3.Страница результатов поиска в системе Google по запросу "Виртуальный университет"
Сравниваемые показатели | Поисковые указатели | Поисковые каталоги |
неадекватность ссылок (ссылка ведет к документу, не соответствующему теме поиска) | есть | нет |
неактуальность ссылок (ссылка указывает на документ, которого уже не существует) | есть | нет |
дублирование ссылок (несколько ссылок ведет к одинаковым документам. хранящимся в разных местах) | есть | нет |
коэффициент охвата (то есть какую часть общемировых ресурсов WWW отражает поисковая система в своих базах данных) | высокий | низкий |
коэффициент попадания (то есть какая часть ссылок, возвращаемых поисковой системой, действительно соответствует ожиданиям клиентам) | низкий | высокий |
Во многих системах для этого используется восклицательный знак. Например, запрос "!кошкин" с большой вероятностью найдет страницы, цитирующие строчку из стихотворения "Кошкин дом".
3. Роль прописных букв
В случае если пользователь ввел в качестве запроса ключевое слово с прописной буквы, поисковая машина не найдет страниц, где содержится это слово, начинающееся со строчной буквы Поэтому заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "город Москва", "Филипп Киркоров ".
4. Значение подстановочных символов.
Когда нет уверенности в том, что поисковая система правильно обрабатывает словоформы (то есть когда речь идет, например, об именах собственных или словах иностранного происхождения) поисковые системы позволяют использовать подстановочные символы. Чаще всего это символ "*" вместо любого количества любых символов до конца слова. Например, если пользователь хочет найти страницы, содержащие слова "республика Татарстан", но устроит и Татарская республика, тогда надо подать запрос "республика Татарс*".
5. Учет зарезервированных слов.
Зарезервированными словами (стоп-словами) считаются те слова, которые не учитываются при поиске. Обычно к ним относятся все короткие слова, в которые входят менее 4 букв (предлоги, союзы и т.п.). Например при запросе "мы в Италии" будут найдены документы, в которые входит слово "Италии" или его словоформы.
6. Средства контекстного поиска.
Если ключевые слова взять в кавычки, то поисковая система должна найти документы, в которых данная фраза присутствует буквально (поиск цитаты).
Для более быстрого и успешного поиска в поисковых машинах совместно с ключевыми словами используются различные логические операторы. Благодаря этому можно сконструировать запрос так, что будут найдены не сайты на интересующую тему, а конкретные страницы и даже отдельные документы. Правила составления сложных запросов на одном поисковой машине могут отличаться от таковых на другой, но в любом случае будут использоваться следующие основные операторы:
1. Оператор И (AND). С помощью этого оператора объединяют два или более слов так, чтобы они все присутствовали в искомом документе. Часто вместо И используют & или +. Пример: по запросу Красная И Шапочка будут найдены документы, содержащие и то и другое слово.
2. Оператор ИЛИ (OR). Обеспечивает поиск по любому из слов группы. Пример: по запросу образование ИЛИ обучение будут найдены документы, содержащие слово образование или обучение..
3. Логические скобки. Применяются, когда надо управлять порядком следования логических операторов. Пример: по запросу ИЛИ (Михаил И Васильевич)будут найдены документы, содержащие слова Ломоносов или Михаил И Васильевич.
4. Оператор НЕ (NOT). Используется, когда из результатов поиска надо исключить какое-либо ключевое слово. Млекопитающие НЕ хищники.
5. Оператор БЛИЗКО (NEAR). Поиск с указанием расстояния. Он позволяет указать, на каком расстоянии друг от друга могут располагаться слова в документе. Синтаксис такого запроса различен у разных поисковых систем.
и другие.
Позволяют выполнять поиск документов по:
- датам;
- по ссылкам на определенный адрес;
- по заголовкам веб-страниц;
- по доменному имени сервера;
- и др.
Все средства поиска реализуются при помощи так называемого языка запросов. Языки запросов разных поисковых систем незначительно отличаются друг от друга.
Для примера приведем синтаксис языка запросов поисковой системы Yandex:
Синтаксис | Что означает оператор | Пример запроса |
пробел или & | логическое И (в пределах предложения) | лечебная физкультура |
&& | логическое И (в пределах документа) | рецепты && (плавленый сыр) |
| | логическое ИЛИ | фото | фотография | снимок | фотоизображение |
+ | обязательное наличие слова в найденном документе (работает также в применении к стоп-словам) | +быть или +не быть |
( ) | группирование слов | (технология | изготовление) (сыра | творога) |
~ | бинарный оператор И НЕ (в пределах предложения) | банки ~ закон |
~~ или - | бинарный оператор И НЕ (в пределах документа) | путеводитель по парижу ~~ (агентство | тур) |
/(n m) | расстояние в словах (-назад +вперед) | поставщики /2 кофе музыкальное /(-2 4) образование вакансии ~ /+1 студентов |
" " | поиск фразы | "красная шапочка" (эквивалентно красная /+1 шапочка) |
&&/(n m) | расстояние в предложениях (-назад +вперед) | банк && /1 налоги |
$title (выражение) | поиск в заголовке | $title (CompTek) |
$anchor (выражение) | поиск в тексте ссылок | $anchor (CompTek | Dialogic) |
#keywords=(выражение) | поиск в ключевых словах | #keywords=(поисковая система) |
#abstract=(выражение) | поиск в описании | #abstract=(искалка | поиск) |
#image="значение" | поиск файла изображения | #image="tort*" |
#hint=(выражение) | поиск в подписях к изображениям | #hint=(lenin | ленин) |
#url="значение" | поиск на заданном сайте (странице) | #url="www.comptek.ru*" |
#link="значение" | поиск ссылок на заданный URL | #link="www.yandex.ru*" |
Работа в поисковой системе Google