Языки запроса различных машин поиска в основном являются сочетанием следующих функций:
Операторы булевой алгебры AND, OR, NOT:
- AND (И) - осуществляется поиск документов, содержащих все термины, соединенные данным оператором;
- OR (ИЛИ) - искомый текст должен содержать хотя бы один из терминов, соединенных данным оператором;
- NOT (НЕ) - поиск документов, в тексте которых отсутствуют термины, следующие за данным оператором.
- Операторы расстояния - ограничивают порядок следования и расстояния между словами, например:
- NEAR - второй термин должен находиться на расстоянии от первого, не превышающем определенного числа слов;
- FOLLOWED BY - термины следуют в заданном порядке;
- ADJ - термины, соединенные оператором, являются смежными.
- Возможность усечения терминов - использование символа " * " вместо окончания термина позволяет включить в искомый список все слова, производные от его начальной части (шаблона).
- Учет морфологии языка - машина автоматически учитывает все формы данного термина, возможные в языке, на котором ведется поиск.
- Возможность поиска по словосочетанию, фразе.
- Ограничение поиска элементом документа (слова запроса должны находиться именно в заголовке, первом абзаце, ссылках и т.д.).
- Ограничения по дате опубликования документа.
- Ограничения на количество совпадений терминов.
- Возможность поиска графических изображений.
- Чувствительность к строчным и прописным буквам.
Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.
Анализ ресурсов и сбор информации
Первичный анализ ресурсов основывается на аннотациях - в случае их наличия, и в необходимых случаях - на ознакомлении с информационным наполнением ресурса. Информация с отобранных источников извлекается с использованием соответствующих конкретному источнику методов, что может потребовать значительных коммуникационных, вычислительных и дисковых ресурсов.
Кратко можно выделить следующие типы информационных Web-ресурсов:
- коммерческие сайты компаний;
- вторичные информационные сайты;
- источники аналитической информации;
- региональные информационные ресурсы.
В русскоязычной части Интернета в настоящее время доступен ряд ресурсов, предоставляющих вторичную информацию, как правило, в табулированной форме. Предоставление информации для публикации в подобных источниках является более дешевым вариантом для компаний, не имеющих собственного представительства в Интернете.
Проблемы, возникающие в процессе поиска
Одна из проблем является чисто методологической. Для проведения эффективного поиска мы заинтересованы в одновременном решении двух противоположных задач:
- увеличение охвата с целью извлечения максимального количества значимой информации;
- уменьшение охвата с целью минимизации шумовой информации.
Нетрудно видеть, что одновременно осуществить это довольно сложно, хотя зачастую все-таки возможно. Один из методов, если поисковая машина позволяет, - это введение явных ограничений (запрещенных слов). Другой состоит в правильном формировании запросов, в частности, в предпочтении нескольких конкретизированных запросов одному общему. К сожалению, весьма ограниченный входной язык большинства машин не оставляет особенного простора для творчества в этом направлении.
Другая проблема - многовариантность человеческого языка. Если в английском языке некоторые слова имеют множество различных значений, то русский отличается богатством морфологических вариаций слов, а для полноты поиска необходимо учитывать еще и синонимы.
Часто в области российского Интернета возникают чисто технические трудности из-за различных кодировок информации. Российские поисковые машины распознают кодировки пользователя и искомого сайта, но совместить их удается не всегда.
Еще одна особенность русскоязычной части сети - ее нестабильность. Постоянно изменяются адреса и структура сайтов, они появляются и исчезают, и поисковые машины не успевают обновлять свои базы индексированных данных, поэтому значительная часть списка документов, выданного вам машиной, может оказаться недоступной. Появление в сентябре 1997 г. системы Яndex-Web, обновляющей свои данные раз в неделю, обозначило качественный скачок вперед в решении этой проблемы.