Смекни!
smekni.com

Сравнительный обзор современных поисковых систем (стр. 1 из 8)

Учреждение образования

«Брестский государственный Университет имени А.С.Пушкина»

математический факультет

кафедра информатики и прикладной математики

Курсовая работа

Сравнительный обзор
современных поисковых систем

Брест, 2008

Содержание

Введение. - 2 -

Поисковые системы.. - 2 -

Самые популярные поисковые системы.. - 3 -

Сравнительный обзор и классификация поисковых системы.. - 5 -

Наиболее яркие представители. - 9 -

Преимущества и недостатки поисковых систем.. - 16 -

Сравнительный анализ работы различных поисковых систем: - 18 -

Модель "идеальной" поисковой системы.. - 19 -

Рекомендации по применению поисковых систем: - 21 -

Заключение. - 23 -

Используемые источники: - 25 -

Введение

Первые поисковые системы появились в сети Интернет более десяти лет назад. Тогда они выполняли лишь одну функцию – поиска ссылок к недавно созданным страницам.

На начальном этапе развития интернета, число пользователей сети было невелико и количество информации относительно небольшим. В подавляющем большинстве случаев пользователями Интернет были сотрудники различных университетов или научных организаций. В то время поиск нужной информации в сети был не столь актуален, как теперь. Сегодня же поисковые системы превратились в многофункциональный сервис. Они позволяют пользователям находить в сети Интернет самую разнообразную информацию, благодаря чему пользуются огромным успехом.

Поисковые системы

Одной из первых попыток организации доступа к информационным ресурсам сети стало создание тематических каталогов сайтов. Первым, открывшимся в апреле 1994 г, стал Yahoo. Это еще не было поисковой системой, в современном понимании, т.к. возможность поиска информации ограничивалась ресурсами, зарегистрированными в каталоге Yahoo. Каталоги ссылок ранее использовались довольно широко, но в настоящее время практически утратили свою популярность. Объяснение этому очень простое – даже современные, содержащие огромное количество ресурсов каталоги, представляют информацию лишь о довольно незначительной части сети. Для сравнения - самый полный каталог сети интернет - DMOZ содержит информацию примерно о 12.000.000 ресурсов, в то время как база данных самой полной поисковой системы Google состоит более чем из 28.000.000.000 документов.

Первой полноценной поисковой системой в 1994г. стал проект WebCrawler. Далее в 1995 году появились поисковые системы AltaVista и Lycos. В 1997 году в Стэнфордском университете, в рамках исследовательского проекта, была создана Google - самая популярная поисковая система на данный момент в мире. В 1997 году появилась поисковая система - Yandex, лидер в русскоязычной части Интернета. На данный момент основными поисковыми системами являются три международных – Google, Yahoo и MSN Search. Остальные, коих не мало, используют целиком или частично базы и (или) алгоритмы выше приведенных систем. В Рунете основной поисковой системой является Яндекс, далее по популярности идут Rambler, Google.ru, Mail.ru и Aport.

Поисковая система - это сумма следующих компонентов:

Web server (веб-сервер) – сервер поисковой машины, который осуществляет взаимодействие между пользователем и остальными компонентами системы.

Spider (паук)- программа написанная по принципу браузера, предназначена для скачивания веб-страниц. Браузер предназначен для визуального использования страниц, а паук работает с HTML кодом напрямую. Чтобы посмотреть "сырой" исходник нажмите в меню браузера: Вид- Просмотр HTML кода.

Crawler («путешествующий» паук) – программа, которая автоматически уходит по всем внешним ссылкам страницы. Ее задача - поиск не известных (или измененных) документов и в расстановке приоритетов, куда дальше должен идти Spider.

Indexer (индексатор) - программа-анализатор скаченных пауками веб-страниц. Она "разбирает" на части скачанную страницу и анализирует ее элементы, такие как текст, служебные html-теги, заголовки, особенности стилистики и структурные формы.

Database (база данных) – хранилище для скачанных и обработанных страниц - общая база данных поисковой машины.

Search engine results engine (система выдачи результатов) – извлекает результаты поиска из базы данных поисковой системы. Именно она решает, какие страницы более соответствуют запросу пользователя и отсортировывает их в нужном порядке. Модуль работает согласно заданным поисковой системой алгоритмам ранжирования.

Самые популярные поисковые системы

Доля каждой поисковой системе в Рунете

Русскоязычные Англоязычные
Яndex Google
Google MSN search
Rambler Yahoo
Аport Aol
MSN Search Lucos
Yahoo Cuil
AltaVista Ask Jeeves
Mail.ru LookSmart

Анализ трафика – июнь 2008г.

Рейтинг поисковых систем в России

Количество переходов с поисковых систем

Сравнительный обзор и классификация поисковых системы

Общее соотношение поисковых систем в англоязычных странах

Таблица 1

Google Яndex Rambler
1997г. Служба основана на работе crawler’ов, охватывающей всю Сеть. Приоритетное место занимает релевантность результатов и их соответствие запросу. В отличие от многих поисковиков, роботы Google индексируют все страницы, а не только самые главные. Есть меню, где с легкостью сможете находить в Сети изображения, обсуждения, проходящие в группах новостей, читать новости или проводить поиск товаров. Можно получить доступ к информации из Open Directory (Открытого Каталога, DMOZ). Система долго хранит проиндексированные роботами страницы в своем кэше, что позволяет «оживлять» мертвые, удаленные с серверов страницы, или видеть старые версии только что обновленных страниц. Система предоставляет отличную проверку правописания, легкий доступ к словарным определениям, просмотр биржевых ставок, дорожные атласы, базы номеров телефонов и многое другое. Программа AdWords размещает рекламные объявления на сайтах Google и его партнеров. Также Google является бесплатным поставщиком результатов поисковых запросов некоторых других поисковых систем. 1997г. В системе производится поиск с учетом морфологии русского языка, поиск с учетом расстояния, и тщательно разработанный алгоритм оценки релевантности. Реализован естественно-языковой запрос: теперь поисковик можно спрашивать «по-русски», задавая длинные вопросы. Например: «где купить холодильник». Поисковый робот позволяет предоставить возможности поиска по разным зонам текста, ограничение поиска на группу сайтов, поиск по ссылкам и изображениям. Существует «индекс цитирования» - количество сайтов, ссылающихся на данный ресурс. Работает фильтрация результатов поиска от мата и порнографии. Службы: почта, новости, открытки и закладки, автоматическое объединение новостей в сюжеты и выделение главных тем дня. Плюс, стилизованный под Google Toolbar, спартанский поисковик ya.ru. Поиск теперь ведется не только по веб-страницам, но и по специализированным массивам данных – новостям и товарам. Находит документы не только в формате HTML. 1996г. Система работает с большой скоростью поиска, обновление поискового индекса происходит несколько раз в день. Поисковик всегда находит самые свежие документы и последние новости. Rambler знаком с русским языком, понимает термины типа «б/у», «у.е.» и «а/я». Услуги: строка поиска, почта и новости. Особенность - механизм ассоциаций. Помимо стандартной ответной страницы, в которой найденные документы расположены в порядке убывания релевантности, появляется строка - «У нас также ищут». В ней приведены слова и словосочетания тематически связанные с запросом. Новый механизм также исправляет ошибки запросов. На введенное gjujlf пользователь получит теперь положительный результат: сведения о погоде (gjujlf – это слово «погода» набранное латиницей). Rambler Mass Media - первый и по-прежнему лидирующий на рынке информационный дайджест. Помимо текстовых материалов и фоторепортажей, ставших визитной карточкой проекта, Rambler Mass Media представляет пользователям аудио и видеосюжеты.
Aport MSN Search Yahoo!
1996г. Продолжает работать под управлением OC Windows. К важным свойствам первой версии поисковой системы Апорт можно отнести перевод запроса и ответа на английский язык и обратно. Второе свойство – реконструкция проиндексированных страниц из собственной базы. Это дает возможность просмотра уже несуществующих страниц. Система построена на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты Апорт использует информацию, которую предоставляет каталог AtRus, или владельцы ресурсов. В поисковой системе Aport впервые была реализована возможность поиска по новостным лентам. 1994г. Ранее у MSN никогда не было собственного паука или каталога. С 1997 года для выдачи результатов поиска использовались разные базы данных. Только с начала 2005 года MSN запустил бета-версию собственного поискового алгоритма. Система МSN особенно важна, т.к. именно этот поисковик по умолчанию используется, когда пользователи Internet Explorer'а вводят в адресную строку поисковый запрос. Локализована примерно для 30 стран, таких как: Великобритания, Дания, Бельгия, Новая Зеландия, Япония и др. Также эта система предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности. 1995г. На сегодняшний день это самый старый и наиболее полный каталог Интернет-ресурсов. Система зародилась как простая коллекция закладок, которую пополняли всего 2 человека - Дэвид Фило и Джерри Янг. Вдобавок к релевантной выдаче результатов поисковых запросов Yahoo предлагает возможность использовать ярлыки над поисковой формой на своей главной странице для поиска изображений, товаров или перехода на Желтые Страницы Yahoo. Можно производить поиск по каталогу Yahoo. Есть панель для браузера Firefox. Для хранения почты система предлагает 1 гигабайт бесплатного места или 2 по годовому абонементу. Yahoo продает место на сайте для рекламных ссылок; продажа ведется через программу Overture. Система учитывает орфографические ошибки, позволяет искать слово лишь по первым буквам.
AltaVista Teoma LookSmart
1995г. Особенность этого поисковика заключается в возможность вести поиск по усложненным критериям отбора. Обеспечение поддержки множества языков (Китайский, Японский, Корейский). Содержит услуги по индексации больших объемов информации и возможность мгновенного поиска в огромных базах данных. Есть схема «спонсорских» сайтов. Осуществляет разработку корпоративных поисковых систем внутреннего пользования. Лицензирует технологии поиска предприятиям, в том числе для использования во внутренних сетях. Она пользуется каталогами Yahoo, и ярлыки над поисковой строкой позволяют находить в сети изображения, музыку, видео, а также тематические разделы, наполненные вручную. Если вы хотите получать информацию не менее надежную чем от Yahoo, но поставляемую через более простой интерфейс – AltaVista ваш выбор. 2001г. Поисковая система, основанная на работе crawlerов (с англ. пауков" - специальных программных роботов, сканирующих Интернет в поисках информации, которая затем заносится в базу данных), принадлежащих Ask Jeeves. Большая релевантность поиска, встроенная система проверки правописания запросов, динамические описания страниц, появляющиеся рядом с результатами поиска. Запросы можно вводить на десяти европейских языках. В баз данных поисковика проиндексированы свыше миллиарда уникальных страниц. Существует возможность уточнения запроса в тематических топиках, ссылки на которые выдаются на странице с результатами поиска. Раздел «Ресурсы», также находящийся на странице результатов, в свою очередь уникален тем, что перенаправляет пользователя на сайты, которые послужили исходным материалом для приведенных в качестве результатов статей. 1995г. LookSmart – это интернет-компания, имеющая свой интернет-каталог и механизм поиска Wisenut. LookSmart - это, в первую очередь, вручную пополняемый перечень сайтов. Он получает списки двумя путями. Во-первых, коммерческие сайты платят за место в торговых топах, уподобляя LookSmart электронным Желтым Страницам. Во-вторых, существуют добровольцы, которые заносят сайты с некоммерческим содержанием в каталог www.zeal.com, принадлежащий LookSmart. Хотя это и отдельный сайт, списки, находящиеся на нем, используются при обработке поисковых запросов LookSmart. Изюминка LookSmart – это возможность доступа к сотням периодических изданий через один из ярлыков над строкой поиска. Содержит службу Furl, предназначенную для архивирования веб-страниц и ссылок на них. Для архива страниц пользователя предоставляется 5 Гб свободного пространства. Запустила систему вертикального поиска из 161 сайта.
Scirus GigaBlast Aol Search
2001г. Специализированная поисковая система научной и околонаучной информации. Scirus использует около 200 миллионов страниц научной тематики и отфильтровывает результаты ненаучного содержания, которые по релевантности в какой-то степени соответствуют запросу. Стартовая страница Scirus радует своей непритязательностью – там только Вы и строка запроса. Если Вы не очень сведущи в научных терминах, Scirus помогает ввести корректный запрос для лучшего поиска. Это лучшая из научных специализированных поисковых систем. Она предоставляет информацию конкретного направления, помогает в составлении запросов и использовании терминов, а кроме того Scirus находит информацию, которая может быть недоступна в случае использования других поисковых машин. 2000г. Поисковая система с более чем двух миллиардным количеством индексированных страниц. GigaBlast имеет высокую релевантность запросу и множество различных инструментов поиска. Стартовая страница GigaBlast.com проста и аккуратна. В дополнение к обычной строке запроса в наличии имеются Каталог, Поиск по блогам, Поиск Путешественника и Правительственный Поиск. Система использует обычный прямой поиск - Соответствие результатов довольно высоко, кроме того, GigaBlast проводит проверку правописания. Поддерживает запросы в буквальной форме («Почему трава зеленая?»). Проводит проверку правописания. В расширенном поиске GigaBlast.com можно искать по точной фразе, ставить исключение на слово, искать на определенном адресе и т.д. Все стандартно. В целом GigaBlast является удобной машиной поиска с высоко релевантными результатами. 1985г. Огромный портал, на котором можно найти все, начиная с игр и заканчивая форумами самой различной тематики + простота навигации и хорошо запоминающееся название обозначающие America Online. AOLbyPHONE – Сервис позволяет получать заказанную ранее информацию по телефону. AOLSchool – сервис для школьников. DigitalCity – проект виртуального города. AOL Anywhere – сервис позволяет получить доступ с любого мобильного устройства к контенту America Online. AOL Search предоставляет пользователям страницы с результатами поиска на основании индекса Google, «Встроенная» версия AOL Search в результате поисковых запросов дает ссылки только на содержимое, доступное внутри онлайн системы AOL. А пользуясь AOL Search, вы можете одновременно проводить поиск и по Интернет, и по Сети AOL. Во «внешней» поисковой системе AOL Search такой опции нет. Если вам по душе Google, вам будет не хватать некоторых его особенностей в AOL Search, например, кэширования страниц.
Blink TV Infoseek Mail.ru
2004г. Машина поиска, позволяющая находить в интернете аудио и видео файлы, используя не только ключевые слова и фразы, но и фактическое содержание аудио и видеоклипов. Можно вносить поправки в поиск, например, по дате (если ищете материал за определенный период времени) и по релевантности (если хотите получить результаты, наиболее соответствующие тому, что Вы ищете). Есть Smart папки – это папки, содержимое которых автоматически пополняется из интернет источников без участия пользователя. Они формируются из результатов поиска по вашему запросу. Использование Blinkx TV достаточно просто и удобно (единственное требование – это высокоскоростная связь с Интернетом). 1994г. В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске, а так же позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов, обладает довольно развитым информационно-поисковым языком (не просто указывает, какие термины должны встречаться в документах, но и своеобразно взвешивать их). 1997г. Не является поисковой системой, это огромный портал со множеством сервисов. Но в сервисы mail.ru входит и поисковая система. Ведет активную борьбу со спамом и вирусами, сотрудничая по этим направлениям с создателями «Dr.Web» и «Антивирус Касперского». В 2004 году присоединилась к инициативе почтовых служб мира и начала использовать стандарт SPF в работе фильтров своих почтовых серверов. В поисковом механизме существует опция морфологии русского языка и возможность ведения истории поисковых запросов. Обзавелась двумя инновационными сервисами: доступом по протоколу IMAP и голосовой почтой - возможностью прослушивания содержимого ящика по сотовому телефону. К порталу Mail.ru добавились такие новые сервисы как «Хостинг» и «Энциклопедии».
Lucos NetScape Search Ask Jeeves
1945г. Система предоставляет доступ к результатам, собранным вручную из LookSmart по результатам наиболее частых запросов, а также из Yahoo на основе индексов сайтов, составленных роботами. Система Fast Forward позволяет видеть на одной стороне экрана результаты поиска, а на другой – первые страницы найденных сайтов. Релевантные запросу категории из каталога, собранного вручную, показываются вверху страницы с результатами поиска. 1994г. Система пользуется индексной базой Google, как и основной поисковый сайт AOL – AOL Search. Основное отличие Netscape Search от Google в том, что Netscape Search в первую очередь будет производить поиск по собственной базе и выводить эти результаты первыми. Есть разница и в дизайне. 1998г. Прославилась как поисковая машина, понимающая «естественную речь» - в поисковую строку вводится предложение в вопросительной форме, и система адекватно отвечает на него. В настоящее время Ask Jeeves работает на основе технологии crawlerов, обрабатывая запросы, поступающие в поисковую систему Teoma.
Cuil Alexa Internet HotBot
2007г. Создана выходцами Google. Отличительная черта – большой объем обрабатываемых страниц. Понимает запросы только на английском языке. 1996г. Крупнейшая поисковая система, предоставляющая также интернет статистику о трафике web сайтов. Сегодня Alexa – это машина поиска, использующая базы данных двух гигантов мирового интернет поиска: Google и каталог DMOZ. 1996г. HotBot предоставляет простой доступ к трем основным поисковым системам, в основе которых лежит работа crawler’ов: Google, MSN и ASK. Не смешивает результаты, полученные из трех этих источников. Тем не менее, это быстрый и простой путь к тому, чтобы получить несколько независимых «мнений» по интересующей вас теме.

Наиболее яркие представители