Найбільший покажчик, що наближається до 300 млн Веб-документів, має пошукова система FastSearch (www.alltheweb.com), а найзручніший для наукових досліджень покажчик має система NorthernLight (www.northernlight.com).
У Росії пошукові покажчики розвинуті дуже добре. Можна назвати три найбільших системи: Апорт (www.aport.ru), Яндех (www.yandex.ru) і Ремблер (www.rambler.ru). В Україні - МЕТА (www.meta-ukraine.com).
Викладачу доцільно порівняти індексні бази даних і пошукові каталоги, акцентувати увагу студентів на позитивних характеристиках кожної з систем пошуку та визначити недоліки тематичних каталогів та індексних баз даних.
Пошукові покажчики створюються автоматичними засобами за мінімумом ручної праці. З одного боку, це дає змогу порівняно швидко опрацьовувати великі масиви Веб-документів і створювати індекси розміром у сотні мільйонів Веб-сторінок. З другого, -ніхто не може гарантувати, що наявність у документі певних слів означає належність документа до конкретної теми. Тому точність пошуку інформації у базі даних, заповнених автоматичними засобами, залишає бажати кращого. Пошукові каталоги, як правило, позбавлені таких недоліків індексних баз даних, як:
неадекватність посилань (посилання веде до документа, який не відповідає темі пошуку);
неактуальність посилань (посилання вказує на документ, якого вже немає в наявності);
дублювання посилань (кілька посилань ведуть до однакових документів, що зберігаються в різних місцях, або до одного документа, який проіндексовано в різний час).
Окрім того, важливо підкреслити, що для оцінювання якості пошуку використовують два параметри: коефіцієнт охоплення і коефіцієнт влучення. Коефіцієнт охоплення засвідчує, яку частину загальносвітових ресурсів WWW відображає пошукова система у своїх базах даних. Для пошукових каталогів цей коефіцієнт надзвичайно низький (частки відсотка). Для пошукових покажчиків він порівняно високий (десятки відсотків).
Коефіцієнт влучення вказує на частину посилань, що повертаються пошуковою системою і дійсно відповідають запитам клієнта. Для пошукових каталогів цей коефіцієнт дуже високий, оскільки такі каталоги складають люди. Для пошукових покажчиків цей коефіцієнт досить низький.
Однак, як свідчить практика, пошукові покажчики дозволяють провести найбільш глибокий пошук у рамках заданої теми. Доцільно пояснити студентам, що робота пошукового покажчика проводиться у три етапи. На першому етапі сканується інформаційний простір і збираються копії Веб-ресурсів. На другому етапі бази даних, складені за результатами сканування, перетворюються так, щоб у них можна було проводити прискорений пошук. На третьому етапі пошуковий покажчик одержує запит від клієнта, проводить пошук у базах даних і видає Веб-сторінку оформлених результатів пошуку.
Далі доцільно проаналізувати особливості кожного етапу. Зрозуміло, що цей матеріал не є обов'язковим, але він має світоглядне значення, саме тому слід зупинитися на поясненні роботи кожного з етапів організації пошукової роботи індексних баз даних.
Для збирання відомостей про ресурси WWW пошуковим покажчиком використовуються спеціальні програмні засоби, які називають пошуковими роботами або павуками, черв 'яками, гусінню, краулерами та ін. Як правило, кожний пошуковий покажчик має свою спеціальну програму, побудовану на унікальному алгоритмі. Загальний принцип дії пошукових робіт полягає в тому, що вони починають перегляд мережі з деякої заданої адреси Веб-сторінки, копіюють знайдений документ на сервер пошукової системи, переглядають його, знаходять у ньому всі гіперпосилання, переходять на них, знаходять нові документи, копіюють їх, виявляють у них гіперпосилання, знову виконують перехід та ін. "Павуки" дуже подібні за принципами свого функціонування до комп'ютерних вірусів, можуть "саморозмножуватися" та розсилати свої копії за посиланнями, що вказані на сторінках, які аналізуються, а після виконання поставленого перед ними завдання "самоліквідуються".
Проводити у зібраних копіях Веб-сторінок пошук інформації, яка була замовлена клієнтом, дуже незручно, оскільки це займає багато часу. Тому зібрані дані проходять попереднє опрацювання, яке називається індексацією. Метою індексації є одержання індексного файлу, за допомогою якого запит клієнта можна швидко опрацювати. Кожна пошукова система проводить таку індексацію за своїми алгоритмами, які складають комерційну таємницю системи.
Можна навести один із прикладів такого пошукового процесу, коли при індексації формується файл зі словником, до якого входять слова, виявлені на Веб-сторінках, скопійованих з WWW-npoстору і поруч проставляються номери Веб-документів, в яких це слово було виявлене. Часто також може вказуватися і вага слова - це число, яке свідчить, наскільки часто воно зустрілося у даному Веб-документі. Додатково подається ще адресна таблиця, в якій для кожного номера Веб-документа вказана його URL-адреса.
На наступному етапі ранжування пошукова система за спеціальними алгоритмами визначає "цінність" кожного зі знайдених ресурсів і впорядковує їх так, щоб "найцінніші" (за вказаними критеріями) розташовувалися на початку списку. Для цього кожному ресурсу ставиться у відповідність деяка умовна ознака. При цьому окремим Веб-ресурсам можуть нараховуватися "призові" бали, а деяким - "штрафні".
"Призові" бали призначаються, наприклад, за таких умов:
якщо ключові слова, які використовувалися клієнтом у запиті, зустрічаються в заголовку Веб-сторінки - це свідчить про те, що Веб-сторінка дійсно присвячена тій темі, яку досліджує клієнт;
якщо ключові слова, які виявлено в документі, мають шрифт збільшеного розміру -це свідчить про те, що вони входять до заголовків розділів всередині документів;
якщо ключові слова неодноразово повторюються всередині документа (особливо, якщо повторення відбувається в перших п'яти-восьми абзацах тексту);
якщо ключові слова входять до так званого альтернативного тексту (це текст, який підміняє ілюстрації, якщо їх відображення на екрані з деяких причин відключено); наявність ключових слів в альтернативному тексті свідчить про те, що автор документа надає їм особливого значення;
якщо існують посилання з інших Веб-сторінок тощо.
"Штрафні" бали можуть призначатися за те, що:
ключові слова повторюються підряд або регулярно з постійною періодичністю -це свідчить про те, що автор примусово намагається підвищити рейтинг своєї сторінки;
ключові слова зроблені невидимими або непомітними, наприклад, набрані кольором, який збігається з кольором фону (чорним на чорному, білим на білому) або набрані шрифтом мінімального розміру. Це свідчить про те, що автор використав ці слова в документі не для читача, а для того, щоб впливати на результати пошукової роботи.
Далі необхідно звернути увагу студентів на основні характеристики індексних баз даних та прокоментувати кожну з них (мал.5.5).
Характеристики індексних баз даних |
Кількість проіндексованих документів |
Інформаційні джерела, що охоплюються |
Сайти доменів, що охоплюються |
Швидкість індексування нових документів |
Оновлення проіндексованих документів |
Перш ніж працювати з конкретною пошуковою системою, слід розглянути з учнями принципи та прийоми пошуку інформації. Учні повинні засвоїти, що для пошуку за одним ключовим словом необхідно ввести це слово до поля введення і натиснути кнопку Знайти (Search). У різних пошукових системах ця кнопка може називатися по-різному, але сутність процесу, що відбувається, від цього не змінюється.
Як правило, пошук за одним словом приводить до одержання величезних списків Веб-сторінок, на яких воно зустрічається. Знайти в цьому списку потрібні ресурси складно, і тому пошук за одним словом малоефективний. Можна для прикладу звернутися із таким запитом до однієї з пошукових машин та проаналізувати одержані результати: визначити кількість знайдених Веб-документів та Веб-вузлів. Тоді учні самостійно доходять висновку, що набагато ефективнішим є пошук за кількома словами, але тут важливу роль відіграє правило, яке вказує пошуковій системі, як опрацювати групу слів. Можна навести конкретні приклади, коли користувача можуть цікавити документи, що містять і перше слово, і друге одночасно, або слід знайти документи, в яких ці слова зустрічаються поруч або недалеко один від одного або перше слово, або друге, або обидва слова разом.
Таким чином, учні повинні дійти висновку, що для ефективного пошуку за кількома ключовими словами потрібні спеціальні команди, які дозволяють зв'язати окремі слова між собою. Ці команди в пошукових системах утворюють спеціальну, як правило, нескладну мову запитів, яка складається із кількох команд.
Важливо підкреслити, що кожний пошуковий покажчик використовує власну мову запитів, тому при звертанні до різних пошукових систем треба знати її особливості. Але є загальний принцип, згідно з яким усі команди можна поділити на три групи: простий, розширений і спеціальний пошуки. Режим простого пошуку запитів передбачає значну кількість результатів, з яких важко вибрати конкретний.
Команди розширеного пошуку дозволяють досить точно описати необхідний документ.
Команди спеціального пошуку не знаходять документи за їх вмістом, а призначені для пошуку Веб-вузлів за їх назвами, фрагментами їх адрес, адресами посилань, які зустрічаються на їхніх Веб-сторінках і т.п.
Важливо, щоб учні зрозуміли, що при пошуку в Інтернеті важливими є дві характеристики: повнота пошуку (тобто намагання не пропустити деяку важливу інформацію - нічого не загубити) і точність (тобто відсутність у результатах пошуку зайвої інформації - не знайти нічого зайвого). Як правило, ці характеристики називають спільним словом релевантність, яка і передбачає максимально змістовну відповідність результатів пошуку вказаному запиту. Іншими словами, релевантність - це відповідність відповіді запитанню. Релевантність також можна розглядати і як спосіб впорядкування знайдених за запитом документів: чим більше документ відповідає запиту, тим ближче до початку списку повинна знаходитися його адреса. Для досягнення цього результату пошуковою системою враховуються такі параметри, як кількість знайдених в тексті ключових слів, "контрастність" слова (його відносна частота входження до цього документа), відстань між словами, розташування слова в документі та його підрозділах і т.п.