Смекни!
smekni.com

Iнструментальнi засоби пошуку iнформацii в Iнтернет (стр. 2 из 5)

Можливості потужних систем пошуку виходять далеко за межі простого вміння знаходити Web-сторінки. Багато з них мають вбудовані засоби пошуку адрес електронної пошти, телефонних номерів і повідомлень груп новин. Деякі дозволяють знаходити географічні карти, наприклад, детальні плани міст.


1.3 Індекси

Поява індексу є результатом роботи трьох елементів програми індексування. Власне пошук за ключовими словами виконує Пошукова система (search engine). Саме до цієї частини програми індексування звертається користувач, задаючи умова пошуку в рядку для ключових слів. Пошук проходить в організованій програмою базі даних. Сукупність знайдених посилань і адрес URL оформляється у вигляді Web-сторінки результатів. Системи різняться своїми можливостями. Деякі з них підтримують використання ключових виразах булевих операторів, дозволяючи істотно звузити область пошуку. Інші, навпаки, збирають усе, що містить принаймні одне із заданих ключових слів.

"Павук" (spider) (іноді називають "хробаком" (worm) або "гусеницею" (crawler)) повинен виявити як можна більше Web-сторінок. Для цього він "запам'ятовує" всі посилання на відкриті їм документи. У виявлених таким чином нових сторінках знову відшукуються і запам'ятовуються посилання. Ця процедура повторюється до тих пір, поки не будуть вичерпані всі джерела посилань. Однак очевидно, що подібний метод не може гарантувати всеосяжних результатів: чи потрапить той чи інший джерело в число зібраний "павуком" сторінок, цілком залежить від наявності посилань на нього в інших документах Web.

Кожного разу, коли "павук" знаходить чергову Web-сторінку, упорядник індексу (indexer) вивчає вміст, заносячи слова, знайдені в посиланнях і тексті сторінок, в гігантську базу даних, ущільнити базу і очистити її від повторюваних елементів можна за допомогою високоефективних алгоритмів будови баз даних, закладених в упорядник індексу. Це нескладно, адже в людської мови поки що не використовуються унікальні слова. Укладач індексу має в результаті створити базу, в якій URL адреси були б співвіднесені з наборами зустрічаються у них слів.

Якщо яку-небудь Web-сторінку не вдається знайти, це ще не означає, що такої сторінки не існує. Багато пошукових систем генерують списки, в яких споріднені теми зібрані у розділи, організовані за принципом каталогів (такий принцип закладено, наприклад, в Yahoo!). Якщо вам не вдається знайти потрібні матеріали - скажімо, про догляд за йоркширським тер'єром (grooming Yorkshire Terrier), спробуйте відшукати їх за індексом. Цілком можливо, шукана тема виявиться серед його посилань.

Щоб підвищити ефективність пошуку за індексом, зробіть умова пошуку більш загальним і додайте ключове слово "index". Так, умова Grooming AND (Yorkie OR "Yorkshire Terrier") слід змінити на Index AND (Yorkie OR Yorkshire). He виключено, що менш конкретна умова Index AND Terrier дасть ще кращі результати. Якщо умова вибране вдало, пошукова система поверне один або кілька індексів, що посилаються на сторінки про йоркширської породі і тер'єрів.

1.4 Укладачі каталогів

На перший погляд відрізнити програми індексування від укладачів каталогів важко. Матерія для пошуку для обох інструментів служить вміст Web-сторінок. Однак, на відміну від програм індексування, укладачі каталогів не розшукують усі Web - сторінки Internet. Об'єктом пошуку для них є адреси URL, які включаються до систематизований каталог. Пошук по каталогу можна проводити як за допомогою броузера, так і вручну, клацаючи на назвах розділів і знайомлячись з їх вмістом.

Тим не менш, незважаючи на принципові відмінності у механізмах роботи, грань між грамами індексування та складання каталогів поступово стирається. Все частіше можна зустріти індекс, забезпечений засобами побудови каталогу. Нерідко самі Web-сторінки у верхній частині мають якусь подобу змісту з посиланнями на окремі розділи.


2. ПОПУЛЯРНІ ПОШУКОВІ СЛУЖБИ

Правильний вибір інструменту пошуку - ключовий момент пошукової стратегії. Якщо не допомагає одна служба, можна спробувати інші

Параметри браузера можна змінити так, щоб деяка Web-сторінка відображалася щоразу, коли відбувається запуск Internet (стала початковою сторінкою за замовчуванням). Зробивши початкової Web-сторінку будь-якої пошукової служби, ви отримаєте негайний доступ до всього набору засобів пошуку, якими володіє дана служба. Excite, InfoSeek і Yahoo! є для цього кращими кандидатами.

2.1 Тематичні каталоги

Найбільш популярним у всьому світі визнано тематичний каталог Yahoo! (http://www.yahoo.com/). Він являє собою величезну базу даних URL-адрес сайтів самої різної тематики. Yahoo! пропонує вам скористатися ієрархічним деревом при пошуку інформації. Тобто ви обираєте спочатку загальну тематику, що задовольняє вашому запиту інформації, і далі конкретизуєте, слідуючи підказкам каталогу. У звісно результаті ви отримуєте список сайтів, що містять інформацію, відповідну вашому запиту. На Yahoo! ви також можете піти й іншим шляхом. Проаналізуйте передбачуване зміст запитуваної інформації та виберіть ключові слова, які обов'язково зустрінуться в цікавлять вас матеріалах або їх заголовках. Набираєте ці слова через пробіл в рядку введення на головній сторінці Yahoo! і натискаєте Enter. Система спробує сама підібрати цікаву для вас інформацію. Так як Yahoo! система англомовна, то досить зручно використовувати Інтернет-перекладач, такий як "Сократ Інтернет" (http://www.arsenal.ru/).

Якщо ж ви шукайте інформацію завідомо російськомовну, то має сенс використовувати російські каталоги. Принцип роботи з ними ідентичний, тому що ми розглянули на прикладі з Yahoo!. Тут варто відзначити перший російський каталог Russia on the Net (http://www.ru/), один з найбільших російськомовних каталогів List.RU (http://www.list.ru/), російський варіант Yahoo! (http:/ / www.yahoo.ru/). Має місце, також, каталог "Сузір'я Інтернет", який містить лише обрані (заявлено як найцікавіші) ресурси. Говорячи про бази даних, не можна не згадати чудовий російський проект "Жовті сторінки Інтернет" (http://www.piter-press.ru/yp), де як і в однойменній книзі представлена детальна інформація про самих різних ресурсах Інтернет. У бізнесі також знадобляться каталоги підприємств і каталоги товарів і послуг. Мабуть, самий великий каталог підприємств СНД Партнер (http://trifle.net/cis).

2.2 Роботи індексів або пошукові машини

Пошукові машини влаштовані дещо інакше. По суті це сервер з величезною базою даних URL-адрес, який автоматично звертається до сторінок WWW по всіх цих адресах, вивчає вміст цих сторінок, формує і прописує ключові слова зі сторінок у свою базу даних (індексує сторінки). Більше того, цей сервер звертається по всіх зустрічається на сторінках посиланнями і переходячи до нових сторінок, робить із ними теж саме. Тому що майже будь-яка сторінка WWW має безліч посилань на інші сторінки, то при такій роботі пошукова машина в кінцевому результаті теоретично може обійти всі сайти в Інтернет. Найпопулярніша пошукова машина AltaVista (http://www.altavista.com/) містить 11 млрд слів, витягнутих з 30 мільйонів WWW-сторінок. Як користуватися цим сервісом? Необхідно продумати рядок запиту інформації (не більше ніж 5 слів), як у випадку з Yahoo! і також набрати її в полі введення. Над кнопкою Search (Пошук) знаходиться спадаюче меню з вибором мови. Перед натисненням Enter або кнопки Search необхідно вибрати мову подання інформації. Крім того, до запиту інформації можна включати спеціальний символ *, що розширює діапазон пошуку. Скажімо, що б Altavista могла знайти не тільки всі входження слова "легка", але слова "легку", "легкої" і т. д., у запиті треба писати "легк **". Тобто змінюються літери закінчення замінюємо на символ *.

Як і попередньому випадку, для пошуку в російськомовному Інтернет Altavista не дуже підходить. Якщо на запит "Light industry" Altavista формує список з 2917 URL-адрес, то за запитом "Легка промисловість" з'являється список посилань на всього 9 сайтів. Найбільш розвинений сервіс пошуку російськомовної інформації надає сервер Яndex (http://www.yandex.ru/). У Яndex можна просто написати по-російськи фразу, яка описує те, що ви хочете знайти. Система самостійно проаналізує та розпізнає ваш запит, а потім постарається знайти все, що відноситься до заданої теми. Ну а в тому випадку, якщо потрібних документів не виявиться, можна продовжити пошук через AltaVista, куди автоматично передається вже оброблений системою запит. Але до передачі запиту AltaVista навряд чи дійде, тому що база Яndex містить порядку 2 млн документів і постійно оновлюється. Проблема більше полягає в тому, що пошукова машина в результаті вашого запиту генерує гігантський список адрес URL з короткими описами. Яndex дозволяє конкретизувати ваш запит для скорочення цього списку до розумних меж. Ви можете на запит або набрати фразу за аналогією з попередніми системами, або, використовуючи, спеціальні оператори, скласти рядок, яка пояснює Яndex, яким вашим вимогам повинна відповідати, що цікавить вас.

Варто згадати про ще однієї популярної російської пошукової машині Rambler (http://www.rambler.ru/). У цього сервера ще більш повна база даних адрес URL, ніж у Яndex. Відмінною рисою Rambler є те, що цей сервер веде статистику відвідуваності посилань з власної бази даних. Ви завжди можете зайти в розділ "Рейтинг" на головній сторінці Rambler і побачити вміст тематичного каталогу, відсортовані за спаданням кількості відвідувань сайтів і отже їх популярності. Тим самим відсікаються явні аутсайдери і ви не витрачаєте на них свій час. Rambler також як і Yandex, дозволяє, крім простого запиту, запит з мовою запитів. Підтримуються ті ж логічні оператори І, АБО, НЕ, метасимвол * (аналогічно розширює діапазон запиту символу * в AltaVista), коефіцієнтний символи + і -, щоб збільшити або зменшити значущості вводяться в запит слів.

Варто також відзначити інші російськомовні пошукові машини Апорт (http://www.aport.ru/) і АУ (http://www.au.ru/).

Пошукові машини та тематичні каталоги сьогодні мають багато спільного. У каталогів присутня можливість пошуку інформації по рядку запиту з використанням логічних операторів, а пошукові машини містять свої власні тематичні каталоги. І тим не менш найкраще ці пошукові сервіси проявляють себе у своїй первісній категорії.