Третьим краеугольным камнем является протокол обмена данными в World Wide Web – http (HyperText Transfer Protocol). Данный протокол предназначен для обмена гипертекстовыми документами и учитывает специфику такого обмена. Так, в процессе взаимодействия клиент может получить новый адрес ресурса сети, запросить встроенную графику, принять и передать параметры и т.п. Управление в HTTP реализовано в виде ASCII-команд. Реально разработчик гипертекстовой базы данных сталкивается с элементами протокола только при использовании внешних программ или при доступе к внешним относительно WWW информационным ресурсам, например базам данных.
Спецификация CGI (Common Gateway Interface) была специально разработана для расширения возможностей WWW за счет подключения внешнего программного обеспечения. Эта технология соответствовала принципам простоты разработки, доступности и наращивания возможностей WWW. Предложенный и описанный в CGI способ подключения не требовал дополнительных библиотек и буквально ошеломлял своей простотой. Сервер взаимодействовал с программами через стандартные потоки ввода/вывода, что упрощает программирование до предела. При реализации CGI чрезвычайно важное место заняли методы доступа, описанные в HTTP. И хотя реально используются только два из них (GET и POST), опыт развития HTML показывает, что сообщество WWW ждет развития и CGI по мере усложнения задач, в которых будет использоваться WWW-технология.
WWW построена по известной схеме «клиент-сервер». Программа-клиент выполняет функции интерфейса пользователя и обеспечивает доступ практически ко всем информационным ресурсам Интернета. В этом смысле она выходит за обычные рамки работы клиента только с сервером определенного протокола. Клиент - это интерпретатор HTML, который в зависимости от команд (разметки) выполняет различные функции. В круг этих функций входит не только размещение текста на экране, но и обмен информацией с сервером по мере анализа полученного HTML-текста, что наиболее наглядно происходит при отображении встроенных в текст графических изображений. При анализе URL-спецификации или по командам сервера клиент запускает дополнительные внешние программы для работы с документами в форматах, отличных от HTML, например GIF, JPEG, MPEG, Postscript и т.п.
Другую часть программного комплекса WWW составляет сервер протокола HTTP, базы данных документов в формате HTML, управляемые сервером, и программное обеспечение, разработанное в стандарте спецификации CGI. До самого последнего времени реально использовалось два HTTP-сервера: сервер CERN и сервер NCSA. Но в настоящее время число базовых серверов расширилось.
База данных HTML-документов – это часть файловой системы, которая содержит файлы в формате HTML и связанные с ними графику и другие ресурсы.
Среди прикладного программного обеспечения, работающего с сервером, можно выделить программы-шлюзы. Шлюзы – это программы, обеспечивающие взаимодействие серверов различных протоколов, например, через FTP. Другие прикладные программы принимают данные от сервера и выполняют какие-либо действия: получение текущей даты, реализацию графических ссылок, доступ к локальным базам данных или просто расчеты.
Все, что было сказано до этого момента, можно отнести к классической схеме World Wide Web. В настоящее время следует говорить об ее изменении.
К середине 1996 г. произошли некоторые изменения в архитектуре сервиса World Wide Web. Произошел возврат к модульной структуре сервера WWW. Этот возврат был реализован в виде спецификации API. API – это спецификация разработки прикладных модулей, которые редактируются совместно с модулями сервера.
В дополнение к HTML активно стал применяться еще один язык разметки - VRML (Virtual Reality Modeling Language), а также язык XML.
Изменения коснулись и клиентской части технологии. В настоящее время происходит постепенный переход от простой классической архитектуры клиент-сервер к архитектуре с сервером приложений, в роли которого выступает программа-клиент. В частности, NCSA опубликовала спецификацию CCI (Common Client Interface) для разработки приложений.
Компоненты архитектуры World Wide Web существуют практически для всех типов компьютерных платформ и свободно доступны в сети. Любой, кто имеет доступ в Интернет, может создать свой WWW-сервер или, по крайней мере, посмотреть информацию с других серверов.
Для работы с гипертекстовыми документами используются специальные программы просмотра. Наиболее известными из них являются Microsoft Internet Explorer (встроен в последние версии операционных систем Windows), Opera (программа привлекает многих пользователей своей «легкостью» и удобством в работе), Netscape Communicator и др.
Программы, используемые для просмотра информации с серверов WWW, могут воспроизводить различные форматы. Первыми допустимыми форматами были HTML, TXT и два графических — GIF и JPEG. Практически только эти спецификации следует использовать при оформлении страниц информационного сервера.
Однако в качестве гиперссылки можно указать и документ, созданный в иной программе. Если программы просмотра поддерживают технологию OLE, то для показа документа после его загрузки на компьютер будет вызвана соответствующая программа.
Существует специальный формат представления документов, который широко используется в Интернете и средства просмотра которого полностью бесплатны, — PDF (Portable Document Format) — это файл, который содержит аппаратно независимое описание документа. Независимо от ОС, стоящей на компьютере, параметров устройств отображения, наличия шрифтов и т.п., пользователь увидит одно и то же оформление документа. Формат PDF использует в своей основе описание страниц документа на языке PostScript. PDF-документы просматриваются специальной программой — Adobe Acrobat, которая распространяется бесплатно и будет автоматически загружена из Интернета при попытке обращения к такому документу, если она не обнаружена на компьютере.
Основной недостаток использования PDF-файлов заключается в их большом объеме. Такие файлы долго загружаются из Сети, обычно их содержимое не включается в поисковые базы.
Для того чтобы получить информацию из Интернета, необходимо знать адрес, по которому она расположена. Универсальный адрес ресурса (URL) – это адрес в системе WWW, с помощью которого однозначно определяется любой документ. В общем случае универсальный адрес ресурса имеет следующий формат:
протокол://компьютер/путь
Протокол является набором правил, согласно которому должна происходить передача данных. Основным протоколом в системе WWW является протокол HTTP - протокол передачи гипертекста, поэтому большая часть адресов начинается следующим образом:
http://
Тем не менее, могут быть использованы и другие протоколы передачи данных, например протокол передачи файлов - FTP или протокол передачи данных в формате Gopher. Тогда на первое место в универсальном адресе ресурса ставится название используемого протокола. Например:
ftp://
или
gopher://
Компьютер - это адрес сервера, с которым необходимо установить соединение. Может использоваться как IP-адрес, так и имя сервера в доменной системе имен. Например:
http://www.econ.pu.ua
или
ftp://194.85.120.66
Адреса большей части серверов в системе WWW начинаются с префикса www. Этот префикс используется просто как удобное обозначение того, что на данном компьютере запущен Web-сервер.
Путь представляет собой точное указание месторасположения документа на Web-сервере. Это может быть название директории и файла, как в следующем примере:
http://www.econ.pu.ua/info/history/jubilee.htm
Если ввести в строке «адрес» броузера данный адрес, броузер установит связь с компьютером www.econ.pu.ua по протоколу HTTP и запросит у него документ с названием jubilee.htm из каталога /info/history.
Последняя часть универсального адреса ресурса может включать дополнительную информацию, которую обычно используют для того, чтобы передать Web-серверу параметры запроса пользователя в интерактивных страницах, а также путь и имя той программы на сервере, которая этот запрос будет обрабатывать. Например:
http://www.econ.pu.ua/sf/cgi-bin/main.bat?object=teachers&id=1
Получив такой запрос, Web-сервер попытается найти программу main.bat в каталоге /sf/cgi-bin/, запустить ее и передать ей параметры object и id с соответствующими значениями.
В современных версиях броузеров нет необходимости указывать имя протокола в начале каждого адреса ресурса. Если имя протокола не указано, то броузер попытается самостоятельно определить, какой протокол необходимо использовать.
Если не указано имя файла, а только каталог, в котором он должен находиться, то пользователю будет передан файл, который администратор Web-сервера определил как файл, передаваемый по умолчанию. Обычно таковым является файл с названием index.htm (index.html) или default.htm (default.html). Если в каталоге нет файла по умолчанию, то будет выдано сообщение об ошибке.