Существует четыре основных метода идентификации посетителей, которые используются в различных ситуациях для решения различных задач.
1. ПО IP-АДРЕСУ. Каждый компьютер в момент подключения к любой сети TCP/IP (к которым относится и Интернет) имеет уникальный и однозначный IP-адрес, который не изменяется в течение всего времени подключения к Интернету, а для постоянного подключения вообще не меняется. Следовательно, можно однозначно идентифицировать компьютер пользователя по IP-адресу.
Этот метод идентификации совсем не точен, поскольку несколько пользователей могут иметь один и тот же IP-адрес, если они находятся, например, за общим proxy-сервером. В этом случае они все будут иметь тот IP-адрес, который подставляет им proxy-сервер. Таких пользователей сегодня большинство — это все пользователи корпоративных сетей, большинство пользователей домашних сетей, пользователи в интернет-кафе, институтах и т.д. Но и это еще не все: в том случае, когда пользователь выходит в сеть через коммутируемое соединение, при каждом соединении он получает новый IP-адрес. Более того, dial-up-соединение может быть разорвано в процессе сессии, и оно будет восстановлено потом уже с новым уникальным IP-адресом. Все это, конечно, уменьшает точность идентификации.
Последние годы применяется идентификация одновременно по IP-адресу и какому-либо еще постоянному параметру, которым может выступать User Agent или разрешение экрана. То есть пользователь идентифицируется по сочетанию двух параметров. Однако и этот метод недостаточно точен, поскольку в корпоративных сетях последнее время техника в очень большой степени унифицирована, и если в домашних сетях действительно за общим IP-адресом скрывается «зоопарк» различных компьютеров, то в корпоративных сетях все компьютеры часто имеют одинаковую конфигурацию и одинаковый набор программного обеспечения. Расхождение числа реальных пользователей и числа пользователей, определенных по IP, тем больше, чем больше сайт. Хостов всегда меньше. Для посещаемости менее 500 человек разница несущественна.
Методика идентификации по IP-адресу весьма грубая, несмотря на все дополнения и уточнения. Эта методика никак не позволяет идентифицировать посетителя между сессиями— при повторном посещении — и не всегда дает возможность отличить друг от друга корпоративных пользователей или пользователей в одной домашней сети. Несомненное преимущество метода: он возможен всегда, поскольку у пользователя всегда есть IP-адрес.
2. ПО COOKIE. В отличие от IP-адреса, уникальные cookie записываются на каждый компьютер посетителей сайта, поэтому эта технология изначально намного точнее. В cookie-файлы может записываться все что угодно, но обычно это уникальный идентификатор, который сохраняется и после того, как пользователь уходит с сайта и вообще отключается от Интернета. При следующем посещении сайта даже через длительный промежуток времени пользователь может быть идентифицирован повторно, то есть «узнан» сайтом. Поэтому данная методика используется сегодня чаще других.
Но и она не лишена погрешностей. Пользователи могут отключать cookie — это делают немногие, всего около 4% всех пользователей, cookie могут стираться пользователем в результате переустановки системы или после окончания каждого сеанса связи с Интернетом, если сделаны такие предустановки на компьютере. Однако самой большой погрешностью метода является то, что он определяет не пользователей, а браузеры, за которыми работают пользователи. Если за одним компьютером работает несколько пользователей, они пользуются общей учетной записью и одним и тем же браузером, поэтому они будут считаться одним пользователем. И наоборот, человек, по каким-то причинам использующий несколько браузеров на одном компьютере, будет считаться столько раз, сколько различных браузеров он использует.
И конечно, если в распоряжении пользователя несколько компьютеров с доступом в Интернет, то на каждом из них будут свои cookie-файлы. Все больше и больше пользователей имеют доступ одновременно из нескольких мест, включая и сотовый телефон, который тоже умеет принимать cookies, поэтому эта погрешность наибольшая и все время возрастает. Статистика по cookies завышает число пользователей в несколько раз. Тем не менее это наиболее точная методика идентификации посетителей на сегодняшний день.
Несмотря на го что методика идентификации пользователей по cookie имеет ряд погрешностей и идентифицирует не людей, но браузеры пользователей, она намного более точна, чем методика определения по IP-адресу, и активно используется сегодня.
3. ПО СЕССИОННЫМ ИДЕНТИФИКАТОРАМ. При помощи несложного программного модуля можно присвоить пользователю уникальный идентификатор, который будет передаваться в адресной строке при перемещении пользователя от страницы к странице. Это выглядит как добавление к адресной строке конструкции вида ?sessid=65468765213249875419876, где набор цифр — это и есть уникальный идентификатор (он может состоять из букв или быть смешанным в зависимости от используемых для этого программ). В отличие от метода идентификации по cookie, сессионный идентификатор нельзя отключить, его нельзя запретить на proxy-сервере. Конечно, можно стереть идентификатор из адреса, но это почти исключительное событие: большинство пользователей не имеют для этого достаточных знаний. В то же время сессионные идентификаторы не сохраняются после разрыва сессии, хотя сама по себе сессия может иметь иногда неограниченную длину — до тех пор, пока не будет закрыт браузер.
Этот метод идентификации, очевидно, может быть использован только в рамках одной сессии, однако в течение сессии он точнее всех других. Основное применение сессионных идентификаторов — это сохранение параметров при переходе между страницами. Например, пользовательские запросы или настройки гораздо проще сохранить на сервере в базе данных и сопоставлять с идентификатором, чем передавать в строке, где они могут банально не поместиться.
Сессионные идентификаторы имеют два важных отрицательных качества: во-первых, они затрудняют индексацию поисковыми машинами, вплоть до полного запрета. Дело в том, что поисковый робот не различает идентификаторы и вынужден считать каждую страницу множество раз, что замусоривает базу данных поисковой машины. Во-вторых, на страницу с таким идентификатором часто невозможно поставить закладку или отправить кому-либо в виде ссылки. В силу этого сфера применения сессионных идентификаторов ограничена именно решением технической задачи передачи настроек пользователя между страницами сайта и, в основном, применяется для внутренних интерфейсов систем, где не требуется ставить закладку и которые не должны индексироваться поисковыми машинами. Например, для внутренних интерфейсов банков.
4. АВТОРИЗАЦИЯ ПОЛЬЗОВАТЕЛЯ. Единственный совершенно надежный метод идентификации пользователя — это его авторизация (ввод логина и пароля). К сожалению, далеко не всегда можно применять авторизацию, так как пользователи не любят регистрироваться и оставлять о себе какие-то личные данные. Заставить их делать это без потерь аудитории можно лишь в редких случаях. Кроме того, даже в случае, если пользователь зарегистрировался, нередко возникает ситуация, когда он теряет логин и пароль и поэтому регистрируется заново.
Например, около трети покупателей интернет-магазина «Озон» (крупнейшего сегодня в России по числу покупателей) забывают свои регистрационные данные и при следующей покупке заново регистрируются. Даже введение пластиковых карточек с данными пользователя, которые бесплатно выдавались при первой покупке, хоть и улучшило ситуацию, но не решило ее полностью. Для магазина «Озон» это критическая проблема, потому что три четверти продаж совершается постоянными покупателями, и работа с постоянными покупателями — важнейшая составляющая маркетинга компании.
Наконец, пользователь может просто-напросто передать пароль (мы все это нередко делаем) своим друзьям или знакомым, чтобы они могли совершать какие-то действия от его имени.
Таким образом, метод идентификации по регистрационным данным — наиболее точный метод определения людей (не браузеров, а именно людей). Однако он имеет узкую сферу применения в силу нежелания пользователей оставлять о себе информацию в Интернете.
Для анализа в интернет-маркетинге используется чаще всего метод идентификации по cookies. Остальные методы применяют только в тех случаях, когда cookies недоступны. Если на сайте осуществляется авторизация пользователей, например для интернет-сервисов или для интернет-магазинов, то можно использовать авторизационные данные для анализа продаж.
Производные данные
Я уже упомянул выше, что, зная IP-адреса, можно определить географическое расположение пользователя, а зная referrer — запрос, по которому пользователь нашел ссылку на наш сайт в поисковой системе. Это так называемые производные данные — они получены за счет интерпретации собираемых данных. К основным производным данным относятся:
СЕССИЯ — весь процесс посещения пользователем сайта от первой просмотренной им страницы и до выхода из сайта. По определению сессия — это вся последовательность просмотра одним пользователем страниц сайта, при условии, что запрос каждой следующей страницы не отделяет от предыдущей более 30 мин. В случае, если интервал между запросами страниц одним пользователем превышает 30 мин., то сессия закрывается и открывается новая. Здесь есть свое разумное объяснение. Существует достаточно большое количество сайтов, на которые мы заходим несколько раз в день: почтовые серверы, поисковые системы, сайты новостей и другие, — и каждый раз это будут различные сессии. Именно поэтому IAB приняло за норму, что если человек не проявляет никакой активности на сайте в течение 30 мин, то его сессия считается законченной, а при следующем хите открывается новая сессия. Другими словами, если пользователь после перехода на очередную страницу сайта выключил браузер, то сервер, на котором расположен браузер, никак не узнает об этом, и тогда через 30 мин сессия будет закрыта;