Форум №2 – форум на http://www.ixbt.com – сайте, посвященном компьютерам (для исследования был выбран раздел форума «Общий», где обсуждаются темы, с компьютерами не связанные). Открыт в 2000 г., число зарегистрированных пользователей – около 48500, число активных тем ежесуточно – 600–700. Форум считается одним из крупнейших в Рунете.

3. Методика исследования

3.1 Методика анализа веблогов

Система веблогов позволяет пользователям оставлять свои комментарии к исходному сообщению. Однако мы считаем, что в таком случае совокупность этих комментариев практически не отличается от форума и, таким образом, не должна быть включена в наш анализ. Поэтому выборки делались исключительно из исходных сообщений авторов веблогов.

Очевидно, что целям работы удовлетворяет случайная выборка из веблогов русскоязычных пользователей. Можно считать, что с увеличением объема этой выборки ее репрезентативность также повышается. Таким образом, необходимо обеспечить:

· случайность выбора автора веблога;

· достаточный объем выборки.

В силу того, что возможность выбора случайного автора и случайной записи стандартными средствами портала не предусмотрена, отбор материала происходил следующим образом.

В русскоязычной части livejournal.com существует особое сообщество all_ru («Френдлента ЖЖ-юзеров России», http://all-ru.livejournal.com), созданное исключительно для ведения френдленты всех пользователей, у которых в личных настройках страны установлена Российская Федерация и которые писали сообщения за последние несколько десятков минут. Соответственно, в каждый момент времени лента друзей данного сообщества представляет собой срез с совокупности недавних сообщений на русском языке. Если мы сделаем несколько таких срезов, каждый из которых содержит 50 сообщений, в разное время, то полученная выборка будет, несомненно, удовлетворять обоим вышеприведенным критериям и становиться все более релевантной по мере увеличения числа срезов.

3.2 Методика анализа форумов

Поскольку механизм форумов не содержит функции поиска случайного сообщения или случайной темы, мы ограничились тем, что из списка активных топиков (т.е. тех, в которых были сообщения за текущие сутки) случайным образом выбирались темы, из которых далее бралась первая страница, содержащая от 20 до 30 сообщений. Выбор только первой страницы обусловлен тем, что некоторые топики могут достигать значительной длины (на форуме iXBT.com нередки темы длиной более 100 страниц).

Для удобства общения на форумах принято цитировать то сообщение, на которое пишется ответ. Такие цитаты нами не учитывались, анализировался только авторский текст.

4 Исследуемые параметры текстов

1. Объем выборки – суммарное число сообщений, проанализированное в рамках исследования.

2. Репрезентативность – количество сообщений, несущих смысловую нагрузку, содержащих текст на русском языке. В рамках этого критерия из выборки исключались сообщения, содержащие:

· только изображения (в т.ч. «смайлики»);

· только ссылки;

· только стихотворный текст;

· текст на языке, отличном от русского;

· результаты разнообразных онлайн-тестов.

3. Число словоупотреблений в выборке.

4. Среднее количество предложений в одном сообщении.

5. Среднее количество слов в одном сообщении.

6. Среднее количество слов в одном предложении.

7. Среднее число орфографических ошибок (в одном сообщении и на 1000 словоупотреблений). Явные опечатки (пропуски букв, замена одной буквы на другую, находящуюся рядом на стандартной клавиатуре) не учитывались. То, что мы ограничились лишь орфографическими ошибками, можно считать вполне рациональным, поскольку лексические ошибки достаточно полно характеризуют общую грамотность пишущего, а анализ других типов ошибок (синтаксических, словообразовательных, морфологических и др.) значительно усложнил бы исследование.

8. Среднее число орфографических упрощений (в одном сообщении и на 1000 словоупотреблений). Упрощением будем считать такую форму, которая формально является ошибочной, но при этом используется пользователем сознательно в силу, как правило, более краткой и приближенной к орфоэпической норме.

9. Среднее число словоупотреблений сленга (в одном сообщении и на 1000 словоупотреблений). Принимался во внимание как специализированный Интернет-сленг (например, широко известная аббревиатура ИМХО, происходящая от английской конструкции InMyHumbleOpinion — «по моему скромному мнению»), так и общераспространенный («крутой», «свалить», «тусоваться» и т.д.).

10. Среднее число словоупотреблений табуированной лексики (в одном сообщении и на 1000 словоупотреблений).

Несмотря на то, что подсчет распространенности каждой из четырех категорий лексики был проведен по двум параметрам (на 1 сообщение и на 1000 словоупотреблений), этого недостаточно. Предположим, что в нашей выборке 100 сообщений: 99 – коротких, но без ошибок, а последнее – длинное и со 100 ошибками. Опираясь только на первые два параметра, мы получим среднее число ошибок – 1 на сообщение, из чего, вероятно, составим неверное представление о грамотности в среде пользователей того или иного сервиса. Между тем, в такой выборке грамотность будет весьма высока. В связи с возможностью такой неверной интерпретации введем еще один числовой критерий – отношение числа сообщений, содержащих ошибки, к общему числу сообщений (репрезентативных). Назовем этот критерий встречаемостью.

Приведем некоторые комментарии к перечню параметров.

Параметры 1–2 показывают количество проанализированных структурных единиц текста (являющихся в целом нестандартными). Это, соответственно, отдельные сообщения в веблогах и веб-конференциях.

Параметр 3 характеризует величину выборки и является стандартным в большинстве подобных исследований.

Параметры 4–6 иллюстрируют объем сообщения и длину предложений внутри него, которая в общем случае коррелирует с их распространенностью.

Параметры 7–10 имеют непосредственное отношение к стилистике текста, причем логично предположить, что чем выше значение каждого параметра, тем более рассматриваемый текст является «неформальным», т.е. в рамках существующей системы приближенным к разговорному стилю.

Заметим, что 12 тыс. словоупотреблений – достаточно небольшая выборка, особенно по сравнению с национальными корпусами, однако «повседневные линейные языковые явления распределяются в текстах сравнительно стабильно, и их можно достоверно установить в относительно коротких текстовых сегментах (уже в объеме 1000 слов)» [Шимкова 2004].

В отношении орфографических ошибок, упрощений, сленговых и табуированных выражений автор в основном руководствовался собственным знанием русского языка и четырехлетним опытом веб-коммуникации, в сложных случаях прибегая к помощи русского орфографического словаря РАН под ред. В.В. Лопатина.

5. Результаты исследования

Практические результаты анализа представлены в следующей таблице:

Веблоги	Форумы
Веблоги	в целом	spbgu.ru	ixbt.com
Объем выборки, сообщений	100	231	120	111
из них репрезентативно	73	230	119	111
Словоупотреблений	6040	5973	3014	2959
Среднее число предложений	9,973	3,070	3,017	3,126
Среднее число слов	82,740	25,970	25,328	26,658
Средняя длина предложения	8,296	8,459	8,395	8,528
На 1 сообщение:
ошибок	0,507	0,243	0,277	0,207
упрощений	0,384	0,083	0,084	0,081
словоупотреблений сленга	1,438	0,287	0,303	0,270
табуированной лексики	0,521	0,009	0,008	0,009
На 1000 словоупотреблений:
ошибок	6,126	9,376	10,949	7,773
упрощений	4,636	3,181	3,318	3,042
словоупотреблений сленга	17,384	11,050	11,944	10,139
табуированной лексики	6,291	0,335	0,332	0,338
Встречаемость:
ошибок	0,219	0,143	0,193	0,090
упрощений	0,192	0,057	0,059	0,054
словоупотреблений сленга	0,521	0,222	0,218	0,225
табуированной лексики	0,164	0,009	0,008	0,009

6. Некоторые комментарии к результатам исследования

Все значительные расхождения в значениях параметров между веблогами и форумами, на наш взгляд, продиктованы следующими причинами.

1. Сообщение в веблоге единично и представляет собой письменный монолог одного автора, в то время как совокупность сообщений в одном топике веб-конференции – диалог (полилог). Этим объясняется большее (в 3 раза) число предложений на 1 сообщение блога и, соответственно, среднее количество слов в нем. При этом значительного различия в длине предложений нет.

Помимо этого, языковая личность в диалоге ведет себя иначе, нежели в монологе. Осознанно или неосознанно, но коммуникант стремится создать определенное впечатление о себе (скорее всего, положительное) у партнера по коммуникации. Иными словами, мы считаем, что в письменном диалоге человек более склонен следить за речью, чем в письменном же монологе, и именно поэтому онлайн-дневники в 1,5 раза и более превосходят форумы по количеству упрощений, словоупотреблений сленга и табуированной лексики.

2. Веб-конференции модерируются, т.е. сообщение, содержащее в том числе запрещенную лексику, удаляется (хотя необязательно), а к его автору могут применяться санкции в виде запрета на размещение сообщений в конференцию или отдельные ее разделы на некоторое время. В связи с этим табуированная лексика в нашей выборке из форумов (оба из которых – модерируемые) практически отсутствует. Веблоги, как известно, в этом смысле предоставляют полную свободу слова.

3. Влияние технологий, типичных для блогов. В частности, результаты онлайн-тестов в сообщениях снижают репрезентативность выборки.