Смекни!
smekni.com

«Перспективы применения компьютерного контент-анализа в этнологии и антропологии» (стр. 2 из 4)

Появление КА было вызвано потребностью в создании объективных методов анализа текстов, результаты которого не зависели бы от таких субъективных факторов, как личность исследователя или время проведения исследования. Изначально КА задумывался как строгий метод оценки текстов [9, с.13].

Метод КА вначале использовался вручную, что было достаточно трудоемким процессом. Так, в области психологии существует методика, благодаря которой по тексту от 80 до 150 слов можно получить полный психологический портрет автора. Анализируются в основном грамматические характеристики. Временные затраты на осуществление метода – от 4 до 6 часов, плюс следует учитывать невнимательность автора и другие субъективные факторы [9, с.14].

Проблемы трудоемкости и неоднозначности методики были сняты с разработкой компьютерных методов КА. Зависящим от исследователя остается в основном разработка критериев [9, с.14].

К компьютерному контент-анализу также представляется ряд требований. Во-первых, оценки должны иметь хорошее математическое обоснование. Во-вторых, они должны быть достаточно просты, что является необходимым условием их применения в гуманитарных исследованиях. Кроме того, они должны иметь удобное наглядное представление не только в виде таблиц и чисел, но также в виде графиков и диаграмм [9, с.14].

Определенные требования предъявляются и в отношении объектов КА. Документы, подвергаемые КА должны соответствовать принципам формализации и статистической значимости, т.е. чтобы исследуемое содержание позволяло задавать однозначное правило для надежной фиксации нужных характеристик и чтобы интересующие исследователя объекты встречались с определенной частотой [7].

Главное отличие КА от методов квантитативной лингвистики и статистического изучения языка состоит в том, что полученные характеристики, к которым применяется процедура подсчета (отдельные слова и словосочетания) являются не целью, а скорее средством для получения результатов более высокого порядка [7].

Т.о. базовой единицей КА являются оценки частот (встречаемость того или иного слова, словосочетания) [9, с.15]. Отдельные слова объединяются в категории, образованные по какому-то признаку. Т.о. в одну категорию попадают слова-синонимы. К примеру, категория позитивных эмоций будет включать такие единицы текста, как бодрый, добрый, нежный, теплый, шутка и т.д. [9, с.15].

Категории КА должны быть исчерпывающими, взаимоисключающими, надежными (не вызывать разногласий у различных исследователей) и уместными (соответствовать поставленной задаче) [7]. При выборе категорий для КА следует избегать слишком многочисленных и дробных категорий, и наоборот, что может привести к слишком поверхностному анализу [7].

Частота упоминания в тексте некоторой категории подсчитывается как сумма частот входящих в нее слов [9, с.15]. Логической, операцией, лежащей в основе создания категории, является определение через абстракцию. Категория задается либо посредством заранее фиксированного списка слов либо операционно, например, посредством распознания грамматических признаков – к примеру, глаголов прошедшего времени [9, с.16].

Простые частоты не позволяют нам провести адекватное сравнение двух текстов, т.к. разные по количеству содержащихся знаков тексты могут оказаться несравнимыми: в тексте, который содержит больше знаков, заданная характеристика может встречаться большее число раз, чем в меньшем по объему тексте. В таких случаях удобнее применять не простые, а условные частоты, т.е. доли, которые составляет заданная категория в том или ином тексте [9, с.17].

Длина текста задается в зависимости от подсчитываемой характеристики. В зависимости от того, что принимается за элементы содержания, в качестве длины текста может быть взято общее количество в нем слов, предложений, абзацев и т.д. [9, с.17].

Иногда вместо условных частот удобнее использовать оценку процентного содержания, для этого условную частоту умножают на 100 [9, с.17].

Подробнее остановимся на сравнении текстов разных жанров. Для таких текстов должны применяться дополнительные показатели нормы – ожидаемой условной частоты встречаемости характеристики в произвольном тексте, принадлежащем данному множеству [9, с.19]. К примеру, если мы хотим сравнить научный текст с научно-популярным, то выработка таких показателей будет обязательна.

Т.о. процедура КА включает следующие этапы: выбор необходимых источников, которые должны определяться параметрами масштабов исследования и его задачами, формулировка категорий, выбор единицы анализа – лингвистической единицы речи или элемента содержания, разработку таблиц контент-анализа, разработку инструкции кодировки [7].

В настоящее время применение ККА доступно практически каждому исследователю и не требует высококвалифицированной подготовки в области ИТ. Для осуществления нашего исследования нами выбрана система ВААЛ, речь о которой пойдет в следующей главе.


Глава III. Фоносемантическая оценка цыганских фольклорных текстов

ВААЛ – это название проекта по изучению и компьютерному моделированию скрытого воздействия текстов на человека, который разрабатывается с 1992 года. В его рамках был создан ряд компьютерных программ, наиболее известными из которых являются системы ВААЛ и Vaal Toolbox [8].

В нашем исследовании будет использована программа ВААЛ-мини, в которой реализованы алгоритмы оценки фонетического на человека слов и текстов русского языка. Теория такого воздействия для русского языка была разработана в середине 70-х годов доктором филологических наук А.П.Журавлевым [8].

Фоносемантическая оценка текста основана на гипотезе вторичного звукосимволизма и признанных в психологии синестетических эффектах – скрытой связи звукового образа с незвуковым [8]. Согласно гипотезе вторичного звукосимволизма символика звука считается отсветом, который бросает условное значение слова на свою звуковую форму. Если случайно оказывается. В последнее время предложено иное решение, которое может быть названо гипотезой вторичного звукосимволизма [8]. Согласно этой точке зрения символика звука является отсветом, который бросает условное значение слова на свою звуковую форму. Если случайно оказывается, что некоторый звук встречается в нескольких частотных словах со сходной семантикой, то эта семантика в сильно обобщенном виде проецируется на данный звук, и теперь уже звук, даже отдельно взятый, вызывает подсознательные ассоциации, связанные с семантикой слов. Единственно возможным путем описания звуковой символики является перечисление оценочных признаков [8].

Для оценки фоносемантического воздействия в русском языке используются 24 шкалы, представленных парами антонимичных прилагательных русского языка: хороший - плохой, красивый - отталкивающий, радостный - печальный, светлый - темный и т.д. [8].

Всем звукам языка по этим шкалам сопоставлены оценки [8]. Специальные формулы позволяют на основе этих оценок сопоставить оценки отдельным словам и целым текстам. Эти оценки не осознаются людьми, но особым образом поставленные эксперименты показывают, что воздействие на подсознание имеет место и что оно довольно сильное [8].

Допустим, даны названия двух озер - Эвелоуп и Зиппег. Опросы испытуемых показывают, что большинство на вопрос о возможной форме этих озер отвечают, что, по их мнению озеро Эвелоуп имеет округлую форму, а озеро Зиппег - угловатую, с изрезанными берегами. Данный пример ясно показывает, что такое воздействие фонетики слова на подсознание [8].

С помощью программы было оценено большое количество специальных текстов - молитв, проповедей, заклинаний, заговоров, гипнотических формул и др. Это позволило выявить устойчивые характеристики таких текстов [8].

Для осуществления фоносемантической оценки нами было отобрано 20 текстов из фольклора цыган Беларуси, двух жанров – 10 сказок и 10 песен, записанных нами во время этнографических экспедиций. Соответственно первоначальные особенности были сохранены. Принимая во внимание не только жанровые особенности, но и различное функциональное назначение, нами была предпринята попытка изучения механизмов воздействия исполнителя на слушателя.

Глава IV. Обсуждение результатов

Результаты фоносемантической оценки текстов двух жанров для удобства анализа были сведены в сравнительную таблицу (Первоначальный вариант в виде двух диаграмм по алгоритму А. П. Журавлева приведен в Приложении):

Результаты фоносемантической оценки текстов двух жанров для удобства анализа были сведены в сравнительную таблицу (Первоначальный вариант в виде двух диаграмм по алгоритму А. П. Журавлева приведен в Приложении):

Показатель по Pesnia.doc

Пары антонимов

Показатель по Skazka.doc

46.4

хороший - плохой

21.1

33.1

красивый - отталкивающий

18.4

20.7

безопасный - страшный

-5.4

32.3

простой - сложный

11.2

32.4

гладкий - шероховатый

7.6

28.6

округлый - угловатый

-5.7

-0.1

добрый - злой

-14.6

3.6

светлый - темный

-0.3

64.3

величественный - низменный

24.3

9.8

тяжелый - легкий

-6.5

53.8

грубый - нежный

21.7

66.8

мужественный - женственный

24.9

56.7

сильный - слабый

28.6

60.0

холодный - горячий

32.7

58.7

громкий - тихий

35.8

56.2

храбрый - трусливый

34.5

55.1

могучий - хилый

32.8

77.0

большой - маленький

22.9

-3.7

веселый - грустный

10.9

-14.6

подвижный - медлительный

19.0

-22.1

быстрый - медленный

13.1

-10.9

активный - пассивный

33.7

38.1

яркий - тусклый

34.5

20.0

радостный - печальный

25.1

Как видно из таблицы, тексты обоих жанров в той или иной степени производят впечатление хорошего, красивого, величественного, грубого, простого, мужественного, сильного, холодного, громкого, храброго, могучего, большого, яркого, радостного. Данные характеристики полностью соответствую как стилю самих цыганских фольклорных текстов, так и манере их исполнения.