Смекни!
smekni.com

Использование информационных технологий в исследовании истории повседневности Беларуси 1-й пол (стр. 2 из 4)

http://www.iremember.ru/index.php?lang=ru

http://www.lib.ru/MEMUARY/GERM/guderian.txt

http://militera.lib.ru/memo/russian/zhukov1/index.html

http://www.nn.by/index.php?c=ar&i=10534

http://news.akavita.by/belarus/216238.html

Электронная почта сегодня – незаменимый инструмент в работе любого историка. Она позволяет, не отходя от компьютера, связаться в считанные минуты с любым из своих коллег в любой точке земного шара (если он тоже пользуется услугами е-mail, конечно). Отсюда перспектива совместных исследований, обмена опытом, материалами и идеями.

Большой интерес вызывают и разнообразные форумы, где можно в системе off-line выдвинуть к обсуждению интересующую вас проблему, а через некоторое время ознакомиться с широким спектром откликов.

При всех очевидных недостатках Сети коммуникативные возможности Интернет, без сомнения, остаются одной из её наиболее полезных (и приятных) услуг, которые она нам предоставляет. При всем том информационная мощь Интернет не может заменить мыслительных процессов исследователя, она построена и функционирует лишь для того, чтобы создать качественно новую информационную среду для исследователя.

С каждым годом Интернет все в большей степени становится непременным фактом существования современного информационного общества. Интернет – ценный источник информации об этом новом обществе. Но до сих пор не решены (да и не все поставлены) многие вопросы, без ответа на которые сложно говорить об Интернет как о «новой информационной среде исторической науки». Решение этих вопросов — одна из наиболее важных задач для современных исследователей исторической науки.[9]

Глава 2

Компьютеризированный анализ текста

Основа исследования любого историка – это работа с текстом, попытка взять из источника всю информацию, которая может содержаться в нем в явном или неявном виде. Однако зачастую бывает довольно трудно снять «неявную» информацию, выявить неочевидные при обычном рассмотрении связи. В современном информационном обществе возможности ученого-гуманитария значительно расширились в связи с появлением новых информационных технологий (НИТ). Компьютерный анализ исторических текстов представляет собой одну из наиболее перспективных областей применения математических методов и НИТ в гуманитарном исследовании. Именно здесь существует большой спрос на современные программные средства компьютеризированного анализа текстовых структур и их компьютерной визуализации.

В настоящее время можно выделить ряд основных методик, лежащих в основе практически всех программ по компьютеризованному текстовому анализу.

1.2 Контент – анализ.

А. Н. Петров выделяет в понятии «контент-анализ» два различных метода: «метод для автоматической классификации документов по содержанию и метод для раскрытия значения слов и идей».[10, c. 260] В качестве исходного материала исследователь должен иметь оцифрованный (машиночитаемый) текст в распознанном виде. Для осуществления «контент-анализа» изучаемый текст сводится к набору ограниченного количества лексических элементов, которые затем подвергаются счету и анализу. Метод применяется уже с 50-х гг. На использовании контент-анализа построены программы TACT, ARRAS, TextPack, SYREX, SATO. [10, c. 263]

2.2 Кластерный анализ (анализ текста).

Выявление и подсчет частот встречаемости лексических единиц (слов, словосочетаний), определение их связей между собой. Обычно используется как дальнейший этап работы с текстом после осуществления контент-анализа. [10, c. 263]; [12, c.]

3.2 Анализ стиля.

Предполагает выявление характерных грамматических и синтаксических конструкций, определение лексического запаса автора текста. Позволяет классифицировать текст по авторству. История современной статистической стилистики восходит к 1851 году, когда де- Морган высказал мнение, что длина слов может быть доказательством различия стилей писателя.

Одним из следствий применения методов компьютеризированного анализа текста могла бы стать даже классификация (с определенной долей условности, конечно) основных ментальных установок автора, из которых он исходит, создавая тот или иной текст. Эта возможность появляется благодаря изучению распределенности слов по частоте, косвенным образом выявляющей отражение в сознании индивида социокультурных норм.

Хотелось бы поподробнее остановиться на кратком описании трех основных программ, осуществляющих компьютеризованный анализ исторического текста. Это программы TACT, FuzzyClass и Historical Text Analyzer (HTA).

1.2.3 TACT

Программа была разработана для лингвистического анализа текста, схема работы предполагает осуществление трех последовательных процедур.

В ходе первого этапа в тексте документа выявляется ряд терминов, характеризующих тематику исследуемого документа. На их основе формируются обобщенные понятия (смысловые категории), наиболее точно и полно описывающие основные смысловые блоки текста. Итог первого этапа – составление (одной или нескольких) исследовательских баз данных. На втором этапе происходит подсчет частот встречаемости категорий в тексте, анализ связей, выявление контекстов употребления в документе. Строятся таблицы и графики смысловых взаимосвязей. На заключительном этапе полученные данные интерпретируются исследователем. [1, с. 213]

2.2.3 FuzzyClass

FuzzyClass – программа нечеткой классификации. Она была разработана в Лаборатории исторической информатики МГУ Л. И. Бородкиным и И. М. Гарсковой в начале 1990-х годов. Позволяет осуществлять разбиение данных на нечеткие классы, выявлять сходные и различные группы в исследуемом материале, определять, какой набор признаков характерен для каждого класса. Выбор числа классов и показателя нечеткости задается произвольно и зависит от исследователя. Программа была использована, например, в работе Ю. А. Лихтера «Классификация древних материалов с использованием программы нечеткой классификации FuzzyClass»[8,c. 76-82]

3.2.3 Historical Text Analyzer (HTA)

Historical Text Analyzer (HTA) – это универсальная программа анализа статистических особенностей текстов. В программе реализованы методы анализа контекста, метод частотных распределений и метод парных частот встречаемости последовательных частей речи.[9]

Общим местом критики работ, выполненных с использованием математических методов являются сомнения в объективности полученных результатов, прямая зависимость их от того, что именно в тексте исследователь считает возможным подвергнуть формализации и подсчету, какие категории и характеристики выделяет.

Думается, что большинство неточностей в работах подобного рода можно свести к минимуму при соблюдении трех основных требований:

1)случайность выборки;

2)однородность данных;

3)достаточный их объем;

Надо заметить, что просчеты, связанные с их нарушением, характерны не только для компьютеризованного, но и для традиционного анализа массовых источников.

Для развития методологической базы ИП важно то обстоятельство, что указанные программы «работают» не только с массовыми источниками (периодическая печать, данные переписей, анкет и т.п.), но и с отдельными историческими текстами. В первую очередь речь идёт о письмах, дневниках, мемуарах, исторических интервью и воспоминаниях свидетелей и участников исследуемых событий.

Глава 3

Разработка и использование баз данных

Одним из наиболее разработанных направлений в исторической информатике сегодня можно назвать создание исторических баз данных (БД). По замечанию И. М. Гарсковой, историки начинают знакомство с компьютером, как правило, с создания персональных архивов машиночитаемых данных.[4, c. 55] Действительно, любое историческое исследование базируется на использовании информации, содержащейся в исторических источниках, и у каждого исследователя существует свой, персональный «архив» источниковедческой и справочной информации, который хранится обычно в виде картотеки из различных вырезок, заметок или публикаций. Естественно, что первым бросающимся в глаза преимуществом при знакомстве с компьютером, предстает возможность систематизации своих материалов в базу данных, электронный вариант которой будет намного более удобным (хотя бы с точки зрения скорости поиска необходимой информации и экономичности – всю информацию вполне возможно уместить на пару дискет). Кроме того, здесь есть и другое преимущество – возможность использовать чужую БД в качестве вторичного источника и сэкономить, таким образом, массу времени и усилий, которые были бы потрачены на дублирование, по сути, одной и той же работы. Систематизированный и проанализированный разработчиком БД материал (в случае, если эта работа была проведена достаточно качественно), система ссылок и поиска информации позволяют, минуя трудоемкий этап чисто механической работы, сосредоточиться непосредственно на решении поставленных задач.

Однако БД в классическом понимании термина и историческая БД, очевидно, должны сильно отличаться. Цели создания БД и исторического источника не совпадают: БД обеспечивает динамическое отображение информации (данных) о состоянии системы и проверку её по определенным критериям в автоматизированной системе управления и не преследует цели «откладывания информации на всякий случай и заготовки её впрок»[5, c. 17] (в отличие от исторического источника). В связи с этим встает вопрос о том, что же собой представляет историческая база данных, в чем её отличие от БД традиционной и какие методы работы с историческими БД должны быть выработаны.

Вообще технология баз данных как самостоятельная ветвь развития информатики появилась сравнительно недавно: начало исследований в этой области связывают с эпохой больших ЭВМ – шестидесятыми годами XX в. Тогда же сформировался теоретический аппарат технологии, началась разработка программного обеспечения. Термин «база данных» впервые появился в 1962г. С тех пор несколько изменилось его содержательное наполнение (в связи с развитием области), и в самом общем виде он может быть сформулирован так: база данных – это совокупность взаимосвязанных данных при такой минимальной избыточности, которая допускает их использование оптимальным образом для одного или нескольких приложений в определенной предметной области человеческой деятельности.[6, c. 7]