Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
"Уральский федеральный университет
имени первого Президента России Б. Н. Ельцина"
Секция информатизации библиотечного дела
Реферат на тему:
Компьютерный анализ текста
Исполнитель: Жданова Юлия Сергеевна,
студентка группы ИТ-47021
Научный руководитель: Гришина С. М., доцент.
Екатеринбург2010
Оглавление
Введение
Глава 1. Анализ текста
Глава 2. Компьютерный анализ текста
2.1 Понятие компьютерного анализа. История развития
2.2 Проблемы компьютерного анализа текста
2.3 Извлечение информации
2.4 Обработка естественного языка
Глава 3. Программы для компьютерного анализа текста
3.1 Машинный перевод
3.2 Лингвистическое программное обеспечение
3.3 Программы для компьютерного анализа текста
Заключение
Библиографический список и сайтография
Введение
Компьютерный анализ текста на естественном языке активно развивается в последние годы многими коллективами. Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных и др.
К сожалению, внедрение математических методов в обработку текста происходит в то время, когда собственно лингвистическая составляющая алгоритмов представлена явно недостаточно, и это не позволяет достичь высокого качества работы прикладных систем. Устойчивый уклон в область статистических методов анализа привел к тому, что компьютерная лингвистика оказалась невостребованной. В самом деле, во всех известных русскоязычных системах подобного класса из лингвистического обеспечения используется лишь морфологический словарь, позволяющий отождествлять различные словоформы, тогда как алгоритмы синтаксического анализа реализованы исключительно в автоматических переводчиках и вызывают множество нареканий в связи с невысокой точностью.
Цель, которую поставила перед собой автор данной работы – это выяснить, что такое компьютерный анализ текста.
При этом необходимо решить следующие задачи:
- ознакомиться с понятием анализ текста;
- рассмотреть, что понимается под компьютерным анализом текста;
- ознакомиться с историей развития компьютерного анализа текста;
- выявить проблемы компьютерного анализа текста;
- привести некоторые программы, используемые при компьютерном анализе текста.
Глава 1. Анализ текста
Анализ (греч. "analysis" – разложение) – метод научного исследования (познания) явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы.
Аналитические методы широко распространены в социуме, поэтому термин "Анализ" часто воспринимается как синоним исследования вообще и особенно при решении познавательных задач. Анализа является составной частью любого научного исследования, образуя, как правило, его первую стадию, когда исследователь выявляет в описании изучаемого объекта его строение, состав, свойства, признаки и т.п. Он используется как метод получения новых результатов в процессе мыслительной деятельности человека.
Мыслительный анализ совершается с помощью понятий и суждений, выражаемых в естественных или искусственных языках. Такой анализ ориентирован на выявление структуры целого, предполагая фиксацию его частей и установление отношений между ними.
В современном обществе важным средством оформления, фиксации, сохранения, передачи информации и обмена ею являются документы.
Анализ документов – это метод сбора первичных данных, при котором документы используются в качестве главного источника информации; это также совокупность методических приёмов и процедур, применяемых для извлечения информации из документальных источников при изучении процессов и явлений в целях решения определённых задач.
Анализ текста - процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных.
Анализ текста – это процесс получения на естественном языке высококачественной информации из этого текста. Такой анализ осуществляет практически каждый человек не задумываясь, что он делает именно это. Например, любой читатель книги анализирует содержание, читая её по частям. В общем случае всем, особенно трудоспособному населению, постоянно приходится работать с текстовыми и иными видами документов, явно или неявно анализируя их содержание и другие компоненты, например, качество изготовление, форму, размер и т.д. Таким образом, важной задачей практически любых индивидов является нахождение (получение) нужных им документов, а также анализ их содержания на предмет подготовки различных документов (рефератов, аннотаций, справок, отчётов, учебных работ, производственных заданий и др.). При этом нередко возникают ситуации, когда в течение незначительного периода времени необходимо подготовить некоторый (как правило, аналитический) материал. Анализ текстов на естественном языке (ЕЯ) был актуальным практически с момента их появления. При таком анализе необходимо определить правила, с помощью которых, по мнению специалистов, "формальная система (набор структурных элементов текста) преобразуется в систему содержательную (осмысленное сообщение". Анализ текста использовался и продолжает использоваться для классификации текстов, содержащихся в них слов и словосочетаний (например, для определения частоты встречаемости тех или иных терминов в определённых текстах), аннотирования и реферирования текстов, проведения семантически ориентированного поиска текстов по заданным концептам, определения авторского права претендента на соответствующий текст и др.
Считается, что в реальной жизни правила чтения текстов не формализуются. Человек постигает их годами, активно работая в определённой сфере деятельности и предметной области. Специалисты отмечают, что разные контексты порождают различные правила их прочтения, которые со временем меняются, поэтому трудно научить таким правилам компьютер, а значит автоматически учитывать содержательные аспекты обрабатываемого текста.
Глава 2. Компьютерный анализ текста
2.1 Понятие компьютерного анализа текста. История развития
Создание ЭВМ в середине 20-го века и быстрое развитие кибернетических идей стимулировали появление новых наук, которые ранее просто невозможно было представить. Как правило, они возникали на стыке наук, часто не связанных друг с другом. Так, на стыке биологии и инженерных наук возникла бионика, на стыке психологии и лингвистики - психолингвистика, а на стыке вычислительной техники и лингвистики родилась наука, о которой и пойдет речь дальше.
Новая наука несколько раз меняла название: сначала она называлась математической лингвистикой, потом структурной лингвистикой и вычислительной лингвистикой. Наконец за ней прочно укрепилось ее современное название - компьютерная лингвистика.
Две причины обусловили появление новой науки. Во-первых, исследователи-лингвисты надеялись, что современные точные науки (и, прежде всего, математика) помогут лингвистике обрести недостающую ей точность. Появление ЭВМ укрепило эти надежды, так как многим языковедам с самого начала было ясно, что компьютеры - это не только "быстро работающие арифмометры", но и мощное средство для автоматизации работы с текстами. Появилась возможность автоматизировать многие трудоемкие процессы, например, статистическую обработку текстов, ведение разнообразных словарных и лексических картотек.
Во-вторых, с появлением компьютеров почти сразу же возникла проблема общения с ними неподготовленных пользователей. Бесспорно, наилучшей формой для таких пользователей мог быть привычный естественный язык.
К началу 70-х гг. компьютерная лингвистика получила "права гражданства": стали выходить специальные сборники и журналы по компьютерной лингвистике, создавались соответствующие лекции на лингвистических конференциях и конференциях по искусственному интеллекту и, наконец, стали созываться всемирные форумы, посвященные исключительно проблемам этой науки. В большинстве развитых стран начался процесс подготовки специалистов в области компьютерной лингвистики.
В настоящее время в компьютерной лингвистике выделяются несколько основных направлений. Например, анализ текстов на естественном языке.
Лингвисты давно изучают, как устроен текст, и, прежде всего предложение, играющее роль кирпичика, из совокупности которых складывается текст. Но лишь с появлением компьютеров эти исследования приобрели новое направление. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, - автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов. В ходе этих работ надо было ответить на вопрос: "Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?". Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась.
В результате проведенных исследований стало ясно, что за каждым текстом (в том числе и за отдельным предложением, являющимся своего рода мини-текстом) скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня.