Смекни!
smekni.com

Учебно-методическое пособие Санкт-Петербург 2005 ббк 81. 1 З-38 (стр. 4 из 8)

Перечислить типы корпусов

Назвать и охарактеризовать наиболее известные корпусы.

2.3.3. Примерная тематика докладов, рефератов,
курсовых работ

Способы использования корпусов в лингвистических исследованиях.

Исследование способов использования корпусов в лексикографии.

Изучение средств обработки корпусных данных, представленных на языке XML.

Создание электронной хрестоматии по корпусной лингвистике.

Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат).

Создание веб-сайта по корпусной лингвистике.

2.3.4. Примерный перечень вопросов к экзамену
(зачету)

История лингвистических корпусов: от картотеки к корпусу.

Классификация (типология) корпусов.

Корпусная лингвистика: современное состояние.


Корпусная лингвистика в России.

Обзор существующих корпусов различных типов.

Корпус как поисковая система.

Корпусоподобные интерфейсы между лингвистом и поисковыми системами Интернета.

Лингвистические исследования, базирующиеся на корпусах.

2.3.5. Распределение часов курса по темам и видам
работы


раз-дела

Наименование тем
и разделов

ВСЕГО

(ч)

Аудиторные занятия (ч)

Самостоя-тельная
работа

лекции

семинары

1 Основные понятия корпусной лингвистики

40

8

2

30

2 История создания лингвистических корпусов

40

10

30

3 Типология корпусов

52

10

2

40

ИТОГО:

132

28

4

100

2.3.6. Форма текущего, промежуточного и итогового
контроля

В течение семестра слушатели выполняют лабораторные (практические) работы, готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса — зачет.

2.3.7. Учебно-методическое обеспечение курса

Основная литература

Андрющенко В.М. Концепция и архитектура машинного фонда русского языка / Отв. ред. А.П. Ершов. М., 1989.

Баранов А.Н. Корпусная лингвистика // Баранов А.Н. Введение в прикладную лингвистику. М., 2001. С.112–137.

Вербицкая Л.А., Казанский Н.Н., Касевич В.Б. Некоторые проблемы создания национального корпуса русского языка // Научно-техни­ческая информация. Сер. 2. 2003. № 6. С. 2–8.

Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002.

Научно-техническая информация. Сер. 2. 2005. № 3.

Научно-техническая информация. Сер. 2. 2003. № 6.

Рыков В.В. Прагматически ориентированный корпус текстов // Тверской лингвистический меридиан. Вып. 3. Тверь, 1999. С. 89–96 // См. также http://rykov-cl.narod.ru/t.html.

Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000», «Диалог-2001», «Диалог-2002», «Диалог-2003», «Диалог-2004», «Диалог-2005».

Труды Международной научной конференции «Корпусная лингвистика 2004» / Под ред. А.С. Герда. СПб., 2004.

Чардин И.С. Лингвистические корпуса с синтаксической разметкой и их применение // Научно-техническая информация. Сер. 2. 2003. № 6. С. 18–24.

Дополнительная литература

English Corpus Linguistics: Studies in Honour of Jan Svartvik / Aijmer K., Altenberg B. (eds.). London, 1991.

Čermák F. Today's Corpus Linguistics: Some Open Questions // International Journal of Corpus Linguistics. 2002. Vol. 7, N 2. P. 265–282.

Fillmore C.J., Atkins B.T.S. Starting Where the Dictionaries Stop: the Challenge of Corpus Lexicography // Atkins B.T.S., Zampolli A. (eds.). Computational Approaches to the Lexicon. 1994.

Kennedy G. An Introduction to Corpus Linguistics. London, 1998.

Leech G. The State of Art in Corpus Linguistics // English Corpus Linguistics / Aijmer K., Altenberg B. (eds.). London, 1991. P. 8–29.

McEnery A., Wilson A. Corpus Linguistics. Edinburgh, 1996.

Francis N. W. Language Corpora B.C. // Directions in Corpus Linguistics: Proceedings of Nobel Symposium 82. Stockholm, 4.–6. August 1991. / Svartvik J. (ed.). P. 17–32.

Proceedings of the LREC (Language Resource Evaluating Conference). 2002, 2003, 2004, 2005.

Quirck R. On Corpus Principles and Design // Directions in Corpus Linguistics. Berlin; New York, 1992. P. 461–462.

Sinclair J. M. The Automatic Analysis of Corpora // Directions in Corpus Linguistics. Berlin, 1992.

Svartvik, J. (ed.). Directions in Corpus Linguistics, Berlin. 1992.

Zakharov V. Russian Corpus of the 19th Century // Text, Speech and Dialogue: Proceedings of the 6th International Conference TSD 2003, České Budějovice, Czech Republic, September 2003 / Václav Matoušek, Pavel Mautner (eds.). Berlin; Heidelberg, 2003. P. 146–151. (Lecture Notes in Artificial Intelligence, 2807).

2.4. Часть 2. Создание корпусов

2.4.1. Разделы:

1) Предварительные работы по созданию корпуса.

2) Разметка. Средства создания и разметки корпусов.

3) Стандартизация в корпусной лингвистике.

Краткое содержание разделов

Раздел 1. Предварительные работы по созданию корпуса

Тема 1. Проблемы репрезентативности.

Тема 2. Отбор источников. Внешние и внутренние критерии отбора.

Тема 3. Нормализация файлов.

Тема 4. Графематический анализ.

Раздел 2. Разметка. Средства создания и разметки корпусов

Тема 5. Понятие разметки.

Тема 6. Типы разметки.

Тема 7. Автоматический морфологический и синтаксический анализ.

Тема 8. Металингвистическая разметка.

Тема 9. Параллельные корпусы. Проблема выравнивания.

Раздел 3. Стандартизация в корпусной лингвистике

Тема 10. Языковые средства представления размеченных текстов.

Тема 10. Международные стандарты и проекты (TEI, EAGLES, CDIF, XCES).

2.4.2. Примерные вопросы для самоконтроля

Дать определения терминов:

Разметка

Репрезентативность

Метаданные

Корпусный менеджер

Treebank

Лемматизация

Параллельный корпус

Перечислить типы корпусов

2.4.3. Примерная тематика докладов, рефератов,
курсовых работ

Графематический анализ текстов.

Унификация текстов внутри корпуса 19 века.

Автоматическая морфологическая разметка текстов 19 века.

Исследование набора метаданных для корпуса 19 века.

База данных «Морфологический словарь языка 19 века».

Создание параллельного англо-русского корпуса.

Создание параллельного русско-чешского корпуса.

Создание параллельного русско-словацкого корпуса.

Методы снятия морфологической неоднозначности.

Исследование механизмов взаимодействия корпуса текстов и электронной картотеки (корпусы цитат).

Анализ функций сегментных внеалфавитных графем («межморфемный» дефис, «межслоговой» дефис, «межсловный» дефис, апостроф).

Проблема строчных и прописных букв в корпусах текстов (имена собственные и нарицательные, сплошная и начальная капитализация).

Проблема омографии – акцентно-ориентированный морфологический анализ.

Разработка модуля преобразования каллиграфем (жирность, курсивность, подчёркивание) в тэги языка XML.

Анализ функций точки (и других знаков препинания) с точки зрения структурной разметки текста.

Методы выделения структурных элементов текста (часть, глава, параграф, абзац).

Составные лексемы.

Методы снятия морфологической неоднозначности.

Методы выделения структурных элементов текста (часть, глава, параграф, абзац).

Составные лексемы.

Проект TEI (обзор).

Стандарты EAGLES (обзор).

Форматы CDIF и XCES.

2.4.4. Примерный перечень вопросов к экзамену (зачету)

Проблемы репрезентативности корпусов.

Проблемы хронологии в общеязыковых корпусах.

Отбор текстов для корпусов.

Графематический анализ.

Понятие разметки.

Типы разметки.

Морфологическая разметка.

Синтаксические корпуса (treebanks).

Семантическая разметка.

Технология создания корпусов. Стадии работы.

Понятие корпусоида.

Автоматическая морфоразметка.

Автоматический синтаксический анализ (parsing).

Языковые средства представления размеченных текстов (языки SGML, XML).

Международные стандарты (TEI, EAGLES, CDIF, XCES).

2.4.5. Распределение часов курса по темам и видам работы


раз-дела

Наименование тем
и разделов

ВСЕГО

(ч)

Аудиторные занятия (ч)

Самостоя-тельная
работа

лекции

семинары

1

Предварительные работы по созданию корпуса

38

8

30

2

Разметка. Средства создания и разметки корпусов

60

16

4

40

3

Стандартизация в корпусной лингвистике

38

6

2

30

ИТОГО:

136

30

6

100

2.4.6. Форма текущего, промежуточного и итогового контроля

В течение семестра слушатели выполняют лабораторные (практические) работы, готовят письменные работы (рефераты) по одной из выбранных тем, которые «защищаются» в конце курса в виде докладов. В конце курса — зачет.

2.4.7. Учебно-методическое обеспечение курса

Основная литература

Богуславский И.М. и др. Аннотированный корпус русских текстов: Концепция, инструменты разметки, типы информации // Труды Международного семинара по компьютерной лингвистике и ее приложениям «Диалог-2000». Протвино, 2000.

Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных» / Под ред. А.С. Герда. СПб., 2002.

Копотев М.В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2. 2003. № 6. С. 33–36.