Смекни!
smekni.com

Речевые технологии (стр. 1 из 5)

Перспективы речевого интерфейса

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой- активное развитие и применение этой технологии только начина­ется (в который раз). С одной стороны, успели сформировать­ся устойчивые стереотипы и пре­дубеждения, с другой - несмот­ря на почти полвека настойчивых усилий не нашли разрешения вопросы, стояв­шие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжат­ся поиски такого интерфейса, ко­торый устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

Исследователи недалеко про­двинулись за прошедшие десятки лет, что заставляет некоторых спе­циалистов крайне скептически от­носиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практи­чески решена. Впрочем, все зави­сит от того, что следует считать решением этой задачи.

Построение речевого интер­фейса распадается на три состав­ляющие.

I. Первая задача состоит в том, чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную ин­формацию. Пока что, на нынеш­нем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (пони­мание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клави­атуры микрофоном.

II. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру команд (скажем, дуб­лирующих пункты меню), ничего сложного в ее реализации нет. Однако вряд ли такой подход бу­дет удобнее, чем ввод этих же ко­манд с клавиатуры или при помо­щи мыши. Пожалуй, даже удоб­нее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать (к тому же мешая окружающим); «Старт! Главное меню! Бери!» В идеале компьютер должен четко «осмысливать» ес­тественную речь человека и пони­мать, что, к примеру, слова «Хва­тит!» и «Кончай работу!» означа­ют в одной ситуации разные по­нятия, а в другой - одно и то же.

III. Третья задача состоит в том, чтобы компьютер мог преобразо­вать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

Так вот, из этих трех задач достаточно ясное и окончатель­ное решение существует только для третьей. По сути, синтез речи - это чисто математическая за­дача, которая в настоящее время решена на довольно хорошем уровне. И в ближайшее время, скорее всего, будет совершен­ствоваться только ее техническая реализация.

Препятствием для окончательного решения первой задачи слу­жит то, что никто до сих пор тол­ком не знает, каким образом мож­но расчленить нашу речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который мы выдаем при разговоре, нельзя различить ни отдельных букв, ни слогов , об этом более подробно я Вам расскажу позже .. Во всяком случае, после предварительной тренировки современные системы распознавания речи работают довольно сносно и делают оши­бок не больше, чем делали оптические системы распознавания пе­чатных символов лет пять-семь назад.

Что касается второй задачи, то она, по мнению большинства спе­циалистов, не может быть решена без помощи систем искусственно­го интеллекта. Последние, как из­вестно, пока не созданы, хотя боль­шие надежды возлагаются на по­явление так называемых кванто­вых. Если же подобные устройства появятся, это будет оз­начать качественный переворот в вычислительных технологиях, и тогда, как знать, может быть , мно­гие теперешние подходы к рече­вому интерфейсу вообще окажут­ся ненужными.

Поэтому пока удел речевого интерфейса - всего лишь дубли­рование голосом команд, кото­рые могут быть введены с клави­атуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может ока­заться очень привлекательной. Это речевой ввод текстов в компью­тер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «ос­мысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большин­ство выпускаемых ныне программ «речевого интерфейса» ориенти­рованы именно на ввод речи.

Хотя и здесь есть место для скепсиса. Если читать вслух, четко выговаривая слова, с паузами, монотонно, как это требуется для системы распознавания речи, то на машинописную страничку у меня уйдет пять минут. Печатаю на клавиатуре я с той же скоростью. Но сочиняю, при наличии вдох­новения, раза в два-три медлен­нее, а без оного - медленнее раз в пять, так что скорость «ввода» и при диктовке и при работе на кла­виатуре у меня абсолютно одинакова. Но вот сочинять и одновременно выговаривать сочиняемое с четкой артикуляцией , хоть убей, те не смогу.

Первый - и, пожалуй, основ­ной - вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявше­муся мнению, является задачей далеко не тривиальной. Сложив­шаяся практика применения ком­пьютеров вовсе не способствует широкому внедрению речевого интерфейса.

Для подачи команд, связан­ных с позиционированием в про­странстве, человек всегда поль­зовался и будет пользоваться жес­тами, то есть системой «руки- глаза». На этом принципе построен современный графический ин­терфейс. Перспектива замены клавиатуры и мыши блоком рас­познавания речи абсолютно от­падает. При этом выигрыш от воз­ложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьюте­рах на протяжении уже более три­дцати лет. Именно таким сроком оценивается существование ком­мерчески применимых систем распознавания речи.

Для иллюстрации своих аргументов возможно, несколько спор­ных утверждений рассмотрю перспективу и основные пробле­мы применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время.

Для сравнения: спонтанная речь произносится со средней ско­ростью 2,5 слов в секунду, про­фессиональная машинопись - 2 слова в секунду, непрофессио­нальная - 0,4. Таким образом, на первый взгляд, речевой ввод имеет значительное превосходство по производительности. Однако оценка средней скорости диктов­ки в реальных условиях снижается до 0,5-0,8 слова в секунду в связи с необходимостью четкого произ­несения слов при речевом вводе и достаточно высоким процентом ошибок распознавания, нуждаю­щихся в корректировке.

Речевой интерфейс естественен для человека и обеспечивает допол­нительное удобство при наборе тек­стов. Однако даже профессиональ­ного диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому (к этому я еще вернусь) ком­пьютеру. Кроме того, имеющийся опыт эксплуатации подобных сис­тем свидетельствует о высокой веро­ятности заболевания голосовых связок операторов, что связано с неиз­бежной при диктовке компьютеру монотонностью речи.

Часто к достоинствам речевого ввода текста относят отсутствие не­обходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи- чувстви­тельность к четкости произноше­ния- приводит к потере этого, казалось бы, очевидного преиму­щества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произно­шения может занять несколько лет.

Существует и еще одно непри­ятное ограничение применимо­сти, сознательно не упоминаемое, на мой взгляд, создателями сис­тем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звука изолированном отдельном помещении либо пользоваться звукоизоли­рующим шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумо­вой фон, будут значительно за­труднять работу речевого распо­знавателя. Таким образом, рече­вой интерфейс вступает в явное противоречие с современной ор­ганизационной структурой пред­приятий, ориентированных на коллективный труд. Ситуация не­сколько смягчается с развитием удаленных форм трудовой дея­тельности, однако еще достаточ­но долго самая естественная для человека производительная и по­тенциально массовая форма поль­зовательского интерфейса обре­чена на узкий круг применения.

Ограничения применимости систем распознавания речи в рам­ках наиболее популярных тради­ционных приложений заставляют сделать вывод о необходимости поиска потенциально перспектив­ных для внедрения речевого ин­терфейса приложений за преде­лами традиционной офисной сфе­ры, что подтверждается коммер­ческими успехами узкоспециали­зированных речевых систем. Са­мый успешный на сегодня проект коммерческого применения рас­познавания речи - телефонная сеть фирмы АТ&Т. Клиент может запросить одну из пяти категорий услуг, используя любые слова. Он говорит до тех пор, пока в его высказывании не встретится одно из пяти ключевых слов. Эта систе­ма в настоящее время обслужива­ет около миллиарда звонков в год.

Несмотря на то, что одним из наиболее перспективных направ­лений для внедрений систем рас­познавания речи может стать сфе­ра компьютерных игр, узкоспециа­лизированных реабилитационных программ для инвалидов, телефонных и информационных сис­тем, ведущие разработчики рече­вого распознавания наращивают усилия по достижению универса­лизации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной на­стройки на диктора.