MPEG-2 (ISO/IEC 13818) — кодек для высококачественной передачи изображений, аудиоинформации и данных при потоке 2-80 Мбит/с, обеспечивающий несколько уровней качества (табл. 1). Основной уровень (720x480, 30 кадров/с) обеспечивает качество на уровне телевещания, высокие уровни используются в профессиональной видеозаписи. Стандарт предусматривает одновременную передачу множества TV-каналов с возможностью шифрования для ограничения доступа к информации и защиты прав собственности на содержимое потоков. Первые 5 частей стандарта аналогичны MPEG-1, но с новым наполнением. Аудиокодек MPEG-2 представляет собой многоканальное расширение аудиокодека MPEG-1, что обеспечивает их совместимость по первым двум каналам. В аудиокодеке MPEG-2 имеются 2 стереоканала (фронт и тыл), обеспечивающих объемное звучание (Surround), и один низкочастотный с полосой до 100 Гц. Кроме совместимого с MPEG-1, в MPEG-2 входит и «продвинутый» аудиокодек AAC (Advanced Audio Codec), используемый в профессиональной аудиотехнике. Аудеокодек MPEG-1/MPEG-2 стал жить самостоятельной жизнью под именем МРЗ (MPEG-1 Layer 3), иногда ошибочно называемый MPEG-3 (такого стандарта нет). То, что должно было стать MPEG-3, вылилось в высший уровень MPEG-2. Этот уровень обеспечивает качество телевидения высокой четкости ТВЧ (HDTV — High Definition TV).
Таблица 1. Уровни качества MPEG-2
Уровень | Размер изображения | Максимальный поток данных, Мбит/с при частоте 30 кадров/с |
Low (низкий) | 352 х 240 | 4 |
Main (основной) | 720 х 480 | 15 |
High-1440 (высокий) | 1440x1152 | 60 |
High (высокий) | 1920 х 1080 | 80 |
Модель взаимодействия компонентов воспроизводящих систем MPEG-1 и MPEG-2 довольно проста — данные от источника через средства доставки поступают на вход демультиплексора, где разделяются на видео и аудиопотоки, обрабатываемые своими декодерами. Информационный поток MPEG-1 сугубо однонаправленный; в MPEG-2 добавляется двунаправленный канал взаимодействия получателя информации с источником данных (сервером вещания) через средства доставки, что обеспечивает интерактивность в смысле выбора передаваемых программ, а также адаптацию передаваемого потока к качеству канала передачи.
MPEG-4 — стандарт, ориентированный на интерактивное использование мультимедиа и сетевых коммуникаций. По сравнению с предыдущими, MPEG-4 устроен гораздо сложнее — аудио-видеоинформация, представляемая конечному потребителю, собирается из различных аудиовизуальных объектов (AVO, Audio-Visual Objects). Эти объекты отображаются на сцене, представляемой конечному потребителю (наблюдателю-слушателю). Сцена представляется дисплеем и многоканальной аудиосистемой. Исходная композиция (расположение объектов на сцене), заданная создателем воспроизводимого произведения, может в широких пределах изменяться пользователем. Объекты, представляемые на сцене, могут быть как естественными, так и синтетическими. Между объектами устанавливаются определенные связи. Интерактивность позволяет управлять как представлением сцены (например, менять ракурс), так и композицией («сборкой», содержанием и поведением объектов на сцене) и, как и в MPEG-2, взаимодействовать с источником данных через средства доставки.
Естественные аудиообъекты — это каналы передаваемого аудиосигнала, сжатого в зависимости от потребностей в качестве и доступной полосы пропускания канала передачи. Уровень качества может быть от телефонного до высокого (каналы с виртуальной скоростью 2-64 Кбит/с). Для каждого уровня качества и занимаемой полосы используется свой метод компрессии/декомпрессии. Синтетические аудиообъекты образуются из структурированных потоков входных данных. Декодер TTS (Text to Speech) синтезирует речь по потоку текстовых данных, формируя управляющие данные для анимации движения губ. Декодер имеет многонациональную языковую поддержку. Он позволяет управлять тембром и громкостью, делать паузы, «проматывать» вперед и назад. Музыкальным аналогом TTS является интерфейс MIDI, но в MPEG-4 может использоваться и более мощный и точный метод синтеза музыки Score Driven Syntesis. Поток для синтеза музыки содержит команды, описывающие звуковые примитивы, генерируемые с помощью сигнальных процессоров. Таким образом передаются потоки для всех инструментов оркестра и может быть синтезировано их совместное звучание, которое может оживляться такими деталями, как шум шагов в зале или звук открываемой двери. К аудиообъектам могут быть приложены различные эффекты; аудиообъекты могут привязываться к визуальным объектам и позиционироваться в любой точке сцены (объемной).
Визуальные естественные объекты могут быть текстурами, изображениями и видео. Текстуры предназначены для наложения на каркасные модели, 2D или 3D. Изображения могут просто помещаться в любое место сцены. Видео подразумевает «живое» изображение, но оно может быть и не полноэкранным и не прямоугольным (например, движущийся человек на прозрачном фоне). Визуальные синтетические объекты представляют собой элементы компьютерной графики, получаемые разными способами в векторном или растровом виде. Это могут быть и 2D или 3D каркасные модели, на которые могут быть наложены текстуры (естественные и синтетические). Для повышения качества моделирования живых объектов в MPEG-4 разработана специальная система параметризованного описания человеческой головы, способной изображать различные эмоции, а также воспроизводить движение губ при разговоре. Движение губ может быть связано с воспроизводимым аудиосигналом, привязанным к этому объекту (голове). На модель головы может быть наложена текстура, полученная из изображения лица конкретного человека. Разрабатывается также и специализированная модель человеческого тела.
Для иллюстрации можно представить, к примеру, такую сцену. В синтетической комнате (трехмерная модель) расположен синтетический диктор (модель), лицо которого является текстурой, сделанной из портрета известного человека. Этот диктор «читает» текст (подсунутый ему пользователем или хакером через сеть), ходит по комнате, по «просьбе» пользователя может остановиться и помолчать или же повторить сказанное. Вся эта синтетика в сочетании с интерактивностью ограничивается малым объемом передаваемых данных — достаточно раз передать описание сцены, диктора и текстуру его лица, после чего требуется передача лишь текста и информации, управляющей движением моделей на сцене.
Визуальная часть MPEG-4 предоставляет инструменты и алгоритмы для эффективной компрессии видео и изображений, текстур для наложения на 2D- и ЗD-сетки (каркасы), самих сеток, потоков геометрических данных, «оживляющих» сетки. Также имеются средства для произвольного доступа ко всем типам объектов, манипулирования изображениями и видеопотоками. Способы кодирования и масштабирования изображений, текстур и видео зависят от типа содержимого. Ядром средств кодирования визуальных объектов является VLBV (Very Low Bit-rate Video) — видео с очень низкой скоростью потока (5-64 Кбит/с), позволяющей передавать маленькие кадры (176 х 144 пиксела) с темпом 10-15 кадров/с, устойчиво по отношению к ошибкам передачи. Вокруг этого ядра строится интерфейс с высокой скоростью передачи и расширения функциональности, позволяющих индивидуально кодировать объекты сцены, что и обеспечивает интерактивность. Полноэкранное изображение приемлемого качества требует скорости порядка 600 Кбит/с. Для программного декодирования (в реальном времени) требуется как минимум Pentium II-300. Компрессия в реальном времени может быть реализована, например, на двухпроцессорном компьютере Pentium II-400. В некоторые современные видеокарты встраивают аппаратные средства декомпрессии MPEG-4; средства синтеза визуальных объектов основаны на вполне уже обычных функциях 2D- и ЗО-акселераторов.
Широкое распространение MPEG-4 во все мультимедийные отрасли может сильно изменить взгляды на способы создания и использования мультимедийной продукции, но это тема отдельного обсуждения вне рамок данной книги. В MPEG-4 предусматриваются средства контроля за соблюдением прав собственности на произведения, направленные на обеспечение возможности платного распространения, защиту авторских прав и т. п. При необходимости возможности изменения содержимого при воспроизведении тоже должны быть ограничены, чтобы избежать искажения смысла произведения.
На этом история MPEG не заканчивается: есть расширения MPEG-4 с использованием языка Java, а также MPEG-7 — стандарт описания мультимедийных объектов, обеспечивающий их эффективный поиск.
В персональном компьютере могут присутствовать специальные компоненты для работы с MPEG:
MPEG-плеер — декодер MPEG-1, обеспечивающий воспроизведение с компакт-дисков форматов MPEG-1 (CD-I, VideoCD). Аппаратный декодер является широко распространенным дополнением графического адаптера. В отличие от программных MPEG-декомпрессоров, он обеспечивает высокое качество воспроизведения с невысокой загрузкой процессора. В состав MPEG-плейера должен входить и аудиодекодер, при этом на графической плате с аппаратным декодером появляется немного неожиданный дополнительный разъем аудиовыхода.
DVD-плеер — декодер MPEG-2, аппаратный или программный, позволяющий воспроизводить видеозаписи с DVD-Video и Super VideoCD. Для программного декодирования требуется как минимум компьютер с процессором Pentium II-266, для аппаратного достаточно Pentium-133.