3. MP3
MP3 - сокращение от MPEG Layer3. Это один из цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMPSON (1992г.), позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является самой сложной из семейства MPEG Layer 1/2/3. Она требует больших затрат машинного времени для кодирования по сравнению с остальными и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.
Компрессия достигается при активном использовании известных особенностей человеческого слуха в плане восприятия аудиоинформации, что позволяет экономить на наименее значимых с точки зрения человеческого слуха деталях звучания. На проведенных тестах специально нанятые опытные прослушиватели не смогли различить звучание оригинального трека на CD и закодированного с коэффициентом сжатия 6:1.
Описание процесса кодирования
Подготовка к кодированию. Фреймовая структура
Перед кодированием исходный сигнал разбивается на участки, называемые фреймами, каждый из которых кодируется отдельно и помещается к конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Каждый фрейм может кодироваться с разными параметрами. Информация о них содержится в заголовке фрейма.
Начало кодирования
Кодирование начинается с того, что исходный сигнал с помощью фильтров разделяется на несколько, представляющих отдельные частотные диапазоны.
Работа психоакустической модели. Часть первая
Для каждого диапазона определяется величина маскирующего эффекта, создаваемого сигналом соседних диапазонов и сигналом предыдущего фрейма. Если она превышает мощность сигнала интересующего диапазона или мощность сигнала в нем оказывается ниже определенного опытным путем для данного диапазона порога слышимости, то данный диапазон не кодируется.
Работа психоакустической модели. Часть вторая
Для оставшихся данных для каждого диапазона определяется, сколькими битами на сэмпл мы можем пожертвовать, чтобы потери от дополнительного квантования были ниже величины маскирующего эффекта, соответственно чему и производится пожертвование. При этом учитывается, что потеря одного бита ведет к внесению шума квантования величиной порядка 6 dB.
Завершение кодирования
После завершения работы психоакустической модели формируется итоговый поток, который дополнительно кодируется по Хаффману, на этом кодирование завершается.
Замечание
На практике схема несколько сложнее, так как необходимо согласовываться с требованиями битрейта. В зависимости от кодера это приводит к разного рода релаксациям при повышении битрейта и ужесточению критериев при его понижении. Суть в том, что даже после обработки с помощью психоакустической модели оставшаяся аудиоинформация достаточно объемна, приходится идти на потери.
Дополнение
Кроме того, кодирование стереосигнала допустимо четырьмя различными методами:
Dual Channel
Каждый канал получает ровно половину потока и кодируется отдельно как моно сигнал. Рекомендуется на битрейтах от 256kbs ( субъективно ).
Stereo
Каждый канал кодируется отдельно, но когда кодер умудряется отбросить столько "лишнего" в одном канале, что код не заполняет полностью выделенный для данного канала объем, то кодер может использовать это место для кодирования другого канала. В документации говорится, что этим избегается кодирование "тишины" в одном канале, когда в другом есть сигнал.
Но документация, на мой взгляд, неясно объясняет, что именно происходит. Отсюда и рекомендация в предыдущем пункте.
Режим установлен по умолчанию в большинстве ISO-based кодеров, а также используется продукцией FhG IIS на битрейтах выше 192kbs. Применим и на более низких битрейтах порядка 128kbs-160kbs.
Joint Stereo ( MS Stereo )
Стереосигнал раскладывается на средний между каналами и разностный. При этом второй кодируется с меньшим битрейтом.
Это позволяет несколько увеличить качество кодирования в обычной ситуации, когда каналы по фазе совпадают. Но приводит и к резкому его ухудшению, если кодируются сигналы, по фазе не совпадающие. В частности, фазовый сдвиг практически всегда присутствует в записях, оцифрованных с аудиокассет, но встречается и на CD.
Режим выставлен по умолчанию продукцией FhG IIS для битрейтов от 112kbs до 192kbs.
Joint Stereo ( MS/IS Stereo )
Вводит еще один метод упрощения стереосигнала, повышающий качество кодирования на особо низких битрейтах. Состоит в том, что для некоторых частотных диапазонов оставляется уже даже не разностный сигнал, а только отношение мощностей сигнала в разных каналах. Понятно, для кодирования этой информации употребляется еще меньший битрейт.
В отличие от предыдущего, этот метод приводит уже к прямой потере информации, но выгоды в качестве от экономии места в пользу среднего сигнала оказываются выше, если речь идет о очень низких битрейтах. Этот режим по умолчанию используется продукцией FhG IIS для высоких частот на битрейтах от 96kbs и ниже. В ISO-based кодерах возможен выбор диапазона. Фактически, MS Stereo - частный случай MS/IS Stereo, когда переменная, отвечающая за кодируемый таким образом диапазон, принимает нулевое значение.
При применении данного режима происходит потеря фазовой информации, а также имеет место меланхоличное превращение противофазного сигнала кодером в полное отсутствие оного (сигнала).
Следует отметить, что сейчас успешно развивается новая технология LAVA! (Live Audio Visual Animation), разрабатываемая компанией Creative Technology. Которая будет ориентирована в основном на музыку в формате MP3, благодаря ней пользователи смогут «смотреть» музыку в Internet в режиме реального времени. То есть можно будет просмотреть интерактивный логотип музыкальной группы и фотографии ее членов, а также элементы художественного оформления альбома — все это теперь может быть объединено в высококачественный трехмерный коллаж и отображено в режиме реального времени параллельно с воспроизведением MP3-файла без существенных дополнительных требований к пропускной способности сети. Программный инструментарий позволяет создавать различные музыкальные видеоролики, включающие любые графические и трехмерные элементы, имеющиеся в среде Windows. Используя список сценарных LAVA!-шаблонов, можно выполнять тонкую сценарную настройку различных параметров (мощность освещения, скорость движения камеры и пр.). Созданную сцену можно отправить вместе с MP3-музыкой по электронному адресу в Internet или поместить на Web-узле, чтобы продемонстрировать свои творческие успехи друзьям.
Исследование BMI Music Bot показало, что к апрелю 1999 г. 36% всех аудиофайлов в Internet составляли MP3-файлы, а доля WAV-файлов снизилась до 8%.
4. VQF - новый аудио формат!
Размер Файла:
VQF файлы - приблизительно 30-35 % меньше чем MP3 файлы.
Пример: Вы имеете песню 5 минут, на КОМПАКТ-ДИСКЕ. WAV файл, который Вы сграбили бы, будет ~ 50МБ. MP3 файл, и 128kbps и 44kHz, был бы приблизительно 4. 5МБ, с некоторой потерей звукового качества. VQF файл, в 44kHz, и 96kbps (80kbps VQF - относительно тот же самый как 128kbps MP3), - приблизительно 3. 5МБ!
Качество звука:
О качестве звука после сжатия можно сказать одно - хорошее. Нельзя сказать, что звук остается абсолютно без изменений, человек даже с неразвитым слухом заметит отличия. Если же говорить о VQF с точки зрения обыкновенного пользователя, то качество вполне приличное для использования в Internet. Ну а поскольку мы уже коснулись, качества звука то VQF - намного лучше чем MP3. Они почти столь же хороши как оригинал WAV файлы. 80kbps VQF столь же хорош как 128kbps MP3 файл. 96kbps VQF имеет качество, почти столь же хорошее как таковым 256kbps MP3. Одним словом можно с точно сказать что использование VQF - позволяет сэкономить до 25% дискового пространства без ощутимой потери качества.
Использование процессора (CPU) :
Это - одна область, где VQF более тяжеловесен чем MP3. Он требует больше ресурсов. Когда MP3 были развиты существовали только Pentium - ы. В настоящее время, с Pentium II, и другими мультимедийными средствами увеличились производительные возможностями системы. Этот не маловажный который позволяет кодировать больше звуковых данных в 30 % меньшие файлы!
Недостатки:
1. Этот формат достаточно новый и пока достаточно редкий, что нельзя сказать об MP3!. Но это - только вопрос времени. Как только люди начнут понимать, насколько он актуален на данный момент, их популярность возрастёт.
2. Раскодирование - относительно медленно. Зависит от двух факторов:
a) Лучшее сжатие означает, что будет использованно большее количество времени на "размышления" - кодирующего устройства. Оно работает по более сложным алгоритмам, таким образом уходит большее количество времени.
b) Кодирующее устройство достаточно ново и очевидно, что Yamaha потратила не достаточно времени для разработки кодирующего устройств, обеспечивающего приемлимую производительность и качество. Но специалисты считают, что этот недостаток со временем будет исправлен.
В завершении можно сказать, что новый формат сжатия VQF будет популярным среди пользователей (если завтра не выйдет нового, сжимающего в сто раз). VQF развивается, усовершенствуется и пройдет еще несколько месяцев, и он будет сжимать файлы еще плотнее и качественнее.
Конечно же, это не все музыкальные форматы, используемые на РС. Помимо вышеперечисленных, уже положительно проявивших себя форматов MIDI, WAV, MP3 и только вышедшего VQF, сушествует еще множество типов музыкальных файлов. Как, например, VOC - аналог формата WAV (разработанный компанией Creative Labs), XM, IT – форматы для программ-трекеров, AU – для программы Sound Gadged Pro и т.д. Но так как они используются не так часто, мы их затрагивать не будем.