Кодирование windows pcm без сжатия

Многие люди знают такой формат аудиофайлов, как MP3, но на самом деле существует множество других форматов, к которым относится AAC, FLAC, OGG или WMA. Некоторые люди даже не знают, почему вовсе существует так много расширений, для чего они предназначены, а также какой вариант является самым оптимальным для использования. Поэтому целесообразно изучить особенности каждого формата, чтобы иметь возможность сравнить их, а также выбрать для себя лучший вариант. Например, если хочется посмотреть видео или послушать аудио о том, куда лучше ехать в отпуск, то не всегда удается запустить файл из-за его формата, поэтому приходится устанавливать программы, читающие расширение. Поэтому важно знать об особенностях всех видов аудиофайлов.

Виды аудиофайлов

Аудиофайлы могут быть представлены в многочисленных размерах и типах. Почти все аудиоформаты делятся на три основные разновидности. Каждая категория обладает своими нюансами, а также содержит несколько расширений.

Несжатые аудиоформаты

Несжатый звук состоит из настоящих волн звука, захваченных и преобразованных в цифровой формат без дальнейшей обработки. Поэтому несжатые аудиофайлы, как правило, отличаются высокой точностью, но при этом занимают много места на диске. Видео в одну минуту для 24-битного стерео с частотой 96 кГц весит около 34 Мб.

PCM

PCM расшифровывается как импульсно-кодовая модуляция (англ. pulse code modulation). Данный формат является цифровым представлением необработанных аналоговых сигналов звука. Аналоговые файлы существуют в виде осциллограмм. Чтобы преобразовать форму сигнала в цифровой вид, звук дискретизируется и записывается с конкретными интервалами или импульсами.

Данный аудиоформат обладает частотой дискретизации и разрядностью. В нем нет сжатия, поэтому данная запись наиболее приближена к аналоговому звучанию. PCM — это самый популярный аудиоформат, поэтому он был выбран, чтобы использовать на DVD-дисках. Имеется подтип PCM, который называется линейной импульсно-кодовой модуляцией, при котором для отборки выборки применяются линейные интервалы. LPCM считается самой популярной формой PCM, поэтому сейчас эти термины практически идентичны.

WAV

WAV расшифровывается как формат аудиофайла Waveform. Данный стандарт создан Microsoft и IBM в 1991 году. Пользователи считают, что все файлы WAV представлены несжатыми аудиофайлами, но это мнение ошибочно. WAV — это контейнер Windows для разнообразных форматов муызки. Файл WAV может включать сжатый звук, но он редко применяется для этих целей. Многие файлы WAV включают несжатый звук в формате PCM. Файл WAV — это уникальная оболочка, предназначенная для кодировки PCM, поэтому она считается наиболее подходящей для применения в операционных системах Windows. Но даже системы Mac часто могут открывать WAV-файлы без каких-либо проблем или задержек.

AIFF

AIFF расшифровывается как формат файла для обмена аудио. Он был создан компанией Apple для систем Mac еще в 1988 году. Файлы данного формата могут включать множество разновидностей аудиоформатов. Например, существует сжатая версия под названием AIFF-C и другая версия под названием Apple Loops, используемая GarageBand и Logic Pro. Они применяют одинаковое расширение AIFF.

Многочисленные файлов AIFF включают несжатый звук формата PCM. Файл AIFF — это всего лишь оболочка для кодировки PCM, поэтому он считается наиболее подходящим для применения в операционных системах Mac. Но эти файлы можно легко открывать на Windows.

Аудиоформаты со сжатием с потерями

Сжатие с потерями предполагает потерю некоторых данных в процессе сжатия, которое требуется для уменьшения веса файлов, чтобы они не занимали много места на диске. Во время данного процесса ухудшается качество звука и точность воспроизведения звука.

MP3

MP3 расшифровывается как MPEG-1 Audio Layer 3. Он был разработан и представлен общественности еще в 1993 году и стремительно набирал популярность, со временем став самым распространенным форматом музыки в мире.

Основная цель MP3 заключается в отбрасывании звуковых данных, существующих за пределами слышимости. Снижается качество звуков, которые сложно услышать. Почти все цифровые устройства в разных странах мира с функцией воспроизведения звука может читать и воспроизводить MP3-файлы. Когда нужен универсальный формат, MP3 никогда не подведет, именно поэтому это один из самых популярных в мире форматов аудиофайлов.

AAC

AAC расшифровывается как Advanced Audio Coding (расширенное кодирование звука). Он был создан и выпущен в 1997 году в качестве преемника MP3. Хотя он стал популярным цифровым аудиоформатом, но не смог обогнать MP3. Алгоритм сжатия, применяемый форматом AAC, намного более продвинутый и технический, чем у MP3. Когда вы сравниваете одну и ту же запись в форматах MP3 и AAC с одним и тем же битрейтом, AAC обычно имеет лучшее качество звука. AAC по-прежнему широко применяется многими пользователями. Он считается стандартным способом сжатия звука, используемым YouTube, Android, iOS, iTunes и другими устройствами.

OGG (Vorbis)

OGG является уникальным мультимедийным контейнером, содержащим все разновидности форматов сжатия, но обычно он применяется для хранения файлов Vorbis. Vorbis был разработан еще в 2000 году, а также стал очень популярным по двум основаниям: он обладает открытым исходным кодом, благодаря которому им можно пользоваться совершенно бесплатно, а также функционирует намного лучше, чем многие другие форматы сжатия с потерями.

MP3 и AAC имеют такие прочные позиции, что OGG было трудно завоевать расположение пользователей. На данный момент он часто применяется любителями ПО с открытым исходным кодом.

WMA

WMA расшифровывается как Windows Media Audio. Он был разработан в 1999 году, причем с этого времени было внесено множество корректировок, но сохранилось первоначальное название и расширение WMA. Это проприетарный формат, разработанный крупной компанией Microsoft.

В отличие от AAC и OGG, WMA применялся для удаления определенных недостатков в методе сжатия MP3. Подход WMA к сжатию очень похож на методику AAC и OGG. WMA является лучшим типом аудиофайла по методу сжатия. Главный минус данного формата заключается в том, что он не поддерживается многочисленными устройствами и платформами.

Аудиоформаты со сжатием без потерь

Данный метод уменьшает размер файла без потери данных. Существенным минусом считается то, что сжатые файлы без потерь весят больше, чем аудиофайлы с потерями.

FLAC

FLAC расшифровывается как бесплатный аудиокодек без потерь. Он оперативно стал очень популярным с 2001 года. FLAC может легко и быстро сжимать файл до 60% без потери даже 1 бита данных. FLAC — это формат аудиофайлов с открытым исходным кодом, поэтому он применятся без необходимости внесения платы.

FLAC поддерживается большим количеством разнообразных программ и устройств, а также считается прекрасной альтернативой MP3 для воспроизведения музыки.

ALAC

ALAC расшифровывается как аудиокодек Apple без потерь. Он был разработан и запущен в 2004 году как проприетарный формат, но в конечном итоге был распространен с открытым исходным кодом в 2011 году. Он менее эффективен, чем FLAC, в отношении сжатия. Однако пользователи Apple не могут выбрать подходящий вариант, поскольку iTunes и iOS обладают встроенной поддержкой ALAC.

WMA

WMA расшифровывается как Windows Media Audio. Существует альтернатива без потерь, которая называется WMA Lossless и использует то же расширение. Он относится к проприетарным форматам, поэтому не подходит для любителей ПО с открытым исходным кодом, хотя имеет поддержку как в системах Windows, так и Mac.

Основная сложность WMA Lossless — это ограниченная аппаратная поддержка. Если вам надо прослушать сжатый файл без потерь на различных устройствах или системах, то лучше всего применять FLAC.

Таким образом, если человек записывает и редактирует необработанный звук, то желательно применять несжатый формат аудиофайла. Это позволит работать с максимальным качеством звука. Только после окончания работы можно выбрать любой вышеуказанный формат для сжатия.

Нашли нарушение? Пожаловаться на содержание

Время на прочтение
18 мин

Количество просмотров 60K

image

0. Об авторе

Всем привет, меня зовут Максим Логвинов и я студент Харьковского Национального университета радиоэлектроники.

Меня всегда интересовали звук и музыка. Я сам любил писать электронную танцевальную музыку и мне всегда было интересно, как человеку, который недостаточно хорошо разбирается в высоких материях математики, узнать, что же происходит со звуком в компьютере: как он пишется, сжимается, какие для этого существуют технологии и так далее. Ведь со школьной скамьи и физики я понимал, что звук — он «аналоговый»: его мало того что нужно преобразовать в цифровой (для чего необходимы такие устройства как АЦП), но его нужно как-то сохранить. А ещё лучше, чтобы эта музыка занимала поменьше дискового пространства, чтобы можно было поместить в скупую папку побольше музыки. И чтобы звучала хорошо, без всяких слышимых артефактов сжатия. Музыкант ведь. Натренированное ухо, не лишённое музыкального слуха, достаточно сложно обмануть методами, которые используются для компрессии звука с потерями — по крайней мере, на достаточно низких битрейтах. Ишь, какой привередливый.

А давайте посмотрим, что из себя представляет звук, как он кодируется и какие инструменты используются для этого самого кодирования. Более того, поэкспериментируем с битрейтами одного из самых продвинутых на сегодняшний день кодеков — Opus и оценим, что и с какими циферками можно закодировать, чтобы и рыбку съесть, и… Собственно, просто почему бы и нет? Почему бы не попытаться описать простым языком не только то, как хранится и кодируется аудио компьютером, но и протестировать один из лучших кодеков на сегодняшний день? Особенно, если речь идёт о сверхнизких битрейтах, где практически все существующие кодеки начинают творить невероятные вещи со звуком в попытках уложиться в малый размер файла. Если хочется отвлечься от рутины и узнать, какие выводы были получены при тестировании нового кодека — добро пожаловать под кат.

1. Кодирование звука

Звук имеет физическую природу. Любой звук — это колебания в пространстве (в данном случае — в воздухе), которые улавливаются нашим ухом. Колебания имеют непрерывный характер, который можно описать математическими моделями. Делать же этого мы, конечно же, не будем, но поставим перед собой вопрос: как колебания, имеющие непрерывную природу, записать в машину, которая оперирует лишь нулями и единицами?

1.1. Ни сжатия, ни потерь

image
Рис. 1.1 — Графическое описание импульсно-кодовой модуляции

Формат WAV (WAVE) сохраняет аудио-дорожку в её истинном качестве, не проводя никаких манипуляций с самим аудио-файлом.

Для того, чтобы записать звук, нам необходимо преобразовать его в набор нулей и единиц. В случае с форматом WAV делается это наитупейшим образом: входящий звуковой поток разбивается на малейшие отрезки (кванты, отсюда термины «частота квантования», «частота выборки» или «частота дискретизации«) и в каждый такой отрезок времени пишется текущее значение аналогового сигнала в двоичной форме. Файлы формата WAV могут быть записаны с частотой дискретизации, к примеру, от 8 кГц до 192 кГц, но, де-факто, стандартом считается частота выборки в 44.1 кГц.

Следует отметить, что WAV, как контейнер, поддерживает и другие способы хранения аудио-информации: к примеру, ADPCM, который способен, в зависимости от полосы пропускания, кодировать аудио-данные с переменной частотой дискретизации.

Частота 44.1 кГц произошла не случайно. Если допустить неточности в описании, то данная цифра произошла как утверждение теоремы Котельникова: для сохранения максимально правильной формы волны при частотах до 20 кГц (теоретический предел слышимости человеческого уха) необходима частота дискретизации вдвое выше — 40 кГц. Собственно, частота именно в 44.1 кГц обусловлена техническими аспектами, подробности которых можно прочитать здесь.

В каждом таком отрезке в двоичной форме кодируется фактическое напряжение аналогового сигнала: наивысший уровень можно представить в виде «1111», наинизший — в виде «0000». И вот здесь вступает в игру второй параметр — глубина звучания, определяющая, насколько точно будет оцифровано значение волны в отрезок времени. Зачастую файлы формата WAV пишутся с разрядностью в 16 бит или 32 бит. Выше разрядность — точнее запись.

Кстати, о PCM. Что из себя представляет запись на обыкновенном компакт-диске, которые были так популярны после аудиокассет? Именно — поток несжатых нулей и единиц в формате PCM. Разрядность — 16 бит, частота выборки — 44.1 кГц. Какой тогда битрейт будет у такой записи?

  • 44100 раз в секунду пишется 16-битное число. 44100 * 16 = 705600 бит/с для одного канала;
  • для стерео-записи данное значение умножается на 2 — 1411200 бит/с или наши ~1411 кбит/с;
  • для 32-разрядной записи это значение будет в два раза больше — ~2822 кбит/с.

Вывод: отсюда прожорливость данных файлов к свободному пространству на жёстком диске, но в качестве выигрыша — полное отсутствие потерь при записи и прослушивании аудио-файла.

1.2. Сжатие без потерь

О сжатии без потерь я не буду много писать. С этим термином можно ознакомиться здесь. Фактически, данный метод представляет собой, говоря грубо, архивацию аудиозаписи алгоритмами, заложенными в кодек, но данные при этом не теряются и сохраняется возможность восстановить аудио-запись с точностью бит-в-бит. При декодировании таких форматов мы получаем, фактически, тот же WAVE-формат, только он занимает меньше дискового пространства; сжатие — приблизительно двухкратное и зависит от характера кодируемой композиции. При прослушивании записи кодек производит «разархивирование» композиции и шлёт поток несжатых нулей и единиц на обработку звуковой карте.

Таких кодеков существует достаточно много: это FLAC (Free Lossless Audio Codec), разработанный организацией Xiph (она же и разработала Opus), ALAC (Apple Lossless) от одноимённой компании, APE (Monkey’s audio), WV (WavPack) и прочие, менее известные форматы сжатия аудио без потерь.

1.3. Сжатие с потерями — обманываем свой слух

Учёные умы начали задумываться о том, что, в принципе, часто нет смысла сохранять полную информацию об аудиозаписи, так как наше ухо несовершенно. Оно может не слышать тихих звуков после громких, оно может не слышать слишком высокие и слишком низкие частоты и так далее. Эти феномены называются эффектом маскировки.

В итоге поняли: можно ведь выбросить здесь, подрезать там, а слушатель практически ничего не заметит — несовершенное ухо просто даст возможность слушателю обмануть себя. Следовательно, появляется возможность избавиться от психоакустической избыточности в файле.

Собственно, психоакустика существует как дисциплина и изучает психологические и физиологические особенности восприятия звуков человеком. Собственно, эти психоакустические модели и были заложены в основу работы программ сжатия с потерями и одним из первых таких форматов стал MPEG 1 Layer III или просто MP3. Здесь же оговорюсь, что маркетинг, оперирующий фактами практически без преувеличения, сделал своё дело: аудио-файл занимает в десять раз меньше места (с оговоркой: это при кодировании с битрейтом в 128 кбит/с, что позволяет получить «приемлемое для типичного слушателя качество» — вспоминаем 1411 кбит/с для WAVE), а, следовательно, на компакт-диск или на жёсткий диск поместится уже на порядок больше аудио-записей. Фурор! Популярность формата взорвала индустрию цифровой звукозаписи. В периоды не самых быстрых подключений к сети Интернет передавать подобные файлы стало как нельзя удобно. Удобно передавать, удобно хранить, удобно закинуть пачку композиций себе на плеер. Создано множество аппаратных декодеров формата MP3, в связи с чем файл проигрывался чуть ли не на

холодильнике

каждой железке.

На момент написания данной статьи уже истекли сроки патентных ограничений и лицензионные сборы прекращены.

Что же касается сжатия с потерями и каким образом получается сжать аудио-файл на порядок без существенной потери для слушателя качества? Если вкратце, от одного кодека к другому нижеследующая последовательность мало отличается. Описание данного процесса упрощено до безобразия, но его течение приблизительно таково:

  1. входящий поток несжатых данных разбивается равные отрезки — на кадры (фреймы);
  2. для того, чтобы создать непрерывный участок спектра, для анализа, помимо уже выбранного кадра, берётся предыдущий и следующий кадр;
  3. сжатие №1: участок проходит через MDCT (модифицированное дискретное косинус-преобразование). Говоря грубо, это преобразование проводит спектральный анализ звукового сигнала — оно даёт возможность получить информацию о том, насколько велика энергия звука в каждом отрезке спектра. В случае с Layer III производится второе MDCT-преобразование, которые повышает эффективность кодирования высоких частот на более низких битрейтах — это оказалось серебряной пулей для взрыва популярности данного кодека. Спасибо пользователю interrupt за поправку: MPEG 1 Layer III использует гибридный подход для преобразования аудио-данных: сначала спектр кодируемого аудио-файла разделяется на множество спектральных полос, как это происходит в SBC (Sub-band coding, англ.); каждая из этих полос преобразуется MDCT к частотному виду, который, собственно, уже даёт конкретную информацию о том, какие частоты и с какой энергией, присутствуют в кадре.
  4. Результат анализа MDCT передаётся психоакустической модели, которая является чем-то вроде «виртуального уха». На данном этапе даются ответы на вопросы, что оставлять, а что можно выбросить из аудио-сигнала без существенного ущерба для восприятия.
  5. сжатие №2: кадр, который прошёл через такое преобразование, может быть сжат с использованием кодов Хаффмана; фактически, если опять говорить грубо, каждый кадр дополнительно архивируется, избавляясь от избыточности. Это похоже на что-то вроде упаковки длинных цепочек нулей и единиц в более короткий формат;
  6. кадры склеиваются; в каждый такой кадр добавляется необходимая информация для кодека:
    • номер/размер кадра;
    • версия формата (MPEG1/2/2.5);
    • версия слоя (Layer I/II/III);
    • частота дискретизации;
    • режим стерео-базы (моно, стерео, совмещённое стерео).

Следует отметить факт того, что формат MP3 не лишён существенных недостатков, при этом сам формат уже не позволяет должным образом расширять его возможности. Возьмём, к примеру, такое явление как pre-echo. Феномен данного артефакта сжатия кратко и достаточно неплохо описан здесь, но его суть заключается в искажении резко нарастающих относительно тишины звуков, например, инструмента Hi Hat. При кодировании такого инструмента в тишине, из-за особенностей работы MDCT, резкий переход будет создаваться с множеством колебаний. В исходной записи этих колебаний не существует, но при их наличии в результирующей записи они достаточно отчётливо улавливаются ухом. Современные кодеки, такие как AAC и OGG также не лишены этого недостатка, но стараются бороться с ними, применяя более точные и совершенные алгоритмы. А вот MusePack (о нём ниже), к примеру, данного недостатка лишён, так как не использует для повышения эффективности второе MDCT-преобразование использует SBC вкупе с очень качественной психоакустической моделью, чем и объясняется его качественное кодирование лишь начиная с битрейтов в 160 кбит/с. Редко, но метко: с таким битрейтом кодек кодирует аудио лучше, чем MP3 с аналогичным битрейтом.

Нельзя не отметить, что разработчики свободного кодека Lame всё же пытаются совершенствовать своё детище, улучшая психоакустические модели и алгоритмы кодирования с переменным битрейтом; релиз версии 3.100 представлен в декабре 2017 года.

Подробную информацию о том, как внутри устроен MP3 с точки зрения формата кадров, можно почитать здесь.

А вот потрясающую статью (а, точнее, её перевод) о том, как работает сжатие аудио кодеком MP3, можно прочитать здесь. Рекомендую!

1.4. Кодирование с потерями совершенствуется: краткое описание формата AAC

На момент написания статьи кодеку MP3 уже более 23 лет. Дабы не повторяться со статьёй (её более новая версия), где уже описаны кодеки OGG Vorbis (и снова привет организации Xiph — это также её разработка), MPC (Musepack), WMA (Windows Media Audio) и AAC, я опишу здесь вкратце формат AAC с точки зрения технологий, которые являлись до недавних пор передовыми в сфере кодирования с потерями.

По моему скромному мнению, AAC (Advanced Audio Codec) — один из самих продвинутых форматов в области кодирования данных. Опишу основные особенности данного формата, начиная с популярных профилей, которые можно представить матрёшкой (см. рис. ниже):

image
Рис. 1.2 — Иерархия профилей AAC, источник — Википедия

— Low Complexity Advanced Audio Coding (LC-AAC)

Низкая сложность декодирования отлично подходит для реализации аппаратного кодека; аппаратные требования к ЦПУ и ОЗУ также низки, что и снискало большую популярность к этому профилю. Достаточно эффективно кодирует сигнал с 96 кбит/с.

— High-Efficiency Advanced Audio Coding (HE-AAC).

Профиль HE-AAC является расширением LC-AAC и дополнен запатентованной технологией SBR (Spectral Band Replication, груб. — «спектральное повторение», статья на английском). Именно технология спектрального повторения позволяет «сохранить» высокие частоты при кодировании с низкими битрейтами.

image
Рис. 1.3 — Графическое изображение принципа восстановления высоких частот

Почему «сохранить» — в кавычках? Потому что царь — не настоящий: кодек отводит место для дополнительной информации, которая используется синтезатором кодека для восстановления высоких частот, но так как эти частоты синтезируются, то бишь воссоздаются кодеком, они, фактически, являются приблизительной копией высоких частот, которые существовали в исходном файле. На практике, сигнал, кодированный битрейтом 48 кбит/с будет звучать, например, аналогично формату mp3@98 кбит/с, если это поддерживается декодером; в противном случае такой файл будет проигрываться попросту без восстановления высоких частот и его битрейт будет соответствовать его качеству, аналогичному mp3.

— High-Efficiency Advanced Audio Coding Version 2 (HE-AACv2)

Данный профиль относительно молодой (описан в 2006 году), он создан для более эффективного кодирования аудио в условиях низкой пропускной способности.
Вторая версия профиля является расширением, собственно, первого профиля, изменения заключаются в добавлении технологии PS (Parametric Stereo). Принцип несколько похож на технологию SBR: кодек также отводит место под информацию для восстановления стерео-базы, жертвуя аккуратностью.

image
Рис. 1.4 — Графическое изображения кодирования параметрического стерео

Условия для работы данного профиля такие же, как и для вышеописанного HE-AAC; отсутствие поддержки профиля декодером приведёт к тому, что запись будет звучать в моно.

— AAC-LD (Advanced Audio Coding — Low Delay)

Профиль AAC-LD имеет усовершенствованные алгоритмы кодирования для уменьшения задержек (до 20 мс.);

— AAC-ELD (Advanced Audio Coding — Enhanced Low Delay)

Данный профиль, который наследует все возможности HE-AACv2 (используются аналоги технологий SBR и PS, но спроектированные для низких задержек);

— AAC Main Profile

Данный профиль был представлен как MPEG-2 AAC или HC-AAC (High Complexity Advanced Audio Coding). Не совместим с LC-AAC;

— AAC-LTP (Advanced Audio Coding — Long Term Prediction)

Этот профиль более сложный и ресурсоёмкий (но и более качественный), чем все остальные. Также не совместим с LC-AAC.

Вот и всё, что я хотел написать об этом кодеке. Основной акцент я сделал на технологии, которые используются в различных профилях AAC (которые, кстати, порождают множество аббревиатур: AAC, LC-AAC, eAAC+, aacPlus, HE-AAC и т.д.), так как буду сравнивать их с таковыми в Opus, но кодек делает своё дело: он широко используется в интернет-радио, а также в технологиях цифрового радио-вещания: DRM (Digital Radio Mondiale) и DAB (Digital Audio Broadcasting) (ознакомиться с этими технологиями можно здесь), YouTube, как аудио-дорожка к множеству роликов в контейнерах mp4, mkv и пр.

2. Введение в Opus: описание формата

image
Рис. 2.1 — Логотип Opus

21 декабря 2017 года организация Xiph представила бета-версию аудиокодека Opus версии 1.3. Я не буду вдаваться в высокие материи при описании данного кодека, так как подобная информация находится в свободном доступе (например, здесь, здесь, а для знающих английский — здесь и здесь.)). Информацию о релизе этой бета-версии можно найти здесь. Здесь я отмечу, что данный кодек является замечательным кандидатом на замену остальных кодеков. У него немало достоинств:

  • битрейт от 6 до 510 Kbit/s;
  • частота дискретизации от 8 до 48KHz;
  • поддержка постоянного (CBR) и переменного (VBR) битрейтов;
  • поддержка узкополосного и широкополосного звука;
  • поддержка голоса и музыки;
  • поддержка стерео и моно;
  • поддержка переменного битрейта (VBR);
  • возможность восстановления звукового потока в случае потери кадров (PLC);
  • поддержка до 255 каналов;
  • доступность реализаций с использованием арифметики с плавающей и фиксированной запятой.

Кодек распространяется под лицензией BSD и полностью избавлен от всех патентных преследований, а также утверждён в качестве интернет-стандарта. Opus можно использовать в любых своих проектах, включая коммерческие, без необходимости открытия исходных текстов. На данный момент кодек используется в мессенджере Telegram для реализации VoIP, в проекте WebRTC, для кодирования аудио-дорожки в видео YouTube и т.д. Перспективы данного кодека не стоит недооценивать.

Может возникнуть резонный вопрос: что такого особенного в вышеописанных тезисах? Всё это есть практически в любом более-менее современном кодеке. Ответы последуют далее в статье.

Одна из ключевых особенностей данного кодека — чрезвычайно низкие задержки кодирования: от 2.5 мс. (!) до 60 мс, что просто необходимо, как воздух, приложениям, позволяющим пользователям общаться голосом в сети Интернет. Такие низкие задержки также позволяют строить интерактивные приложения, например, цифровую звуковую студию для совместного написания музыки или что-то в этом роде. Стоит отметить, что по этому параметру кодек конкурирует с относительно новым профилем AAC-ELD, описанному выше; тем не менее, минимальная задержка алгоритмов кодирования составляет прибл. 20 мс., что ни чуть не является проблемой для свободного, открытого и бесплатного кодека Opus.

Я не буду рассматривать все тонкости, связанные с кодированием аудио этим кодеком, но ниже опишу режимы, которые меняются кодеком в зависимости от смены битрейта.

2.1. Opus: режимы кодирования

image
Рис. 2.2 — Сравнение качества кодирования различными кодеками — официальный график с сайта opus-codec.org

После выхода данной бета-версии мне стало интересно, как меняются режимы кодирования в зависимости от битрейта, поэтому я и решил провести эксперименты, начиная с самых низких битрейтов, но только с ними. Проводить эксперименты с более высокими битрейтами я не вижу смысла — это отлично описано в статьях (например, здесь).

Сейчас же перечислим те режимы, которыми оперирует кодек:

  1. Режим кодирования сигнала — LP, hybrid, MDCT:
    • LPC или LP (кодирование с линейным предсказанием, статья на английском) используется в кодеках сжатия голоса и позволяет кодировать голос с достаточным для восприятия качеством, используя при этом очень низкие битрейты. Используется в кодеках GSM, AMR, SILK (также используемый в Skype), Speex (и снова привет Xiph; правда, она объявила кодек как «deprecated» и рекомендует использовать Opus). В кодеке Opus для кодирования голоса на низких битрейтах используется модифицированный кодек SILK, который не является обратно совместимым с таковым в Skype;
    • MDCT (модифицированное дискретное косинус-преобразование) — разновидность преобразования Фурье (о нём можно почитать здесь), используется практически во всех кодеках для сжатия музыки с потерями (lossy compression): MP3, AAC, OGG Vorbis и т.д. В кодеке Opus используется кодек CELT (статья на английском);
    • Hybrid mode (гибридный режим кодирования) является разработкой организации Xiph и заключается в том, что для кодирования нижней части спектра сигнала (до 8 кГц) используется LP, а для верхнего (от 8 кГц и выше) — MDCT, а на выходе получаем компромиссное качество звука при сохранении достаточно низкого битрейта.

  2. Стерео-база:
    • кодирование в режиме моно;
    • кодирование в режиме стерео;
    • кодирование в режиме совмещённого стерео (Joint Stereo).

  3. Исходя из вышеперечисленного — изменение ширины спектра в зависимости от битрейта:
    • Narrowband (узкополосное кодирование) — кодирование сигнала с шириной спектра до 6 кГц, соответствует качеству кодирования кодеками GSM и AMR-NB;
    • Wideband (широкополосное кодирование) — кодирование сигнала с шириной полосы от 6 кГц до 14 кГц, соответствует качеству кодирования кодеком AMR-WB (или так называемый операторами «HD Voice»), который используется ныне в сетях третьего поколения (3G);
    • Fullband (полное кодирование полосы) — сохранение всей слышимой человеческим ухом полосы (от 20 Гц до 20 кГц), моно-сигнал;
    • Fullband stereo — см. выше, но стерео-сигнал.

2.2. Низкие битрейты — высокие частоты. Как достигнуты такие результаты?

В начале данной статьи я не зря рассматривал кодек AAC и его навороченные профили, которые, фактически, строят стерео-базу и восстановление высоких частот, что называется, «из воздуха». Утрирую, конечно, но выражение недалеко от истины. Но вот беда: кодек покрыт патентами и является проприетарной разработкой альянса из компаний Bell Labs, Института интегральных схем общества Фраунгофера (который, кстати, и является ключевым создателем формата MP3), Dolby Laboratories и т.д. Следовательно, использование данных технологий потребует лицензионных отчислений, что недопустимо для полностью открытого и свободного кодека. Поэтому разработчики Opus пошли иным путём: они реализовали собственные алгоритмы воспроизведения высоких частот — Band Folding (Spectral Folding, Hybrid Folding). Об этом подходе кодирования высоких частот можно ознакомиться, соответственно, здесь (там даже интерактивные картинки есть), здесь (см. 4.4.1) и здесь. Кодек не синтезирует высокие частоты из дополнительных данных, как это делает HE-AACv2, он берёт за основу сам сигнал, исходя из энергии в области высоких частот, закодированной в оригинальном сигнале. Слепое тестирование со стороны энтузиастов показывает, что данный метод очень эффективен, не говоря уже о том, что подобный метод такого воспроизведения высоких частот, по заверениям разработчиков, более прост в исполнении, нежели SBR или его аналог и реализуем с меньшими алгоритмическими задержками.

К слову: результаты слепого тестирования можно посмотреть на графиках по следующей ссылке.

Давайте же испытаем это последнее слово в области сжатии звука с потерями.

2.3. Opus: инструменты для кодирования и тестирования

Данное тестирование проводилось на коротком отрывке из аудиокниги Вадима Зеланда — Трансерфинг реальности. Книга была озвучена российским актёром и радиоведущим Михаилом Черняком, который обладает приятным тембром голоса.

Как был получен отрывок?

  1. Утилитой «youtube-dl» был скачан фрагмент файла формата WebM — контейнер, в котором присутствует только аудио-дорожка:
    youtube-dl "https://www.youtube.com/watch?v=_-OUXW3a0Yw" -f 250

  2. Фрагмент был перекодирован в формат WAV для скармливания его кодеку opusenc (исходный файл был переименован для удобства):
    ffmpeg -i tr1_original.webm -acodec pcm_s16le tr1.wav
  3. Чтобы не заморачиваться с кодированием множества файлов с разными битрейтами, я воспользовался простой однострочной программой на языке Bash и получил на выходе множество необходимых мне файлов:
    for i in `seq 8 21`; do opusenc --bitrate $i tr1.wav tr-enc-${i}.opus ; done
  4. все эти файлы были импортированы в Audacity и в проигрыватель Qmmp, чтобы оценивать качество звучания на слух и визуально оценивать соответствующую дорожку.

image
Рис. 2.3 — Результат выполнения скрипта — скриншот программы Dolphin

Дальше пойдёт описание практически каждой из них — с приложением скриншотов и субъективного описания звучания, после чего последуют небольшие выводы.

3. Оценка звучания кодированных дорожек

По-хорошему, оценка звучания должна быть объективной и проводиться, к примеру, с использованием метода слепого ABX-тестирования (статья на английском). Тестирование проводится для того, чтобы исключить эффект пустышки (плацебо).

Если вкратце, суть метода заключается в прослушивании при помощи вспомогательного ПО (Foobar или аналогичное веб-приложение, см. прим. на рис. 3.1) двух семплов: референсного и сжатого ­— кнопки А и В соответственно. Слушатель заранее не знает, какой из них является сжатым, а какой — референсным.

image
Рис. 3.1 — Пример внешнего вида одной из программ слепого ABX-тестирования

Далее слушатель прослушивает аудиозапись, подставленную программой под кнопку Х и пытается определить: к какому из двух семплов (А или В) относится семпл на кнопке Х. После выбора ответа слушателем цикл повторяется определённое количество раз, после чего программой выводится результат, где показано, с какой вероятностью слушатель нажимал кнопки случайно.

Стоит оговориться, что существуют люди, которые не воспринимают эффекты психоакустической компрессии и, фактически, не могут отличить, например, запись mp3@128 кбит/с от FLAC — для них оба файла звучат «замечательно». Таких людей немало и для них 128 кбит/с — полностью прозрачное звучание, так как они не задумываются над тем, какие там артефакты и как они звучат. Музыка есть? Инструменты слышны? Отлично. Это ещё одна из причин высокой популярности формата MP3.

Я принципиально не проводил слепое ABX-тестирование, но пожелал описать субъективное восприятие звука с приведением скриншотов спектрограммы каждого семпла в надежде, что читателям данной статьи это будет интересно.
Поехали.

image
Рис. 3.2 — Спектрограмма записи, кодированной с битрейтом 8 кбит/с
opus-enc-8.opus

1. На рис. 3.2 показана спектрограмма для кодирования практически с самым низким битрейтом. Аудио-файл кодируется методом LP, кодек отводит спектр частот в 6 кГц; всё, что выше — обрезается. В итоге размер файла чрезвычайно мал, качество звучания соответствует таковому с кодеком AMR-NB (Narrowband). Классика жанра в сетях сотовой связи второго поколения (GSM). Поведение кодека Opus соответствует вышеописанному в диапазоне битрейтов от 6 до 9 кбит/с.

image
Рис. 3.3 — Спектрограмма записи, кодированной с битрейтом 10 кбит/с
opus-enc-10.opus

2. На рис. 3.3 показана спектрограмма для кодирования с битрейтом в 10 кбит/с. Та же ситуация: кодирование методом LP, но спектр частот уже шире — до 8 кГц. По звучанию — среднее между AMR-NB и AMR-WB.

image
Рис. 3.4 — Спектрограмма записей, кодированных с битрейтами 12 и 13 кбит/с
opus-enc-12.opus
opus-enc-13.opus

3. На рис. 3.4 показано две спектрограммы: для битрейтов 12 и 13 кбит/с соответственно. Здесь ситуация интереснее: при 12 кбит/с используется всё то же LP, но ширина спектра расширена ещё больше: до 10 кГц и звучание практически идентично таковому в AMR-WB.

Начиная с битрейта 13 кбит/с кодек переключается в гибридный режим и начинает использовать сразу три метода: LP, MDCT и Band Folding. Всё, что лежит в диапазоне от 0 до 8 кГц, кодируется LP, от 8 до 10 кГц — MDCT; именно этот отрезок спектра в 2 кГц используется как исходная информация для использования Band Folding — отсюда получаем фактически восстановленные высокие частоты, вплоть до 20 кГц.

Отчётливо видны «мазки» вдоль записи, начинающиеся с 10 кГц; видна попытка кодека сохранить максимум информации о высоких частотах. Интересно, что уже при 13 кбит/с. кодек в гибридном режиме, с использованием Hybrid Folding, пытается работать в режиме Fullband, восстанавливая спектр вплоть до 20 кГц.

Что же по поводу звучания? Звучание голоса просто Фантастическое — с большой буквы Ф. На такой результат не способен даже HE-AAC с его SBR — даже близко не способен. Высокие частоты, в области которых находятся шипящие, свистящие, цокающие (Ш, Щ, С, Ц) звуки воспроизводятся потрясающе, слушать человеческую речь — приятно. Не забываем про цифру «13 кбит/с», а ведь с таким битрейтом раньше работали кодеки GSM (AMR-NB), где толком и не разобрать, где «Ш», а где «С»…

Тем не менее, не стоит забывать, что для кодирования музыки такой режим всё ещё плохо подходит: из-за кодирования нижней части спектра методом LP в области нижних частот присутствуют существенные искажения, особенно, в области перехода, где голоса нет, но слышен соответствующий данной области FX-эффект «атмосферного ржавого скрипа».

image
Рис. 3.5 — Спектрограмма записей, кодированных с битрейтами 14 и 15 кбит/с
opus-enc-14.opus
opus-enc-15.opus

image
Рис. 3.6 — Обратите внимание на выделенную область FX-эффекта

4. На рис 3.5 видно, как меняется способ кодирования сигнала от перехода к более высокому битрейту — с 14 до 15 кбит/с. Пока спектрограмма записи для битрейта в 14 кбит/с похожа на вышеописанную с 13 кбит/с, то начиная с битрейта в 15 кбит/с использование гибридного режима прекращается и кодек полностью полагается на MDCT и Band Folding.

Почему я так решил? Потому что при прослушивании записи в области FX-эффектов все искажения, которые присущи LP, пропадают. Да и если присмотреться на спектрограмму обеих записей (см. также рис. 3.6), то можно увидеть, что точность воспроизведения спектра увеличена. Однако, характерный «мазок», разделяющий спектр пополам, в области 10 кГц, можно увидеть в обоих случаях.

Это как раз тот случай, когда качество здесь сопоставимо с таковым у mp3@80 кбит/с, если не выше. Опять-таки, не имею права ставить свои суждения истиной в последней инстанции, так как не проводил слепое ABX-тестирование.

5. Начиная с битрейта в 18 кбит/с (opus-enc-18.opus), последнего становится достаточно для того, чтобы переключиться в режим Fullband Stereo, а это означает, что на данном битрейте можно получить «приемлемое» качество записи в условиях очень малой пропускной способности сети. Нет, это не фиаско, братан, это победа!

Далее всё достаточно просто: пропорционально, с увеличением битрейта, кодек всё реже использует Band Folding, так как, собственно, битрейт становится достаточным для того, чтобы закодировать более высокие частоты без надобности в их искусственном восстановлении. Чем выше битрейт — тем более широкий спектр будет закодирован без применения Band Folding.

4. Вместо заключения

Что же касается меня, то тот «порог прозрачности» (или «Transparency», как это называют носители английского языка), который выражается в моей неспособности отличить оригинал от сжатого аналога — прибл. 170 кбит/с. Для mp3 этот параметр лежит в пределах 224-256 кбит/с, в зависимости от характера музыки.

Что же тут сказать. Технологии стремительно развиваются. И не только технологии сжатия аудио-данных — все технологии, не побоюсь обобщить. Особенно приятно, что такие качественные технологии, которые позволяют так качественно обмануть человеческое ухо и позволяющие быть настолько универсальными, также развиваются и остаются свободными и открытыми. Спасибо разработчикам и тем потрясающим людям, которые творят и двигают прогресс. А также спасибо всем за внимание и всем, кто осилил статью до конца.

P.S.: В статью будут вноситься правки при обнаружении существенных неточностей; будут исправляться синтаксические и семантические ошибки.

P.P.S.: Ссылка на мою собственную статью, написанную с использованием сервиса telegra.ph. Она нигде не публиковалась, является моей авторской работой (автора можно проверить) и является более старой версией текущей статьи.

Сохранить и прочитать потом —     

Организуя свою коллекцию цифровой музыки, можно утонуть в разнообразии форматов аудиофайлов. Почти каждый слышал об MP3, но что такое OGG, AIFF или MQA?

Если по прочтении списка у вас возникло подозрение, что все эти форматы для получения таких шикарных аббревиатур учились в разных университетах, мы поможем развеять его. В этом материале будет прояснена суть некоторых популярных музыкальных форматов, разница между ними и то, почему это важно знать.

Что бы вы ни слушали – MP3-файлы с низким битрейтом, чуть более качественные треки в AAC или Hi-Res-аудио во FLAC или WAV – настало время разобраться в том, что именно вы получаете в каждом случае и как выбрать оптимальный формат.

Давайте оценим плюсы и минусы каждого из них.

Краткий обзор форматов файлов и кодеков

Чтобы не ходить вокруг да около, вначале мы приведем краткую памятку по всем форматам файлов и различиям между ними. Если захотите узнать больше, ниже вы найдете более подробное описание различий в размерах, качестве звука и совместимости.

AAC (не является форматом Hi-Res-аудио). Ставшая популярной благодаря Apple альтернатива формату MP3. Со сжатием и потерями, но с более высоким качеством звука. Используется для скачивания с iTunes и трансляции с Apple Music.

AIFF (Hi-Res). Альтернатива WAV от Apple с более полными метаданными. Не особенно популярный формат без сжатия и потерь с файлами большого размера.

DSD (Hi-Res). Однобитный формат, применяемый в Super Audio CD. Существует в вариантах с частотой дискретизации 2,8 МГц, 5,6 МГц и 11,2 МГц. Из-за использования кодека высокого качества в настоящее время не применяется для стриминга. Формат без сжатия.

FLAC (Hi-Res). Формат со сжатием без потерь с поддержкой частот дискретизации, совместимых с Hi-Res, и хранением метаданных; размер файлов вдвое меньше, чем у WAV. Благодаря отсутствию лицензионных отчислений считается лучшим форматом для скачивания и хранения альбомов в Hi-Res-аудио. Его главный недостаток – отсутствие поддержки устройствами Apple (и, следовательно, несовместимость с iTunes).

MP3 (не является форматом Hi-Res-аудио). Популярный формат со сжатием и потерями с малым размером файла и далеко не самым высоким качеством звучания. Удобен для хранения музыки на смартфонах и плеерах iPod.

MQA (Hi-Res). Формат со сжатием для хранения Hi-Res-файлов в более удобной для стриминга форме. Используется сервисом Tidal Masters для трансляций Hi-Res-аудио.

OGG (не является форматом Hi-Res-аудио). Иногда называется полным именем – Ogg Vorbis. Альтернатива MP3 и AAC с открытым кодом, не подпадающая под действие патентов. Этот формат с битрейтом 320 кбит/с используется в трансляциях Spotify.

WAV (Hi-Res). Стандартный формат, в котором записаны все CD. Отличное качество звука, но огромный размер файлов из-за отсутствия сжатия. Слабая поддержка метаданных (обложек, названий песен и исполнителей).

WMA Lossless (Hi-Res). Версия Windows Media Audio без сжатия, поддержку которой уже не часто можно встретить в смартфонах и планшетах.

Аудиофайлы со сжатием и без него

Вначале рассмотрим три категории, в которые можно сгруппировать все форматы аудиофайлов. Они определяются степенью сжатия данных и связанным с ним уровнем потерь качества звучания.

Если для сжатия аудио в вашем файле не применялся специальный алгоритм (или кодек), это приведет к двойному результату: во-первых, потерь качества звучания не будет, во-вторых, место на вашем жестком диске скоро закончится.

По своей сути запись в формате без сжатия полностью соответствует оригинальному аудиофайлу, в котором зафиксированы в цифровом представлении реальные звуковые сигналы.

WAV, AIFF или FLAC: форматы без сжатия

WAV и AIFF можно назвать самыми популярными форматами аудиофайлов без сжатия. Оба они основаны на PCM (Pulse Code Modulation, импульсно-кодовой модуляции), широко известном механизме непосредственного преобразования аудиосигнала в цифровую форму. В WAV и в AIFF применяются схожие технологии, но методы хранения данных несколько различаются. В этих форматах можно записывать как файлы CD-качества, так и более высокого разрешения.

Формат WAV был разработан Microsoft и IBM, в силу чего применяется на платформах на базе Windows; он является стандартным форматом записи компакт-дисков.

Формат AIFF создан компанией Apple как альтернатива WAV; и хотя AIFF-файлы менее распространены, они обеспечивают более полную поддержку метаданных, позволяя хранить обложки альбомов, названия песен и тому подобную информацию.

Недостаток этих форматов – требование гигантских объемов памяти. Файлы CD-качества (16 бит, 44,1 кГц) занимают около 10 МБ дискового пространства на минуту звучания.

ALAC, FLAC, WMA Lossless: аудиоформаты без потерь

Все мы любим FLAC. Формат без потерь, файлы во FLAC (Free Lossless Audio Codec, бесплатный аудиокодек без потерь) по размеру почти вдвое меньше, чем в WAV или AIFF без сжатия с эквивалентной частотой дискретизации, однако в плане звучания никаких потерь качества не заметно. FLAC также поддерживает более высокое разрешение по сравнению с CD-качеством – до 32 бит и 192 кГц.

Помимо FLAC, есть и другие форматы без потерь – ALAC (Apple Lossless) и WMA Lossless (Windows Media Audio). Первый представляет собой отличную альтернативу для iOS и iTunes, хотя размер файлов чуть выше, чем у FLAC. Не все смартфоны и планшеты поддерживают его.

AAC и MP3: аудиоформаты с потерями

Кто не слышал про MP3? Все про него слышали. Этот самый распространенный аудиоформат удобен для хранения музыки на плеерах iPod или планшетах и поддерживается практически любыми устройствами. Однако для этого приходится жертвовать значительным объемом информации. Для того чтобы уменьшить размеры файлов на порядок по сравнению с записями в CD-качестве, необходимо отбросить значительный процент исходных данных, что приводит к потере качества звучания.

Битрейт, с которым записан MP3-файл, тоже влияет на качество звука. MP3 с битрейтом 128 кбит/с теряют больше информации, чем файлы с 320 кбит/с (это расшифровывается как «килобит в секунду», где каждый «бит», в сущности, представляет собой крохотный кусочек песни). Учитывая резкое снижение стоимости памяти, в наше время нет никаких причин слушать файлы с битрейтом 128 кбит/с; MP3 с 320 кбит/с имеют смысл при ограниченном объеме памяти, они также остаются стандартным форматом для скачивания файлов Интернет-магазинов.

Еще один формат с потерями, AAC (Advanced Audio Coding, усовершенствованное кодирование звука), также предполагает сжатие, как и MP3, но благодаря несколько более эффективным алгоритмам обеспечивает более качественный звук. AAC используется для скачивания с iTunes и трансляций с Apple Music (с битрейтом 256 кбит/с), а также в передачах с YouTube.

Формат Vorbis, нередко называемый Ogg Vorbis, чтобы подчеркнуть использование контейнера Ogg, представляет собой альтернативу MP3 и AAC с открытым кодом, не подпадающую под действие патентов. Этот формат с битрейтом 320 кбит/с используется в трансляциях Spotify.

Если вы планируете использовать форматы с потерей информации, учитывайте следующий факт: повышение числа «бит» обычно ведет к росту качества звучания, однако оно во многом зависит от эффективности кодека, с помощью которого выполняется преобразование файла. Если большая часть музыки в вашей коллекции закодирована с битрейтом 128 Кбит/с, то вы могли заметить, что, несмотря на принципиальное сходство звучания, из-за низкой эффективности кодека MP3-файлы, скорее всего, будут слушаться несколько хуже AAC или Ogg Vorbis.

Как насчет музыки в высоком разрешении?

В отличие от HD-видео, для аудио высокого разрешения пока не разработано универсального стандарта.

Если не вдаваться в подробности, под этим термином обычно понимаются записи с более высокой частотой дискретизации и/или разрядностью, чем у CD (т.е. 16 бит/44,1 кГц). Примерами Hi-Res-аудио могут служить файлы с параметрами 16 бит/96 кГц или 24 бит/192 кГц.

Благодаря наличию дополнительной аудиоинформации Hi-Res-файлы звучат намного лучше в сравнении с компрессированными файлами, теряющими эту информацию в процессе сжатия. Эти форматы требуют больше места на диске, но их качество определенно стоит таких затрат.

К Hi-Res-аудио относятся форматы без сжатия, такие как AIFF и WAV, а также без потерь – FLAC и ALAC. DSD (отчасти нишевый формат, применявшийся в Super Audio CD) также входит в категорию Hi-Res-аудио, но его поддерживает гораздо меньшее число устройств. Если говорить о стриминге, то такие сервисы, как Tidal Masters, используют упаковщик MQA, позволяющий передавать по сетям файлы в высоком разрешении с использованием минимально возможной полосы пропускания сигнала.

Что касается воспроизведения форматов Hi-Res-аудио, то сегодня его поддерживает уже немало устройств. 24-разрядные файлы способны проигрывать беспроводные колонки Denon HEOS, а также портативные музыкальные плееры премиум-класса – такие как Cowon Plenue D2 и Astell & Kern A&norma SR15.

Кроме того, с Hi-Res-аудио совместимы большинство флагманских моделей смартфонов под Android – например, удостоенный высших оценок Samsung Galaxy S10+ – однако прослушать их на новеньком iPhone вам сходу не удастся. Мы нашли способы обойти это ограничение, но нельзя забывать о том, что файлы Hi-Res-аудио пока еще не настолько компактны, как их аналоги в форматах с потерями.

Какой аудиоформат будет лучшим для вас?

Выбор формата зависит от того, что вас больше волнует – объем памяти или качество звучания – а также от того, с каким устройством вы намерены его использовать.

Популярность MP3 сложилась в эпоху, когда стоимость дискового пространства была очень высока. Сегодня смартфоны, музыкальные плееры и ноутбуки оснащаются памятью внушительного объема, так что есть смысл обратить внимание на форматы с качеством выше, чем у CD.

Если же вы решили архивировать свои аудиофайлы, FLAC или другой формат без потерь может стать неплохим вариантом. Они представляют собой удачный компромисс между уровнем сжатия и качеством звучания, позволяя слушать высококачественную цифровую музыку и сэкономить дисковое пространство. Только не забудьте проверить совместимость выбранного формата и имеющихся устройств.



Вся техника была протестирована в специальных комнатах «What Hi-Fi?»
https://www.whathifi.com/news/about-us

Подготовлено по материалам портала «What Hi-Fi?», март 2020 г.

Эту статью прочитали 365 537 раз

Аудио-кодирование: секреты раскрыты

Настройка аудио для видеозахвата и трансляции.

Как люди, непосредственно связанные с AV сферой, мы постоянно говорим об аудио-кодировании и аудиокодеках, а что же это такое? Аудиокодек – это, по сути, устройство или алгоритм, способный кодировать и декодировать цифровой аудиосигнал.

На практике аудиоволны, которые передаются по воздуху, являются продолжительными аналоговыми сигналами. Сигналы преобразуются в цифровой формат устройством, которое называется аналого-цифровой преобразователь (АЦП), а устройство обратного преобразования – цифро-аналоговый преобразователь (ЦАП). Кодек находится между этими двумя функциями и именно он позволяет откорректировать некоторые важные параметры для успешного захвата, записи и трансляции звукового сигнала: алгоритм кодека, частота дискретизации, разрядность и скорость передачи данных.

Три наиболее популярных аудиокодека: Pulse-Code Modulation (PCM), MP3 и Advanced Audio Coding (AAC). Выбор кодека определяет степень сжатия и качество записи. PCM – кодек, который используется компьютерами, CD-дисками, цифровыми телефонами и иногда SACD-дисками. Источник сигнала для PCM сэмплируется через равные интервалы, и каждый сэмпл представляет собой амплитуду аналогового сигнала в цифровом значении. PCM – это наиболее простой вариант для оцифровки аналогового сигнала.

При наличии правильных параметров этот оцифрованный сигнал может быть полностью реконструирован обратно в аналоговый без каких-либо потерь. Но этот кодек, обеспечивающий практически полную идентичность оригинальному аудио, к сожалению, не очень экономичен, что выражается в очень больших объемах файлов, а такие файлы не подходят для потокового вещания. Мы рекомендуем использовать PCM для записи цифровых образов для ваших источников или когда вы занимаетесь постобработкой аудио.

К счастью, у нас всегда есть возможность выбрать другой кодек, который может сжимать цифровые данные (по сравнению с PCM) на основании некоторых полезных наблюдений о поведении звуковых волн. Но в этом случае приходится идти на компромисс: все альтернативные алгоритмы сопряжены с «потерями», так как невозможно полностью восстановить исходный сигнал, но, тем не менее, результат всё равно хорош настолько, что большинство пользователей не смогут уловить разницу.

MP3 – это формат аудио-кодирования с использованием как раз такого алгоритма сжатия цифровых данных, который позволяет сохранять аудиосигнал в меньшие по объему файлы. Кодек MP3 чаще всего используется пользователями для записи и хранения музыкальных файлов. Мы рекомендуем применять MP3 для трансляций аудио-контента, так как ему требуется меньшая пропускная способность сети.

AAC – это более новый алгоритм кодирования аудиосигнала, ставший «преемником» MP3. AAC стал стандартом для форматов MPEG-2 и MPEG-4. По сути это тоже кодек сжатия цифровых данных, но с меньшей, чем у MP3, потерей качества при кодировании с одинаковыми битрейтами. Мы рекомендуем использовать этот кодек для онлайн трансляций.

Частота дискретизации (кГц, kHz)

Частота дискретизации (или частота сэмплирования) — частота, с которой происходит оцифровка, хранение, обработка или конвертация сигнала из аналога в цифру. Дискретизация по времени означает, что сигнал представляется рядом своих отсчетов (сэмплов), взятых через равные промежутки времени.

Измеряется в герцах (Гц, Hz) или килогерцах (кГц, kHz,) 1 кГц равен 1000 Гц. Например, 44 100 сэмплов в секунду можно обозначить как 44 100 Гц или 44,1 кГц. Выбранная частота дискретизации будет определять максимальную частоту воспроизведения, и, как следует из теоремы Котельникова, для того, чтобы полностью восстановить исходный сигнал, частота дискретизации должна в два раза превышать наибольшую частоту в спектре сигнала.

Как известно, человеческое ухо способно улавливать частоты между 20 Гц и 20 кГц. Учитывая эти параметры и значения, показанные в таблице ниже, можно понять, почему именно частота 44,1 кГц была выбрана в качестве частоты дискретизации для CD и до сих пор считается очень хорошей частотой для записи.

Есть ряд причин для выбора более высокой частоты дискретизации, хотя может показаться, что воспроизводить звук вне диапазона человеческого слуха – пустая трата сил и времени. При этом среднестатистическому слушателю будет вполне достаточно 44,1 – 48 кГц для качественного решения большинства задач.

Разрядность

Наряду с частотой дискретизации есть такое понятие как разрядность или глубина звука. Разрядность – это количество бит цифровой информации для кодирования каждого сэмпла. Проще говоря, разрядность определяет «точность» измерения входного сигнала. Чем больше разрядность, тем меньше погрешность каждого отдельного преобразования величины электрического сигнала в число и обратно. С минимальной возможной разрядностью есть только два варианта измерения точности звука: 0 для полной тишины и 1 для звучания в полном объеме. Если разрядность равна 8 (16), то при измерении входного сигнала может быть получено 28= 256 (216= 65 536) различных значений.

Разрядность закреплена в кодеке PCM, но для кодеков, которые предполагают сжатие (например, MP3 и AAC) этот параметр рассчитывается при кодировании и может меняться от сэмпла к сэмплу.

Битрейт

Битрейт — это показатель количества информации, которым кодируется одна секунда звучания. Чем он выше, тем меньше искажений и тем ближе закодированная композиция к оригиналу. Для линейного PCM битрейт рассчитывается очень просто.

битрейт = частота дискретизации × разрядность × каналы

Для таких систем как Epiphan Pearl Mini, которые кодируют линейный PCM 16-бит (разрядность 16), этот расчет может быть использован для определения, сколько дополнительных полос пропускания может потребоваться для PCM аудио. Например, для стерео (два канала) оцифровка сигнала производится с частотой 44,1 кГц на 16-бит, а битрейт при этом рассчитывается таким образом:

44,1 кГц × 16 бит × 2 = 1 411,2 кбит/с

Между тем алгоритмы сжатия аудиосигнала, такие как AAC и MP3, имеют меньшее количество бит для передачи сигнала (в этом и заключается их цель), поэтому они используют небольшие битрейты. Обычно значения находятся в диапазоне от 96 кбит/с до 320 кбит/с. Для этих кодеков чем выше битрейт вы выбираете, тем больше аудио бит вы получаете на сэмпл, и тем выше будет качество звучания.

Частота дискретизации, разрядность и битрейты в реальной жизни.

Аудио CD-диски, одни из первых наиболее популярных изобретений для простых пользователей для хранения цифрового аудио, использовали частоту 44,1 кГц (20 Гц – 20 кГц, диапазон человеческого уха) и разрядность 16-бит. Данные значения были выбраны, чтобы при хорошем качестве звука иметь возможность сохранять как можно больше аудио на диске.

Когда к аудио добавилось видео и появились DVD, а позднее Blu-Ray диски, был создан новый стандарт. Записи для DVD и Blu-Rays обычно используют линейный формат PCM с частотой 48 кГц (стерео) или 96 кГц (звук 5.1 Surround) и разрядность 24. Эти значения были выбраны в качестве идеального варианта, чтобы сохранять аудио с синхронизацией с видео и при этом получать максимально возможное качество с использованием дополнительного доступного дискового пространства.

Наши рекомендации

CD, DVD и Blu-Ray диски преследовали одну цель – дать потребителю высококачественный механизм воспроизведения. Задачей всех разработок было предоставить высокое качество аудио и видео, не заботясь о величине файла (лишь бы он умещался на диск). Такое качество мог обеспечить линейный PCM.

Напротив, у мобильных средств информации и потокового медиа совсем другая цель – использовать максимально низкий битрейт, при этом достаточный для поддержания приемлемого для слушателя качества. Для этой задачи лучше всего подходят алгоритмы сжатия. Теми же принципами вы можете руководствоваться для своих записей.

При записи аудио с видео…

В случае если запись будет использоваться для последующей обработки, выбирайте кодек PCM с частотой 48 кГц и максимальной разрядностью (16 или 24), чтобы обеспечить наилучшее качество аудио. Мы рекомендуем данные параметры для Epiphan Pearl Mini.

При потоковой передаче аудио с видео…

При потоковой передаче или записи для последующей трансляции можно получить хорошее звучание аудио при меньшей полосе пропускания, используя кодеки AAC или MP3 с частотой 44,1 кГц и битрейт 128 кбит/с или выше. Такие параметры гарантируют, что звук будет достаточно хорош и не скажется на качестве трансляции.

Представляем вашему вниманию статью с подробным разбором заголовка WAV-файла и его структуры.

Теория

Итак, рассмотрим самый обычный WAV файл (Windows PCM). Он представляет собой две, четко делящиеся, области. Одна из них — заголовок файла, другая — область данных. В заголовке файла хранится информация о:

  • Размере файла.
  • Количестве каналов.
  • Частоте дискретизации.
  • Количестве бит в сэмпле (эту величину ещё называют глубиной звучания).

Но для большего понимания смысла величин в заголовке следует ещё рассказать об области данных и оцифровке звука. Звук состоит из колебаний, которые при оцифровке приобретают ступенчатый вид. Этот вид обусловлен тем, что компьютер может воспроизводить в любой короткий промежуток времени звук определенной амплитуды (громкости) и этот короткий момент далеко не бесконечно короткий. Продолжительность этого промежутка и определяет частота дискретизации. Например, у нас файл с частотой дискретизации 44.1 kHz, это значит, что тот короткий промежуток времени равен 1/44100 секунды (следует из размерности величины Гц = 1/с). Современные звуковые карты поддерживают частоту дискретизации до 192 kHz. Так, со временем разобрались.

Амплитуда и сэмплы

Теперь, что касается амплитуды (громкости звука в коротком промежутке времени). Амплитуда выражается числом, которое занимает в файле 8, 16, 24, 32 бита (теоретически можно и больше). От точности амплитуды, я бы сказал, зависит точность звука. Как известно, 8 бит = 1 байту, следовательно, одно значение амплитуды в какой-то короткий промежуток времени в файле занимает 1, 2, 3, 4 байта соответственно. Таким образом, чем больше число занимает места в файле, тем шире возможный диапазон значений для этого числа, а значит и больше точность амплитуды.

Для PCM-файлов точность (или разрядность) может быть следующей:

  • 1 байт / 8 бит — -128…127
  • 2 байта / 16 бит — -32 760…32 760
  • 3 байта / 24 бита — -1…1 (с плавающей точкой)
  • 4 байта / 32 бита — -1…1 (с плавающей точкой)

Но список возможных разрядностей на самом деле весьма шире, здесь представлены лишь наиболее популярные.

Совокупность амплитуды и короткого промежутка времени носит название сэмпл.

Заголовок

Итак, давайте рассмотрим первую часть WAV-файла подробнее. Следующая таблица наглядно показывает структуру заголовка:

Местоположение Поле Описание
0…3 (4 байта) chunkId Содержит символы «RIFF» в ASCII кодировке 0x52494646. Является началом RIFF-цепочки.
4…7 (4 байта) chunkSize Это оставшийся размер цепочки, начиная с этой позиции. Иначе говоря, это размер файла минус 8, то есть, исключены поля chunkId и chunkSize.
8…11 (4 байта) format Содержит символы «WAVE» 0x57415645
12…15 (4 байта) subchunk1Id Содержит символы «fmt » 0x666d7420
16…19 (4 байта) subchunk1Size 16 для формата PCM. Это оставшийся размер подцепочки, начиная с этой позиции.
20…21 (2 байта) audioFormat Аудио формат, список допустипых форматов. Для PCM = 1 (то есть, Линейное квантование). Значения, отличающиеся от 1, обозначают некоторый формат сжатия.
22…23 (2 байта) numChannels Количество каналов. Моно = 1, Стерео = 2 и т.д.
24…27 (4 байта) sampleRate Частота дискретизации. 8000 Гц, 44100 Гц и т.д.
28…31 (4 байта) byteRate Количество байт, переданных за секунду воспроизведения.
32…33 (2 байта) blockAlign Количество байт для одного сэмпла, включая все каналы.
34…35 (2 байта) bitsPerSample Количество бит в сэмпле. Так называемая «глубина» или точность звучания. 8 бит, 16 бит и т.д.
36…39 (4 байта) subchunk2Id Содержит символы «data» 0x64617461
40…43 (4 байта) subchunk2Size Количество байт в области данных.
44… data Непосредственно WAV-данные.

Вот и весь заголовок, длина которого составляет 44 байта.

Подводные камни

Выше мы рассмотрели простейший случай заголовка с одной подцепочкой перед областью данных. Но на практике встречаются и более сложные или даже непредвиденные сценарии, с которыми можно увязнуть надолго.

  1. В chunkSize лежит заведомо слишком большое значение. Такое происходит, когда вы пытаетесь читать данные в режиме стриминга. Например, декодер LAME при выводе результата декодирования в STDOUT в этом поле возвращает значение 0x7FFFFFFF + 44 - 8, а в subchunk2Size0x7FFFFFFF (что равно максимальному значению 32-разрядного знакового целочисленного значения). Это объясняется тем, что декодер в таком режиме выдаёт результат не целиком, а небольшими наборами данных и не может заранее определить итоговый размер данных.

  2. Подцепочек может быть больше, чем две, например, при попытке декодировать аудио универсальным декодером ffmpeg 4.1.3 ffmpeg -i example.mp3 -f wav example.wav в декодированном файле помимо рассмотренных подцепочек fmt и data будет содержаться ещё одна LIST перед областью данных. Таким образом, когда вам понадобится добраться до данных, вам потребуется пропустить ненужные подцепочки, пока не встретится data. Это будет сделать не слишком сложно, так как можно читать ID подцепочки и её размер, и если она не data, то пропускать данные, основываясь на её размере.

Блок данных

В моно варианте значения амплитуды расположены последовательно. В стерео же, например, сначала идет значение амплитуды для левого канала, затем для правого, затем снова для левого и так далее.

Заметка о типах данных

При чтении заголовка можно применять разные типы данных. Например, в Си (MSVS) вместо массива char[4] можно использовать __int32 или DWORD, но тогда сравнение с какой-либо строковой константой, к примеру может оказаться не очень удобным. Также хотелось бы предостеречь вас на тему 64-битных операционных систем. А именно: всегда стоит помнить, что в языке Си тип переменной int в 64-битной системе будет иметь длину 8 байт, а в 32-битной — 4 байта. В таких случаях можно воспользоваться вышеупомянутым типом переменной __int32 или __int64, в зависимости от того, какой размер переменной в памяти Вам необходим. Существуют типы __int8, __int16, __int32 и __int64, они доступны только для MSVC++ компилятора как минимум 7-й версии (Microsoft Visual Studio 2003.NET), но зато Вы не ошибетесь с выбором размера типа данных.

Примеры реализации

На языке C++

На языке C#

На Node.js из STDIN

  • Кодеки для windows 10 что это
  • Кодеки на микрофон на windows 10
  • Коди скачать бесплатно на русском для windows
  • Кодеки для windows 7 x32
  • Кодеки скачать k lite codec pack для windows 10 64 bit на русском торрент