Компрессия звука

Компрессия звука — это процесс уменьшения объёма цифровых или аналоговых аудиоданных без существенного ухудшения воспринимаемого качества. С физической и акустической точки зрения компрессия основывается на особенностях восприятия звука человеком и на статистических характеристиках звуковых сигналов. Методы компрессии играют важную роль в передаче, хранении и обработке звука, особенно в условиях ограниченного канала связи или объёма памяти.


Виды компрессии: с потерями и без потерь

Компрессия без потерь (lossless) сохраняет исходные данные в полном объёме. После декомпрессии можно восстановить точную копию оригинального сигнала. Используется, например, в форматах FLAC и ALAC.

Компрессия с потерями (lossy) удаляет компоненты звукового сигнала, малозаметные для слуха человека, опираясь на психоакустические модели. Такая компрессия достигает значительно более высокого коэффициента сжатия, как, например, в форматах MP3, AAC, Ogg Vorbis.


Психоакустические основы компрессии

Человеческое ухо не одинаково чувствительно ко всем частотам. Это позволяет удалять или понижать амплитуду компонентов, которые находятся:

  • ниже порога слышимости, заданного кривыми равной громкости (например, кривые Флетчера–Мансона);
  • в тени маскирующих частот, когда сильный звук на определённой частоте делает незаметным более слабые соседние частоты (эффект спектральной маскировки);
  • во временной маскировке, когда громкий звук «заглушает» тише прозвучавший сразу до или после него сигнал.

Эти особенности учитываются в кодеках с потерями, особенно в стандартах MPEG, где используются модели маскировки и слухового восприятия.


Физико-математические аспекты анализа сигнала при компрессии

Компрессия невозможна без детального анализа звукового сигнала. Для этого применяются следующие математические методы:

  • Дискретное косинус-преобразование (DCT): позволяет выделить доминирующие частоты в блоке сигнала, с последующим удалением малозначимых коэффициентов.
  • Быстрое преобразование Фурье (FFT) и волнет-преобразования: используются для локального анализа частотного состава, особенно в переменных во времени сигналах.
  • Квантование: преобразование непрерывного диапазона значений в ограниченное число уровней. Потери возникают при округлении значений, но именно квантование обеспечивает большую степень сжатия.

После частотного преобразования и квантования применяется энтропийное кодирование (например, кодирование Хаффмана), при котором часто встречающиеся элементы кодируются короткими битовыми последовательностями.


Принципы кодирования звука

1. Блочное преобразование. Сигнал разбивается на короткие отрезки (фреймы), каждый из которых анализируется отдельно. Это позволяет учитывать временные изменения спектра.

2. Перекрытие блоков. Чтобы избежать артефактов на границах фреймов, применяют перекрытие блоков и оконные функции (например, окно Ханна или Блэкмана-Харриса).

3. Психоакустическая модель. Каждому фрейму сигнала сопоставляется спектральная маска, определяющая, какие компоненты сигнала подлежат удалению или грубому квантованию.

4. Алгоритмы кодирования. После анализа и квантования данные кодируются при помощи алгоритмов переменной длины (например, Huffman coding) или арифметического кодирования, с целью минимизации длины итогового битового потока.


Форматы сжатия и их особенности

MP3 (MPEG-1 Layer III): использует частотный анализ с фильтрами и DCT, а также встроенные психоакустические модели. Поддерживает переменный и постоянный битрейт.

AAC (Advanced Audio Coding): более современный алгоритм, улучшенная частотная разложимость, лучшая маскировка, эффективность на низких битрейтах.

FLAC: формат без потерь. Использует предсказание сигнала (linear predictive coding) и энтропийное кодирование без удаления информации.

Opus: гибридный кодек, сочетающий CELT (для широкополосного аудио) и SILK (для речи). Используется в реальном времени в VoIP и стриминге.


Компрессия и качество звука: акустический анализ

Качество звука после компрессии зависит от нескольких факторов:

  • Битрейт: чем выше, тем меньше потерь, но больше размер файла;
  • Пороговые эффекты: искажения заметны при сильном квантовании или удалении информации в области низких уровней сигнала;
  • Тип материала: сложные музыкальные произведения (симфония, джаз) тяжелее сжимаются без потерь качества, чем речь или простые сигналы.

Физические искажения проявляются как:

  • артефакты: металлическое звучание, искажения атаки и тембра;
  • потеря детализации: особенно в высокочастотной области;
  • снижение динамического диапазона: компрессия может уменьшать различие между тихими и громкими участками.

Акустическое восприятие и субъективная оценка

Важной задачей является субъективная оценка качества звука после компрессии. Существуют стандартизованные методы:

  • MOS (Mean Opinion Score) — субъективная шкала качества от 1 до 5;
  • PESQ (Perceptual Evaluation of Speech Quality) — алгоритмическая модель оценки речи;
  • PEAQ (Perceptual Evaluation of Audio Quality) — для широкополосного аудио.

Оценка проводится с учётом воспринимаемой громкости, тембральной окраски, чистоты звучания, наличия артефактов и устойчивости в условиях переменного канала передачи.


Роль компрессии в акустических приложениях

Компрессия играет важнейшую роль в самых разных областях акустики:

  • Телефония и VoIP: компрессия речи позволяет экономить пропускную способность.
  • Музыкальные стриминговые сервисы: эффективная передача аудио при ограниченном интернете.
  • Слуховые аппараты и системы усиления: встроенные алгоритмы компрессии и обработки речи.
  • Акустическая телеметрия: при передаче звуковой информации через среду с ограниченной полосой пропускания.

Связь с физиологией слуха и акустикой среды

Компрессия не может быть универсальной без учёта характеристик слуха человека и параметров среды:

  • Окружающий шум: в шумной обстановке допустимы более агрессивные алгоритмы компрессии, так как слабые искажения незаметны.
  • Тип акустического сигнала: для музыки предпочтительна компрессия с высокой точностью сохранения спектра, для речи — с сохранением разборчивости и интонации.
  • Акустическая среда воспроизведения: качественные наушники или студийные мониторы выявляют даже минимальные искажения, в то время как обычные динамики их маскируют.

Современные подходы и перспективы

Развитие методов машинного обучения и нейросетевых моделей привело к появлению обучаемых кодеков (например, Lyra от Google или Encodec от Meta). Такие алгоритмы обучаются на огромных объёмах данных и могут находить более эффективные формы представления сигнала, с меньшими потерями и более точным сохранением акустически значимых деталей.

Новые подходы включают:

  • векторное квантование в скрытом пространстве (latent space);
  • использование генеративных моделей для восстановления утерянной информации;
  • интеграцию анализа сцены и контекста прослушивания.

Таким образом, компрессия звука уже давно перестала быть чисто инженерной задачей и стала областью, тесно связанной с физикой звука, физиологией слуха, цифровой обработкой сигналов и психоакустикой.