Речь человека представляет собой сложный акустический сигнал, который можно представить как суперпозицию звуковых колебаний различной частоты и амплитуды. Эти составляющие могут быть выделены и проанализированы с помощью спектрального анализа. Основной задачей спектрального анализа является определение частотных компонентов речевого сигнала и их амплитудно-временных характеристик. Полученные данные отображаются в виде спектров или спектрограмм, которые позволяют визуализировать временное и частотное развитие речи.
Речь — это яркий пример нестационарного сигнала, поскольку его параметры непрерывно изменяются во времени. При спектральном анализе речи применяется методика коротковременного (окнами) преобразования Фурье, позволяющая выделить спектральные характеристики на малых участках сигнала, где он условно считается квазистационарным. Типичная длина окна анализа составляет от 20 до 40 мс, поскольку за это время речевой тракт сохраняет относительно постоянную конфигурацию.
Фундаментальная частота — это частота основного тона, связанная с частотой колебаний голосовых связок. У мужчин она составляет в среднем 85–180 Гц, у женщин — 165–255 Гц. F₀ определяет высоту голоса, но сама по себе не является компонентом формантной структуры.
На основе F₀ формируется гармонический спектр — множество составляющих, кратных фундаментальной частоте. Гармоники формируют основу спектра звонких звуков и активно взаимодействуют с фильтрующей функцией речевого тракта.
Форманты — это резонансные пики в спектре речи, возникающие в результате фильтрации звука голосовыми путями. Они определяют акустическую идентичность гласных и некоторых согласных. Наиболее значимы первые три форманты (F₁, F₂, F₃), параметры которых определяются положением и формой ротовой полости, положением языка и губ.
Примерные значения формант для гласных:
Гласный | F₁ (Гц) | F₂ (Гц) |
---|---|---|
[и] | 240 | 2400 |
[э] | 610 | 1900 |
[а] | 730 | 1090 |
[о] | 570 | 840 |
[у] | 300 | 870 |
Для фрикативных и взрывных согласных спектр содержит шумовые составляющие, не кратные F₀. Шум в спектре — это результат турбулентного воздушного потока. Характер распределения шумовой энергии (широкополосный, высокочастотный, направленный и т.д.) определяет акустическую природу согласных звуков.
Гласные имеют устойчивую формантную структуру, их спектр концентрирован в низко- и среднечастотной области. Высота гласного определяется F₀, а его тембр — расположением формант.
Сонорные согласные, такие как [м], [н], [л], [р], имеют выраженные форманты, но менее ярко выраженные, чем у гласных. Спектр часто демонстрирует ослабление высокочастотных компонентов.
Эти звуки имеют широкий шумовой спектр. Например, [с] и [ш] отличаются по месту шума: у [с] пик спектра выше (часто около 4–8 кГц), у [ш] — ниже (примерно 2–4 кГц). Анализ этих спектров позволяет различать согласные по акустическим признакам.
Характеризуются кратковременными всплесками энергии — шумами взрыва, сопровождающимися переходными формантными движениями. Эти переходы содержат важную информацию о месте и способе артикуляции.
Спектрограмма — это визуальное представление временного изменения спектра сигнала. Горизонтальная ось — время, вертикальная — частота, интенсивность отображается цветом или яркостью. Светлые участки указывают на высокую амплитуду на данной частоте.
Типичные особенности спектрограммы речи:
Изменения в артикуляционной конфигурации речевого тракта приводят к сдвигу формантных частот. Поднятие языка снижает F₁, сужение передней части рта повышает F₂. Таким образом, спектральная структура напрямую зависит от моторных параметров речи.
Спектральные характеристики используются для автоматического и слухового распознавания речи. Распознающие системы извлекают спектрограммы, затем применяют алгоритмы, такие как MFCC (мел-кепстральные коэффициенты), для выделения признаков. Человек же ориентируется на формантную структуру, переходы между звуками и шумовые компоненты.
Патологии речевого аппарата отражаются в спектре:
Акустический анализ спектра является диагностическим инструментом в логопедии и фониатрии.
Для спектрального анализа применяются:
Частотный диапазон, интересующий акустиков речи, обычно составляет 50–8000 Гц, однако для профессионального анализа полезно регистрировать до 16 кГц.
Речь характеризуется неравномерным распределением энергии: наибольшая мощность сконцентрирована в диапазоне 100–1000 Гц. Это объясняет особенности передачи речи через телефонные линии, ограничивающие полосу до 300–3400 Гц. Тем не менее, высокочастотные компоненты важны для различения согласных и детальной фонетической информации.
Спектр речи индивидуален: он зависит от длины и формы речевого тракта, голоса, акцента и речевых привычек. Это позволяет проводить идентификацию личности по голосу. Биометрическая верификация на основе спектральных признаков применяется в системах безопасности.
Интонация, ударение и ритм отражаются в изменениях спектра:
Таким образом, спектральные характеристики не только описывают фонетическое содержание, но и передают синтаксические и эмоциональные аспекты речи.
Редукция — ослабление или упрощение звуков в беглой речи — приводит к исчезновению четких формант и снижению спектральной яркости. Часто наблюдается слияние звуков, пропуск согласных, смещение формантных максимумов.
Это явление имеет важное значение для автоматических систем распознавания речи, поскольку они должны учитывать изменчивость спектра в естественной разговорной речи.
Спектральные методы применяются: