Спектральные характеристики речи

Речь человека представляет собой сложный акустический сигнал, который можно представить как суперпозицию звуковых колебаний различной частоты и амплитуды. Эти составляющие могут быть выделены и проанализированы с помощью спектрального анализа. Основной задачей спектрального анализа является определение частотных компонентов речевого сигнала и их амплитудно-временных характеристик. Полученные данные отображаются в виде спектров или спектрограмм, которые позволяют визуализировать временное и частотное развитие речи.

Речевой сигнал как нестационарный процесс

Речь — это яркий пример нестационарного сигнала, поскольку его параметры непрерывно изменяются во времени. При спектральном анализе речи применяется методика коротковременного (окнами) преобразования Фурье, позволяющая выделить спектральные характеристики на малых участках сигнала, где он условно считается квазистационарным. Типичная длина окна анализа составляет от 20 до 40 мс, поскольку за это время речевой тракт сохраняет относительно постоянную конфигурацию.

Основные составляющие спектра речи

1. Фундаментальная частота (F₀)

Фундаментальная частота — это частота основного тона, связанная с частотой колебаний голосовых связок. У мужчин она составляет в среднем 85–180 Гц, у женщин — 165–255 Гц. F₀ определяет высоту голоса, но сама по себе не является компонентом формантной структуры.

2. Гармоники

На основе F₀ формируется гармонический спектр — множество составляющих, кратных фундаментальной частоте. Гармоники формируют основу спектра звонких звуков и активно взаимодействуют с фильтрующей функцией речевого тракта.

3. Форманты

Форманты — это резонансные пики в спектре речи, возникающие в результате фильтрации звука голосовыми путями. Они определяют акустическую идентичность гласных и некоторых согласных. Наиболее значимы первые три форманты (F₁, F₂, F₃), параметры которых определяются положением и формой ротовой полости, положением языка и губ.

Примерные значения формант для гласных:

Гласный	F₁ (Гц)	F₂ (Гц)
[и]	240	2400
[э]	610	1900
[а]	730	1090
[о]	570	840
[у]	300	870

4. Шумовые компоненты

Для фрикативных и взрывных согласных спектр содержит шумовые составляющие, не кратные F₀. Шум в спектре — это результат турбулентного воздушного потока. Характер распределения шумовой энергии (широкополосный, высокочастотный, направленный и т.д.) определяет акустическую природу согласных звуков.

Спектральные особенности различных классов речевых звуков

Гласные

Гласные имеют устойчивую формантную структуру, их спектр концентрирован в низко- и среднечастотной области. Высота гласного определяется F₀, а его тембр — расположением формант.

Сonorant’ы (сонорные согласные)

Сонорные согласные, такие как [м], [н], [л], [р], имеют выраженные форманты, но менее ярко выраженные, чем у гласных. Спектр часто демонстрирует ослабление высокочастотных компонентов.

Фрикативы и аффрикаты

Эти звуки имеют широкий шумовой спектр. Например, [с] и [ш] отличаются по месту шума: у [с] пик спектра выше (часто около 4–8 кГц), у [ш] — ниже (примерно 2–4 кГц). Анализ этих спектров позволяет различать согласные по акустическим признакам.

Взрывные согласные

Характеризуются кратковременными всплесками энергии — шумами взрыва, сопровождающимися переходными формантными движениями. Эти переходы содержат важную информацию о месте и способе артикуляции.

Спектрограмма речи

Спектрограмма — это визуальное представление временного изменения спектра сигнала. Горизонтальная ось — время, вертикальная — частота, интенсивность отображается цветом или яркостью. Светлые участки указывают на высокую амплитуду на данной частоте.

Типичные особенности спектрограммы речи:

Четкие горизонтальные полосы — форманты гласных.
Быстрые переходы формант — признаки артикуляционных движений.
Высокочастотный шум — фрикативные согласные.
Взрывные шумы — краткие всплески энергии.

Влияние артикуляции на спектр

Изменения в артикуляционной конфигурации речевого тракта приводят к сдвигу формантных частот. Поднятие языка снижает F₁, сужение передней части рта повышает F₂. Таким образом, спектральная структура напрямую зависит от моторных параметров речи.

Роль спектральных характеристик в распознавании речи

Спектральные характеристики используются для автоматического и слухового распознавания речи. Распознающие системы извлекают спектрограммы, затем применяют алгоритмы, такие как MFCC (мел-кепстральные коэффициенты), для выделения признаков. Человек же ориентируется на формантную структуру, переходы между звуками и шумовые компоненты.

Воздействие речевой патологии на спектр

Патологии речевого аппарата отражаются в спектре:

Нечеткая артикуляция снижает стабильность формант.
Дисфония изменяет спектр гармоник.
Аномалии речевого дыхания влияют на шумовые составляющие.

Акустический анализ спектра является диагностическим инструментом в логопедии и фониатрии.

Физические методы регистрации и анализа

Для спектрального анализа применяются:

Микрофоны с широким частотным диапазоном;
Аналого-цифровые преобразователи высокой разрядности;
Программное обеспечение на основе БПФ (быстрого преобразования Фурье), вейвлет-преобразований, LPC-анализов и др.

Частотный диапазон, интересующий акустиков речи, обычно составляет 50–8000 Гц, однако для профессионального анализа полезно регистрировать до 16 кГц.

Энергетическое распределение в спектре речи

Речь характеризуется неравномерным распределением энергии: наибольшая мощность сконцентрирована в диапазоне 100–1000 Гц. Это объясняет особенности передачи речи через телефонные линии, ограничивающие полосу до 300–3400 Гц. Тем не менее, высокочастотные компоненты важны для различения согласных и детальной фонетической информации.

Особенности спектра речи у разных людей

Спектр речи индивидуален: он зависит от длины и формы речевого тракта, голоса, акцента и речевых привычек. Это позволяет проводить идентификацию личности по голосу. Биометрическая верификация на основе спектральных признаков применяется в системах безопасности.

Спектральные корреляты просодии

Интонация, ударение и ритм отражаются в изменениях спектра:

Увеличение F₀ и усиление формант соответствует ударным слогам;
Мелодия фразы отражается в контуре F₀;
Темп речи влияет на сглаженность или резкость спектральных переходов.

Таким образом, спектральные характеристики не только описывают фонетическое содержание, но и передают синтаксические и эмоциональные аспекты речи.

Акустическая редукция и спектр

Редукция — ослабление или упрощение звуков в беглой речи — приводит к исчезновению четких формант и снижению спектральной яркости. Часто наблюдается слияние звуков, пропуск согласных, смещение формантных максимумов.

Это явление имеет важное значение для автоматических систем распознавания речи, поскольку они должны учитывать изменчивость спектра в естественной разговорной речи.

Применение спектрального анализа в науке и технологиях

Спектральные методы применяются:

В фонетике — для описания и классификации звуков речи;
В лингвистике — для исследования интонации, ударения, акцентов;
В медицине — для диагностики голосовых патологий;
В криминалистике — для идентификации говорящего;
В технике — для распознавания, синтеза и кодирования речи.