Системы распознавания речи

Принципы работы систем распознавания речи

Системы автоматического распознавания речи (СРР) являются технической реализацией преобразования акустического сигнала речи в последовательность символов (обычно текст), с сохранением лексического и синтаксического содержания высказывания. Эти системы лежат на стыке нескольких научных дисциплин: акустики, лингвистики, математической статистики, информатики и нейронаук.

Акустическая модель: связь между звуком и фонемой

Основу любой СРР составляет акустическая модель, отражающая вероятностную связь между кратковременными участками речевого сигнала и соответствующими им фонетическими единицами — фонемами. На практике речевой сигнал разбивается на окна длительностью около 10–25 мс, для каждого из которых рассчитываются акустические признаки (например, мел-кепстральные коэффициенты — MFCC, спектральные энвелопы, логарифм энергии и др.).

Математически модель описывает вероятность P(x_t|s_t), где x_t — вектор признаков, полученный из акустического сигнала в момент времени t, а s_t — фонетическое состояние. Чаще всего применяются скрытые марковские модели (Hidden Markov Models, HMM), в которых последовательность фонем представлена как цепь состояний с вероятностями переходов между ними, а каждое состояние ассоциируется с вероятностным распределением акустических признаков.

Лингвистическая модель: построение допустимых последовательностей слов

Для повышения точности распознавания используются языковые модели, учитывающие статистику появления слов и их последовательностей. Наиболее распространены n-граммные модели, в которых вероятность слова w_n зависит от нескольких предыдущих слов:

P(w_n|w_n − 1, w_n − 2, …, w_{n − (n − 1)})

Для больших объемов данных применяются нейросетевые языковые модели, использующие рекуррентные (RNN) или трансформерные архитектуры. Эти модели обеспечивают более широкую контекстуальную зависимость и точное моделирование грамматических конструкций.

Декодер: выбор наиболее вероятной гипотезы

Декодер — это алгоритмическое ядро СРР, которое объединяет акустическую и языковую модели для нахождения наиболее вероятной последовательности слов W, вызвавшей наблюдаемый сигнал X:

Ŵ = arg max_WP(W|X)

Применяя байесовское правило, задача сводится к максимизации произведения:

Ŵ = arg max_WP(X|W)P(W)

где P(X|W) — вероятность сигнала при условии данной последовательности слов (по акустической модели), а P(W) — априорная вероятность появления слов (по языковой модели). Для поиска оптимальной последовательности используется алгоритм Витерби или его вариации, включая beam search и token passing.

Нейросетевые подходы: end-to-end системы

Современные системы всё чаще реализуются в рамках end-to-end архитектур, в которых цепочка «звук → текст» моделируется напрямую, без явного выделения фонем, слов и грамматических структур. Такие системы обучаются по принципу глобальной оптимизации: выходом нейросети сразу становится вероятность последовательности символов.

Наиболее известные архитектуры:

CTC (Connectionist Temporal Classification) — позволяет распознавать выровненные последовательности без точной разметки.
Sequence-to-sequence с вниманием (attention) — применяется, например, в архитектурах типа Listen-Attend-Spell.
Трансформеры (например, Whisper, wav2vec 2.0, Conformer) — достигают рекордной точности распознавания за счёт глубоких обучаемых слоёв и самовнимания.

Предобработка сигнала и извлечение признаков

Качество распознавания напрямую зависит от корректной обработки входного сигнала. Основные этапы:

Нормализация громкости и частоты дискретизации;
Удаление тишины и шумов с помощью спектральных вычитаний, VAD (Voice Activity Detection);
Окно Хэмминга и преобразование Фурье;
Мел-спектральное преобразование;
Кепстральный анализ (MFCC, PLP, LPC);
Извлечение производных признаков (Δ, ΔΔ коэффициенты).

На выходе формируется признаковое пространство, оптимальное для последующей статистической или нейросетевой обработки.

Обработка вариативности речи

Речь отличается высокой изменчивостью: тембр, акцент, скорость, шумовая обстановка, артикуляционные особенности. Для повышения устойчивости к этим факторам применяются:

Адаптация акустической модели (например, fMLLR, i-vector, x-vector);
Аугментация данных (speed perturbation, SpecAugment);
Нормализация признаков (CMVN — cepstral mean and variance normalization);
Инвариантное обучение (domain adversarial training);
Многоязычные и многоакцентные модели.

Корпусы данных и обучение

Обучение систем распознавания требует обширных корпусов аудиозаписей, снабжённых точной транскрипцией. Примеры:

LibriSpeech — англоязычный корпус с озвученными книгами;
Common Voice (Mozilla) — открытый многоязычный набор данных;
Switchboard, TED-LIUM, AISHELL, VoxCeleb и др.

Обучение происходит на мощных GPU-кластерах с использованием фреймворков PyTorch, TensorFlow, ESPnet, Kaldi. Проводится как супервизорное обучение, так и самообучение, позволяющее использовать неразмеченные данные.

Оценка качества распознавания

Главный показатель точности СРР — коэффициент ошибок в словах (WER, word error rate):

$$ WER = \frac{S + D + I}{N} $$

где:

S — количество замен слов;
D — количество пропущенных слов;
I — количество вставленных слов;
N — общее число слов в эталоне.

Для фонемных или символьных моделей используется аналогичный показатель — CER (character error rate). Современные модели (особенно трансформерные) способны достигать WER менее 5% на чистых данных.

Интеграция в прикладные системы

Системы распознавания речи находят широкое применение:

голосовые помощники (Siri, Alexa, Google Assistant);
транскрибирование лекций и конференций;
голосовой ввод текста и управление;
системы автоматического субтитрования;
судебная и медицинская документация;
речевые интерфейсы в автомобилях, смарт-устройствах.

Для реального времени важны параметры задержки, устойчивости к шуму и скорости обработки, обеспечиваемые оптимизированными моделями и аппаратными средствами (DSP, FPGA, мобильные нейропроцессоры).

Развитие и перспективы

Современные исследования направлены на создание универсальных речевых моделей, способных работать с десятками языков и их диалектов без дополнительного обучения. Значительное внимание уделяется мультимодальности (сочетание речи и изображения), самообучающимся системам, малоресурсным языкам и устойчивости к акустическим искажениями.

Использование предобученных речевых моделей (например, wav2vec 2.0, HuBERT, Whisper) становится доминирующим направлением в разработке распознавания речи. Эти модели обучаются на сотнях тысяч часов речевых данных и демонстрируют высокую точность даже на незнакомых языках и в шумных условиях.