Системы распознавания речи

Принципы работы систем распознавания речи

Системы автоматического распознавания речи (СРР) являются технической реализацией преобразования акустического сигнала речи в последовательность символов (обычно текст), с сохранением лексического и синтаксического содержания высказывания. Эти системы лежат на стыке нескольких научных дисциплин: акустики, лингвистики, математической статистики, информатики и нейронаук.


Акустическая модель: связь между звуком и фонемой

Основу любой СРР составляет акустическая модель, отражающая вероятностную связь между кратковременными участками речевого сигнала и соответствующими им фонетическими единицами — фонемами. На практике речевой сигнал разбивается на окна длительностью около 10–25 мс, для каждого из которых рассчитываются акустические признаки (например, мел-кепстральные коэффициенты — MFCC, спектральные энвелопы, логарифм энергии и др.).

Математически модель описывает вероятность P(xt|st), где xt — вектор признаков, полученный из акустического сигнала в момент времени t, а st — фонетическое состояние. Чаще всего применяются скрытые марковские модели (Hidden Markov Models, HMM), в которых последовательность фонем представлена как цепь состояний с вероятностями переходов между ними, а каждое состояние ассоциируется с вероятностным распределением акустических признаков.


Лингвистическая модель: построение допустимых последовательностей слов

Для повышения точности распознавания используются языковые модели, учитывающие статистику появления слов и их последовательностей. Наиболее распространены n-граммные модели, в которых вероятность слова wn зависит от нескольких предыдущих слов:

P(wn|wn − 1, wn − 2, …, wn − (n − 1))

Для больших объемов данных применяются нейросетевые языковые модели, использующие рекуррентные (RNN) или трансформерные архитектуры. Эти модели обеспечивают более широкую контекстуальную зависимость и точное моделирование грамматических конструкций.


Декодер: выбор наиболее вероятной гипотезы

Декодер — это алгоритмическое ядро СРР, которое объединяет акустическую и языковую модели для нахождения наиболее вероятной последовательности слов W, вызвавшей наблюдаемый сигнал X:

 = arg maxWP(W|X)

Применяя байесовское правило, задача сводится к максимизации произведения:

 = arg maxWP(X|W)P(W)

где P(X|W) — вероятность сигнала при условии данной последовательности слов (по акустической модели), а P(W) — априорная вероятность появления слов (по языковой модели). Для поиска оптимальной последовательности используется алгоритм Витерби или его вариации, включая beam search и token passing.


Нейросетевые подходы: end-to-end системы

Современные системы всё чаще реализуются в рамках end-to-end архитектур, в которых цепочка «звук → текст» моделируется напрямую, без явного выделения фонем, слов и грамматических структур. Такие системы обучаются по принципу глобальной оптимизации: выходом нейросети сразу становится вероятность последовательности символов.

Наиболее известные архитектуры:

  • CTC (Connectionist Temporal Classification) — позволяет распознавать выровненные последовательности без точной разметки.
  • Sequence-to-sequence с вниманием (attention) — применяется, например, в архитектурах типа Listen-Attend-Spell.
  • Трансформеры (например, Whisper, wav2vec 2.0, Conformer) — достигают рекордной точности распознавания за счёт глубоких обучаемых слоёв и самовнимания.

Предобработка сигнала и извлечение признаков

Качество распознавания напрямую зависит от корректной обработки входного сигнала. Основные этапы:

  • Нормализация громкости и частоты дискретизации;
  • Удаление тишины и шумов с помощью спектральных вычитаний, VAD (Voice Activity Detection);
  • Окно Хэмминга и преобразование Фурье;
  • Мел-спектральное преобразование;
  • Кепстральный анализ (MFCC, PLP, LPC);
  • Извлечение производных признаков (Δ, ΔΔ коэффициенты).

На выходе формируется признаковое пространство, оптимальное для последующей статистической или нейросетевой обработки.


Обработка вариативности речи

Речь отличается высокой изменчивостью: тембр, акцент, скорость, шумовая обстановка, артикуляционные особенности. Для повышения устойчивости к этим факторам применяются:

  • Адаптация акустической модели (например, fMLLR, i-vector, x-vector);
  • Аугментация данных (speed perturbation, SpecAugment);
  • Нормализация признаков (CMVN — cepstral mean and variance normalization);
  • Инвариантное обучение (domain adversarial training);
  • Многоязычные и многоакцентные модели.

Корпусы данных и обучение

Обучение систем распознавания требует обширных корпусов аудиозаписей, снабжённых точной транскрипцией. Примеры:

  • LibriSpeech — англоязычный корпус с озвученными книгами;
  • Common Voice (Mozilla) — открытый многоязычный набор данных;
  • Switchboard, TED-LIUM, AISHELL, VoxCeleb и др.

Обучение происходит на мощных GPU-кластерах с использованием фреймворков PyTorch, TensorFlow, ESPnet, Kaldi. Проводится как супервизорное обучение, так и самообучение, позволяющее использовать неразмеченные данные.


Оценка качества распознавания

Главный показатель точности СРР — коэффициент ошибок в словах (WER, word error rate):

$$ WER = \frac{S + D + I}{N} $$

где:

  • S — количество замен слов;
  • D — количество пропущенных слов;
  • I — количество вставленных слов;
  • N — общее число слов в эталоне.

Для фонемных или символьных моделей используется аналогичный показатель — CER (character error rate). Современные модели (особенно трансформерные) способны достигать WER менее 5% на чистых данных.


Интеграция в прикладные системы

Системы распознавания речи находят широкое применение:

  • голосовые помощники (Siri, Alexa, Google Assistant);
  • транскрибирование лекций и конференций;
  • голосовой ввод текста и управление;
  • системы автоматического субтитрования;
  • судебная и медицинская документация;
  • речевые интерфейсы в автомобилях, смарт-устройствах.

Для реального времени важны параметры задержки, устойчивости к шуму и скорости обработки, обеспечиваемые оптимизированными моделями и аппаратными средствами (DSP, FPGA, мобильные нейропроцессоры).


Развитие и перспективы

Современные исследования направлены на создание универсальных речевых моделей, способных работать с десятками языков и их диалектов без дополнительного обучения. Значительное внимание уделяется мультимодальности (сочетание речи и изображения), самообучающимся системам, малоресурсным языкам и устойчивости к акустическим искажениями.

Использование предобученных речевых моделей (например, wav2vec 2.0, HuBERT, Whisper) становится доминирующим направлением в разработке распознавания речи. Эти модели обучаются на сотнях тысяч часов речевых данных и демонстрируют высокую точность даже на незнакомых языках и в шумных условиях.