Распознавание речи (STT) — это то, с чего начинается понимание у голосового агента. Если он ослышался, дальше всё неверно — агент отвечает на вопрос, которого не было. На реальных телефонных линиях, с шумом, акцентами и смешением языков, добиться этого куда сложнее, чем в чистых демо.
Приложение для диктовки рассчитывает на одного говорящего, хороший микрофон и тишину. У колл-центра нет ничего из этого. Клиенты говорят на фоне шума, переключаются между узбекским и русским посреди фразы, используют диалект и звучат через сжатый телефонный кодек, который выбрасывает часть сигнала.
Каждое из этих условий по отдельности — уже вызов. Вместе — шумная линия, фраза с переключением языка, незнакомое имя — это именно те условия, в которых универсальное распознавание тихо ломается.
Почему универсальные модели не справляются
Большинство крупных речевых моделей видят мало узбекского при обучении. Они могут его расшифровать, но упускают контекст — местные имена, названия, то, как реально проговаривают числа и адреса по телефону.
Распознавание NavAI настроено на тысячах часов живой узбекской речи, а не переведённого текста. Это и есть разница между расшифровкой слов и реальным пониманием того, как люди на этом рынке говорят.
Система также рассчитана на двуязычные звонки. Клиент, который начинает на узбекском и переходит на русский ради технического термина, не должен ломать агента — здесь такое переключение нормально, и система его ожидает.
От слов к действию
Хороший STT — не финиш, а старт. Когда слова распознаны верно, агент должен извлечь намерение и действовать: открыть заказ, записать на слот или решить, что звонку нужен человек.
Точное распознавание просто делает каждый следующий шаг возможным. Ошибётесь здесь — и никакая логика дальше не спасёт. Агент, который расшифровывает 95% слов, но упускает намерение клиента, полезен не на 95% — намерение единственное число, которое важно.


