Томичи намерены добиться полностью автоматического перевода устного текста любого объёма в письменный с высокой точностью, без искажений.
«Пока эта цель не достигнута, в том числе из-за подхода, который чаще всего используется в уже работающих человеко-машинных интерфейсах: голосовом поиске, чат-ботах, где распознаваемый максимум — это отдельные словосочетания, например, поисковые запросы или голосовой набор смс-сообщений», — рассказал сотрудник университета Антон Конев.
Основой распространенных алгоритмов является обучение на большом количестве примеров произнесенных звуков, слов, словосочетаний. При распознавании система вероятностным способом определяет, к какому из заложенных примеров ближе произнесенное. Томские учёные работают над более точной системой распознавания речи. Исследования показали, что распознавание ударных звуков шепотной речи на основе общепринятых параметров возможно с надёжностью не менее 70 %.
«Есть классический термин — форманта — максимум звука в спектре, параметры которой нам необходимы, но в звучной речи на формантную структуру накладываются колебания и искажают картину. Именно поэтому мы исследуем шёпотную речь, которая отделена от голосового источника и лишена этих искажений», — добавил разработчик.