Фото: © Sibnet.ru
Компания «Яндекс» запустила новый сервис, который добавляет синхронный перевод в прямые трансляции на YouTube.
Закадровый перевод потокового видео считается достаточно сложной инженерной задачей, поэтому для ее решения программисты использовали сразу пять нейросетей.
Первая из них распознает аудиодорожку и превращает ее в текст. Вторая нейросеть определяет пол спикеров, третья нарезает текст на предложения — расставляет знаки препинания и выделяет из текста части, содержащие законченную мысль.
Четвертая нейросеть переводит полученные фрагменты, и только пятая синтезирует речь. Пока технология работает в режиме открытого бета-тестирования.