Преобразование аудиофайлов в текст перестало быть насущной потребностью только журналистов и студентов. Качество транскрибации неуклонно растет и теперь инструменты базируются на нейросетях. В обзоре пять сервисов для перевода русской речи в текст.
Speech2Text
Функции и возможности:- Поддержка более 20 языков
- Разделение на спикеров: сервис автоматически определит и разделит речь разных говорящих в тексте, выставит таймкоды
- Конфиденциальность: файлы и расшифровки не сохраняются после удаления пользователем; используется шифрование при передаче данных
- Экспорт субтитров: возможность скачивания субтитров для дальнейшего использования в видеоредакторах
После регистрации пользователям дается 180 бесплатных минут для расшифровки. Далее лимит – 15 бесплатных минут в сутки. Официальный сайт Speech2Text.
Any2Text
Функции и возможности:- Поддержка более 50 языков
- Высокая точность распознавания даже при низком качестве записи
- Отсутствие ограничений на длину записи: можно расшифровывать файлы любой продолжительности
- Конфиденциальность: файлы не сохраняются в сервисе после обработки
После регистрации пользователям предоставляется 60 минут бесплатной транскрибации. Официальный сайт Any2Text.
Писец
Функции и возможности:- Автоматическое определение и разделение спикеров (до пяти человек).
- Расстановка таймкодов и знаков препинания
- Безопасность данных: файлы не сохраняются и удаляются сразу после расшифровки
Есть бесплатный тариф для аудио длительностью до 10 минут. Файлы обрабатываются в порядке живой очереди, чем больше пользователей, тем дольше придется ждать. Официальный сайт сервиса Писец.
Sonix
Функции и возможности:- Поддержка более 50 языков
- Высокоточное распознавание русской речи
- Создание автоматических субтитров для видео
- ИИ-инструменты: создание сводок, заголовков, тематический анализ
- Встроенный редактор для поиска, воспроизведения и редактирования файлов
После регистрации доступны 30 бесплатных минут. Официальный сайт Sonix.
mymeet.ai
Функции и возможности:- Точность распознавания русского языка — 95% (лучший показатель на рынке)
- Автоматическое определение и разделение нескольких спикеров
- Интеллектуальная очистка текста от слов-паразитов
- AI-чат для взаимодействия с содержанием аудиофайлов: сводки, краткий пересказ, структурирование
Все перечисленные сервисы поддерживают большинство популярных аудиоформатов: MP3, WAV, AAC, FLAC, AIFF, WMA, M4A и другие.
Бонус. Нейросеть Whisper-JAX — улучшенная версия модели Whisper от OpenAI, предназначенной для быстрой транскрипции в текст аудиофайлов. Для перевода в текст достаточно зайти на главную страницу сервиса и выбрать источник: запись с микрофона, файл или видео на YouTube.
Whisper-JAX полностью бесплатна и базируется на Hugginface. Однако из-за некоммерческого характера сервис часто работает с перебоями и бывает недоступен. Но конечный результат ничем не уступает коммерческим нейросетям.