Как нейросеть распознаёт разных спикеров на видео? Сначала она переводит речь в текст, восстанавливает пунктуацию и определяет границы предложений. Затем уже другая нейросеть анализирует спектрограмму голоса и отмечает на аудиодорожке фрагменты, сказанные разными людьми. Так и становится ясно, кто из спикеров что произнес.
Дмитрий Тимко, руководитель приложения Яндекс и Яндекс Браузера
«Мы постоянно работаем над качеством перевода и озвучки, чтобы дать нашим пользователям доступ к любому контенту со всего мира. По нашим оценкам, около половины YouTube-роликов на иностранных языках — это ролики с тремя и более спикерами. Смотреть их с двухголосой озвучкой не совсем удобно — поэтому мы и сделали десять новых голосов».
В сентябре 2021 года Яндекс представил технологию закадрового перевода видео для роликов на английском языке. Затем добавил французский, немецкий, испанский и итальянский языки. В планах — новые пары языков, например, китайский. В Яндекс Браузере также появились интерактивные субтитры с подсветкой по словам, которые можно включить как на языке оригинала, так и на русском. Помимо этого, Яндекс добавил в свой браузер уникальную технологию автоматического закадрового перевода прямых трансляций на YouTube — сейчас она находится в режиме открытого тестирования.