3i Technologies: новый облачный сервис для обработки речевой информации

Консорциум 3i Technologies завершил формирование функционала облачного сервиса для профессиональной обработки речевых данных 3i Speech Recognition, предназначенного для работы с медиа-контентом и потоками голосовой информации в контакт-центрах. Сервис позволяет с точностью более 90% переводить «речь» в текстовый формат, параллельно редактируя его в пользовательском интерфейсе.

На финальной стадии 3i Speech Recognition дополнился личным кабинетом, хранилищем и редакторским интерфейсом, в котором можно обрабатывать текстовую информацию. Сервис позволяет работать с записями ТВ и радиоэфиров, материалами продакшн-студий, обращениями в контакт-центры и т. д. 3i Speech Recognition дает возможность загружать в персонализированное облачное хранилище до 18 часов аудио-информации, обрабатывая ее в несколько раз быстрее реального времени звучания. После выдает «стройный» текст, разбитый на предложения с расставленными знаками препинания. При прослушивании исходного материала, система автоматически «подсвечивает» произносимый фрагмент в текстовом блоке.

«Сервис ориентирован на специалистов, работающих с голосовой информацией. Например, он будет полезен службам контроля качества в контакт-центрах или консультантам, создающим сценарии телемаркетинговых акций. А также подразделениям телеканалов, которые занимаются расшифровкой телеэфиров. Сервис отличают высокая точность распознавания речи, автоматическая расстановка знаков препинания, удобный редакторский интерфейс и возможность интеграции с наиболее распространенными программными платформами автоматизации совместной деятельности рабочих групп», - говорит председатель совета директоров консорциума 3i Technologies Алексей Любимов.

В сервисе используются языковые и акустические модели, построенные с применением машинного обучения, технологий рекуррентных нейронных сетей (Recurrent Neural Network, RNN) и взвешенных конечных автоматов (Weighted Finite State Transducer, WFST). Вычислительная инфраструктура реализована с ускорением на GPU, что позволяет получать многократный прирост производительности относительно CPU.

Языковые модели для повышения качества распознавания могут быть адаптированы под узкую предметную область. Например, для перевода в текст телепередач определенной тематики или для обработки узкоспециализированных телемаркетинговых сценариев.

Сервис поддерживает русский, английский, китайский, немецкий и испанский языки. В 3i Speech Recognition может быть интегрирован сервис машинного перевода.

 

Автор: Александр Абрамов.

Тематики: Фиксированная связь, Интеграция

Ключевые слова: колл-центр, облачные услуги