Прорыв в области машинного перевода

Неделю назад IBM и Lionbridge (одна из крупнейших в мире переводческих компаний) объявили о стратегическом партнерстве в сфере лингвистических технологий. Такое сотрудничество с большой вероятностью приведет к заметному скачку в качестве машинного перевода, и в перспективе может оказать на нашу повседневную жизнь влияние не меньше, чем появление Google Translate. К сожалению, в России эту новость не заметил вообще никто – мне не удалось найти ни одного упоминания в российских блогах или СМИ. Постараюсь восполнить этот пробел.


IBM является разработчиком перспективного движка для статистического машинного перевода (в конце концов, именно в IBM в конце 1980-х изобрели эту технологию). Статистический перевод основан на анализе больших объёмов параллельных текстов на разных языках; чем больше в распоряжении имеется параллельных текстов, и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Для того чтобы «обучить» свою систему переводить лучше Google (а всё, что хуже Google, невозможно монетизировать), IBM нужны параллельные тексты. Много параллельных текстов.


И теперь их есть откуда взять. В базах данных Lionbridge – десятки миллиардов переведенных слов. Это очень хорошие языковые пары, переведенные профессиональными переводчиками, вычитанные редакторами, рассортированные по отраслям и тематикам.


Ожидается, что переводчик IBM, обученный с помощью баз от Lionbridge, будет выдавать очень хороший результат. Такой перевод, который не стыдно продавать за деньги, даже при наличии на каждой поисковой странице бесплатного аналога.


Переводчик будет доступен, как легко догадаться, в виде веб-сервиса. В Lionbridge обещают сделать не просто форму «вбил оригинал/получил перевод», а некую среду многоязычной коммуникации с возможностью тонкой настройки под конкретные нужды клиента. О стоимости использования будущего сервиса пока ничего не известно.


Мое личное мнение: огромные базы (затрудняюсь представить темы, на которые Lionbridge не переводил) и возможность настройки наконец-то позволят машинному переводчику стабильно выдавать вменяемый результат. В результате, полноценная многоязычная коммуникация в реальном времени, например, чаты и форумы, в которых носители разных языков говорят каждый по-своему, но все друг друга понимают, уже в ближайшие полтора –два года станет для нас привычной.

Тематики:

Ключевые слова: IBM