Марийский (или лугово-восточный марийский) и горномарийский языки — это, как и русский, государственные языки Республики Марий Эл. На них разговаривают также в Башкортостане, Татарстане, Кировской области и некоторых других регионах России. Хотя марийский и горномарийский языки похожи, одно и то же слово может звучать в этих языках совсем по-разному, есть отличия в правилах грамматики, не совпадают и алфавиты. Поэтому работа над машинными переводами для этих двух языков велась параллельно. Пока оба перевода работают в бета-версии, так что возможны недочёты.
«Чтобы машина научилась переводить, она должна сопоставить друг с другом параллельные тексты — на разных языках, но с одинаковым содержанием. В интернете очень мало текстов для языковых пар с марийским и горномарийским — поэтому для них сложно создавать машинный перевод. С этой же трудностью мы сталкивались, когда добавляли другие языки народов России. Сейчас на сервисе уже есть татарский, удмуртский и башкирский языки, и мы работаем над переводом для других языков, на которых говорят в регионах страны», — говорит Алексей Байтин, руководитель отдела машинного перевода Яндекса.
Машинный перевод для марийского и горномарийского языков создавался в сотрудничестве с Марийским научно-исследовательским институтом языка, литературы и истории им. В.М. Васильева и Республиканским центром марийской культуры (РЦМК). Они предоставили марийско-русский словарь, который позволил расширить лексическую базу, и помогли с оценкой качества переводов. Андрей Чемышев вместе с группой сотрудников РЦМК собрал и передал Яндексу параллельные тексты.