Как разработчицы из Бурятии используют нейросети для сохранения бурятского языка?
Фото: infpol.ru
Дари Батурова и Сарана Абидуева создали уникальный русско-бурятский переводчик на основе нейросетей. Девушки поделились с нами историей создания, реализации и принципа работы переводчика.
«Теперь являюсь одним из создателей»– Дари, Сарана, расскажите, пожалуйста, о себе.
Дари: В прошлом году я окончила бакалавриат Института интеллектуальной робототехники Новосибирского государственного университета. На данный момент являюсь разработчиком-исследователем в компании «Сибирские нейросети».
Сарана: Я окончила Санкт-Петербургский государственный университет, работала в Т-Банке продуктовым аналитиком. Сейчас работаю инженером машинного обучения в Азиатско-Тихоокеанском банке.
– К ак пришла идея создания переводчика?
Дари : Думаю, сначала стоит упомянуть, что мы с Сараной не сразу начали работать совместно. К этой идее мы шли разными путями. Для меня все началось в начале третьего курса, в 2022 году. Именно тогда я решила создать русско-бурятский переводчик в рамках дипломной работы. Я рассказала об этом своей семье, и все меня поддержали. Забавно, что еще в школе я постоянно пыталась найти бурятский язык в онлайн-переводчиках и никак не находила, а теперь являюсь одним из его создателей.
Сарана: Идея создать русско-бурятский переводчик появилась у меня в университете, когда я изучала нейронные сети, в том числе технологии машинного перевода. В детстве меня удивляло, почему не существует автоматического переводчика для бурятского языка. В университете я поняла, что основная проблема – нехватка обучающих данных. Меня вдохновили примеры, когда разработчики самостоятельно собирали данные и обучали переводчики для других языков народов России. Тогда я подумала, что создать переводчик для бурятского вполне посильная задача.
Дари: Мы вышли друг на друга весной 2023 года случайно, в процессе поиска необходимых данных для создания переводчика, и решили объединить усилия. Наши дипломные работы переросли в масштабный проект.
На самом деле бурятский язык почти не представлен в цифровой среде. А в наше время, когда технологии стремительно развиваются, внедрение языка в это пространство – важный шаг к его сохранению. Именно цифровые технологии будут являться мостом между людьми и исчезающим языком. И как раз одним из способов цифровизации языка является создание онлайн-переводчика.
– Переводчик разработан на основе нейросетей . К аков принцип его работы?
Дари: Давайте я объясню термин «машинный перевод» на простом примере. У нас есть предложение на русском языке. Алгоритм сначала разбивает его на отдельные слова, затем превращает эти слова в числовую форму – это называется кодировкой. После этого полученные данные декодируются уже на бурятский язык. На выходе мы получаем переведенное предложение.
Сарана : Чтобы нейросеть понимала, как правильно кодировать и декодировать, она обучается на параллельном корпусе – наборе предложений одного языка и их переводов на другой. В процессе обучения модель сравнивает собственный перевод с эталонным и постепенно корректирует ошибки, улучшая качество перевода.
«Переводчик – инструмент»– Расскажите об истории создания проекта .
Дари : Была проделана огромная работа. У нас было два основных направления: сбор данных для обучения нейросети и обучение нейросети русско-бурятскому переводу. В рамках сбора данных я отвечала за сотрудничество с различными организациями Бурятии, например с Бурятским научным центром, Государственной службой языкового перевода Бурятии и другими. Благодаря выигранному гранту от администрации главы и правительства Республики Бурятия я организовала переводческую деятельность для составления собственного параллельного корпуса, так как качественных данных не хватало. Сарана занималась сбором данных с Интернета. Мы использовали такие источники, как «Википедия», «Библия», стихи, русско-бурятский словарь и др. В итоговый параллельный корпус вошли свыше 100 тысяч пар переводов.
На этапе обучения нейросетевой модели было несколько итераций. Первую модель для русско-бурятского перевода обучила Сарана в рамках своей дипломной работы. Через год уже для своей выпускной квалификационной работы я создала модель, которая превзошла прошлую по точности перевода. После этого мы начали работать над улучшением модели совместно. На данный момент лучшая версия находится на сайте burtranslate.ru , где каждый желающий может ее опробовать. Только не судите строго: она все еще учится. Чтобы стать точнее, ей нужно больше данных.
– С какими сложностями вы столкнулись при разработке переводчика?
Сарана: Основная сложность при разработке переводчика была в создании параллельного корпуса, так как его ещё не существовало, а бурятские тексты мало представлены в цифровом виде. Более того, тексты, которые мы смогли найти, были в разных форматах: статьи на сайтах, оцифрованные книги, PDF-файлы – все с разной структурой. Поэтому для каждого источника данных приходилось писать уникальный код получения и обработки предложений. Кроме того, для многих источников данных было сложно сопоставить предложения на бурятском и русском. Чтобы решить эту проблему, мы обучили дополнительную нейросеть, которая подбирала соответствия.
– К ак вы считаете, поможет ли переводчик в сохранении и развитии бурятской культуры?
Дари: Проблема нашего родного языка в том, что он остаётся за пределами современных технологий. Особенно это влияет на молодёжь, которая получает почти всю информацию из Интернета и цифровых устройств. Переводчик — это только первый шаг. Он не заменяет учителей или живую речь, но он дает возможность языку быть частью цифрового мира. А значит, частью будущего.
С арана: Переводчик – это инструмент, который помогает тем, кто хочет изучать бурятский язык. Однако для полноценного сохранения языка необходима языковая среда. Машинный перевод может использоваться для перевода фильмов, сериалов, книг – и тем самым расширять эту среду.
Автор: