Когда технологии служат языку

Когда технологии служат языку
Когда технологии служат языку
Когда технологии служат языку
Когда технологии служат языку
Фото: www.infpol.ru

Как разработчицы из Бурятии используют нейросети для сохранения бурятского языка?

Фото: infpol.ru

Дари Батурова и Сарана Абидуева создали уникальный русско-бурятский переводчик на основе нейросетей. Девушки поделились с нами историей создания, реализации и принципа работы переводчика.

«Теперь являюсь одним из создателей»

Дари, Сарана, расскажите, пожалуйста, о себе.

Дари:   В прошлом году я окончила бакалавриат Института интеллектуальной робототехники Новосибирского государственного университета. На данный момент являюсь разработчиком-исследователем в компании «Сибирские нейросети».

Сарана:   Я окончила Санкт-Петербургский государственный университет, работала в Т-Банке  продуктовым аналитиком. Сейчас работаю инженером машинного обучения в Азиатско-Тихоокеанском банке.

К ак пришла идея создания переводчика?

Дари : Думаю, сначала стоит упомянуть, что мы с Сараной не сразу начали  работать совместно. К этой идее мы шли разными путями.  Для меня все началось в начале третьего курса, в 2022 году. Именно тогда я решила создать русско-бурятский переводчик в рамках дипломной работы. Я рассказала об этом своей семье, и все меня поддержали. Забавно, что еще в школе я постоянно пыталась найти бурятский язык в онлайн-переводчиках и никак не находила, а теперь являюсь одним из его создателей.

Сарана:   Идея создать русско-бурятский переводчик появилась у меня в университете, когда я изучала нейронные сети, в том числе технологии машинного перевода. В детстве меня удивляло, почему не существует автоматического переводчика для бурятского языка. В университете я поняла, что основная проблема – нехватка обучающих данных.  Меня вдохновили примеры, когда разработчики самостоятельно собирали данные и обучали переводчики для других языков народов России. Тогда я подумала, что создать переводчик для бурятского  вполне посильная задача.   

Дари: Мы вышли друг на друга весной 2023 года случайно, в процессе поиска необходимых данных для создания переводчика, и решили объединить усилия. Наши дипломные работы переросли в масштабный проект.

На самом деле бурятский язык почти не представлен в цифровой среде. А в наше время, когда технологии стремительно развиваются, внедрение языка в это пространство –  важный  шаг к его сохранению. Именно цифровые технологии будут являться мостом между людьми и исчезающим языком. И  как раз одним из способов цифровизации языка является создание онлайн-переводчика.

Переводчик разработан на основе нейросетей .   К аков принцип его работы?

Дари:   Давайте я объясню термин «машинный перевод» на простом примере. У нас есть предложение на русском языке. Алгоритм сначала разбивает его на отдельные слова, затем превращает эти слова в числовую форму – это называется кодировкой. После этого полученные данные декодируются уже на бурятский язык. На выходе мы получаем переведенное предложение.   

Сарана : Чтобы нейросеть понимала, как правильно кодировать и декодировать, она обучается на параллельном корпусе – наборе предложений одного языка и их переводов на другой. В процессе обучения модель сравнивает собственный перевод с эталонным и постепенно корректирует ошибки, улучшая качество перевода.

«Переводчик – инструмент»

Расскажите об истории создания проекта .

Дари : Была проделана огромная работа. У нас было два основных направления:  сбор данных для обучения нейросети и обучение нейросети русско-бурятскому переводу. В рамках сбора данных я отвечала за сотрудничество с различными организациями Бурятии, например с Бурятским научным центром, Государственной службой языкового перевода Бурятии и другими. Благодаря выигранному гранту от администрации главы и правительства Республики Бурятия я организовала переводческую деятельность для составления собственного параллельного корпуса, так как качественных данных не хватало. Сарана занималась сбором данных с Интернета. Мы использовали такие источники, как «Википедия», «Библия», стихи, русско-бурятский словарь и др.  В итоговый параллельный корпус вошли свыше 100 тысяч пар переводов.

На этапе обучения нейросетевой модели было несколько итераций. Первую модель для русско-бурятского перевода обучила Сарана в рамках своей дипломной работы. Через год уже для своей выпускной квалификационной работы я создала модель, которая превзошла прошлую по точности перевода. После этого мы начали работать над улучшением модели совместно. На данный момент лучшая версия находится на сайте burtranslate.ru , где каждый желающий может ее опробовать. Только не судите строго:  она все еще учится.  Чтобы стать точнее, ей нужно больше данных.

С какими сложностями вы столкнулись при разработке переводчика?

Сарана:   Основная сложность при разработке переводчика была в создании параллельного корпуса, так как его ещё не существовало, а бурятские тексты мало представлены в цифровом виде. Более того, тексты, которые мы смогли найти, были в разных форматах: статьи на сайтах, оцифрованные книги, PDF-файлы – все с разной структурой. Поэтому для каждого источника данных приходилось писать уникальный код получения и обработки предложений. Кроме того, для многих источников данных было сложно сопоставить предложения на бурятском и русском. Чтобы решить эту проблему, мы обучили дополнительную нейросеть, которая подбирала соответствия.

К ак вы считаете, поможет ли переводчик в сохранении и развитии бурятской культуры?  

Дари:   Проблема нашего родного языка в том, что он остаётся за пределами современных технологий. Особенно это влияет на молодёжь, которая получает почти всю информацию из  Интернета и цифровых устройств. Переводчик — это только первый шаг. Он не заменяет учителей или живую речь, но он дает возможность языку быть частью цифрового мира. А значит, частью будущего. 

С арана:   Переводчик – это инструмент, который помогает тем, кто хочет изучать бурятский язык. Однако для полноценного сохранения языка необходима языковая среда. Машинный перевод может использоваться для перевода фильмов, сериалов, книг –  и тем самым расширять эту среду.

Автор:

Новости соседних регионов по теме:

В Санкт‑Петербургском университете состоялась презентация третьего тома новелл Пу Сун‑лина (1640–1715) «Ляо Чжай чжи и. Странные истории из кабинета неудачника» — части полного собрания сочинений классика китайской литературы,
11:49 13.06.2025 СПбГУ - Санкт-Петербург
Русский язык представляет собой стержень гражданской российской идентичности, а языковое многообразие — национальное достояние страны.
19:04 10.06.2025 НИА-Кубань - Краснодар
6 июня в день рождения великого русского поэта, основоположника современного русского литературного языка Александра Сергеевича Пушкина в России и в мире отмечается День русского языка.
09:32 09.06.2025 Городской округ Баксан - Баксан
Сегодня в Калмыцком государственном университете отметили День русского языка.
12:13 09.06.2025 КалмГУ - Элиста
 
По теме
Малое инновационное предприятие «Гринбар», участник группы компаний «Экорепка», приглашает преподавателей и представителей профильных сельскохозяйственных учебных заведений на вебинар «Агрокласс — АГРО и БИО технологии,
Образование ♦️ Ветераны СВО могут получить квоты на заочное обучение в вузах РФ https://tass.ru/obschestvo/24427985 ♦️ В рамках приемной кампании 2025/2026 года подали заявления 540 тыс.
11 июля 2025 года на базе Национальной библиотеки Республики Бурятия стартовал семинар-практикум «Психологическая помощь участникам СВО и членам их семей»,
«Бухлер» по-спецназовски: рецепт от бойцов ОСН «Байкал» - УФСИН В честь 35-летия отделов специального назначения ФСИН России сотрудники ОСН «Байкал» УФСИН по Республике Бурятия приняли участие во Всероссийской акции «Готовь как спецназ» и поделились проверенным рецептом наваристого б
УФСИН
1 - БГУ Кафедра бурятского языка и методики преподавания Высшей школы бурятского языка и литературы Института истории филологии начала новый виток проведения Международного летнего лингвистического лагеря монголоведов.
БГУ