Помощь в переводе для более чем полумиллиарда человек

На этих новых языках, от кантонского диалекта до кекчи, говорят более 614 миллионов человек, что открывает путь к переводам примерно для 8% населения мира. Некоторые из них являются основными языками мира, на которых говорят более 100 миллионов человек. На других говорят небольшие общины коренных народов, а в некоторых почти нет носителей языка, но они предпринимают активные усилия по возрождению. Около четверти новых языков происходят из Африки, что представляет собой наше самое большое расширение африканских языков на сегодняшний день, включая фон, киконго, луо, га, свати, венда и волоф.

Вот некоторые из новых языков, поддерживаемых в Google Translate:

  • Далеко — тональный язык, на котором говорят в Джибути, Эритрее и Эфиопии. Из всех языков, представленных в этом запуске, Afar — тот, который получил наибольшее количество добровольных пожертвований сообщества.
  • Кантонский диалект уже давно является одним из самых востребованных языков для Google Translate. Поскольку в письменной речи кантонский диалект часто пересекается с мандаринским, сложно найти данные и обучить модели.
  • Мэнкс — кельтский язык острова Мэн. Он почти исчез после смерти последнего носителя языка в 1974 году. Но благодаря движению возрождения, охватившему весь остров, сейчас на нем говорят тысячи людей.
  • Мое имя — стандартизированная форма языков мандинка Западной Африки, объединяющая многие диалекты в общий язык. Его уникальный алфавит был изобретен в 1949 году, и сегодня здесь существует активное исследовательское сообщество, разрабатывающее для него ресурсы и технологии.
  • Пенджаби (Шахмукхи) — это разновидность пенджаби, написанная персидско-арабским письмом (шахмукхи), и является наиболее распространенным языком в Пакистане.
  • Тамазайт (Амазиг) — берберский язык, на котором говорят по всей Северной Африке. Хотя существует множество диалектов, письменная форма в целом взаимопонятна. Он написан латиницей и шрифтом Тифинаг, оба поддерживаются Google Translate.
  • Ток Писин — креольский язык на английском языке и лингва-франка Папуа-Новой Гвинеи. Если вы говорите по-английски, попробуйте перевести на ток-писин – возможно, вы сможете понять смысл!
ЧИТАТЬ  Rockstar подтвердила, что скоро выйдет новая «Grand Theft Auto»

Как мы выбираем разновидности языка

При добавлении новых языков в Translate следует учитывать множество факторов: от предлагаемых нами разновидностей до конкретных вариантов написания, которые мы используем.

Языки демонстрируют огромное разнообразие: региональные разновидности, диалекты, разные стандарты правописания. На самом деле во многих языках нет единой стандартной формы, поэтому выбрать «правильную» разновидность невозможно. Наш подход заключался в том, чтобы определить приоритетность наиболее часто используемых разновидностей каждого языка. Например, цыганский язык – это язык со множеством диалектов по всей Европе. Наши модели создают текст, наиболее похожий на южный валлакс-романи, разновидность, часто используемую в Интернете. Но в нем также смешаны элементы из других стран, таких как северный влах и балканские цыгане.

PaLM 2 был ключевой частью головоломки, помогая Translate более эффективно изучать близкородственные языки, включая языки, подобные хинди, такие как авадхи и марвади, а также французские креольские языки, такие как сейшельский креольский и маврикийский креольский. По мере развития технологий и продолжения сотрудничества с опытными лингвистами и носителями языка мы со временем будем поддерживать еще больше языковых разновидностей и правил правописания.

Посетить Центр помощи чтобы узнать больше об этих новых поддерживаемых языках. И начнем переводить дальше «translate.google.com» или в приложении Google Translate на Андроид И iOS.

Source