Одиа, оромо, луганда и другие проблемные языки, перевести которые у Google Translator нет шансов

В 21 веке онлайн-переводчики пользуются большой популярностью. Каждому жителю планеты приходится в среднем переводить по семь слов в день. Это подтверждает статистика посещаемости только одного, самого популярного, онлайн-сервиса по переводу.

Английскую статью перевести на русский язык довольно просто. Текст, скопированный в Google Translator, скорее всего, будет интерпретирован, и даже целые предложения и абзацы могут быть переведены идеально.

То есть качество перевода будет на высоте. И все это благодаря технологии нейронных сетей. Ее также используют в самых разнообразных сферах: она помогает распознать текст на изображениях, создать текст и даже сочинить стихи.

Машинный перевод исключением не стал, так работает большинства онлайн-переводчиков. В результате получается перевод довольно высокого качества.

Проблемные языки, перевести которые у Google Translator нет шансов

Однако существует множество языков, которые машинный переводчик все еще не может расшифровать. Среди них есть не только редкие языки, используемые ограниченным количеством носителей, но и версии, используемые миллионами в качестве их родного языка. К ним относятся одиа, оромо, луганда.

Дело в том, что алгоритмы, которые работают с языками, учатся на переводах, выполненных человеком – в идеале они обрабатывают миллионы слов, переведенных в текст.

Материалы на таких языках, как английский, французский, испанский, немецкий или даже венгерский, в большом количестве доступны в интернете.

Почему это не работает с каждым языком?

Вернемся к текстам, по которым программа учится сама. Документы, переведенные человеком и доступные на нескольких языках, предлагают обширную базу данных. Только Европейский парламент выпускает подборку из 1,37 миллиарда слов на 23 языках за десятилетие.

Однако нет такого количества данных для языков, которые широко распространены, но не переводятся так часто. Это языки используются небольшим количеством ресурсов, где база данных для машинного перевода часто ограничивается Библией. Однако это довольно узкий источник, и, кроме того, использование языка может не обязательно совпадать с ситуациями. Нет информации о том, как люди разговаривают на почте, у врача или за семейным столом. Данных недостаточно для точного, широкого спектра автоматизированных переводов.

Переводчики работают с малым количеством языков

Google Translate в настоящее время работает примерно на 108 различных языках, в то время как Microsoft Bing Translator обрабатывает около 70 языков. Это лишь малая часть из 7000 языков, на которых говорят в мире. Это невыгодно не только спецслужбам, но и тем, кто говорит на данном языке. Они не могут переводить тексты на свои языки так же просто, как мы, например.

Чтобы устранить этот барьер, IARPA финансирует исследования систем, способных находить, переводить и обобщать информацию с любого языка с небольшим количеством исходных данных, будь то текст или речь.

Исследователи надеются, что через несколько лет более изолированные языки будут переводиться автоматически. Таким образом мы сможем общаться с любым человеком в любой точке мира независимо от того, какой у него или у нас родной язык.

Нашли нарушение? Пожаловаться на содержание

А вы знали, что существуют проблемные для переводчиков языки?
Комментарии 0
Подписаться
Я хочу получать
Правила публикации
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.