Сообщить об ошибке на сайте
URL
Ошибка
Обучение машин

Эсанеддин Асгари и Хинрих Шутце из Университета Людвига-Максимилиана в Мюнхене (Германия) создали новый метод поиска ключевых элементов почти любого языка, который можно использовать как ступень к машинному переводу.

Новая технология основана на едином тексте, переведенном как минимум на 2000 различных языков — Библии. На основе этих переводов была составлена база данных — Parallel Bible Corpus. Ее недостаточно для промышленных машин вроде Google и других платформ, поэтому Асгари и Шутце придумали другой подход, основанный на способе выражения в различных языках одной грамматической категории — времени.

Большинство языков использует для обозначения времени особые слова или буквенные сочетания. Например, в креольском языке (относительно молодом и простом, поэтому ученые взяли его за образец), прошедшее время обозначается словом «ti». Выделив его и другие указатели на прошлое время в еще 10 языках, они начали поиск по параллельному своду текстов Библии, и обнаружили лингвистические конструкции, выполняющие те же функции в английским и немецком языках, а также в гораздо менее распространенных: в языке гурманчема востока Буркина-Фасо или ялунка, на котором говорят в Западной Африке.

Это позволило ученым создать карту, показывающую, как связаны языки, использующие схожие конструкции для передачи времени. Они разработали компьютерный метод, показывающий, как носители 1000 языков применяют настоящее, прошлое и будущее времена. Это крупнейшее межъязыковое исследование, известное науке.

Карта языковых времен позволяет лучше понять эволюцию языка. Этот же подход можно распространить и на другие лингвистические категории, что упрощает разработку средств машинного перевода на основе ИИ. Отсутствие возможности автоматически переводить на редкий язык ускоряет процесс вымирания языка. Такую тенденцию лингвисты уже наблюдали на примере телевидения: язык, на котором ведется вещание, становится более популярным.

Больше половины населения планеты говорит на пяти языках — английском, испанском, китайском, русском и хинди. На 100 языках говорят 95% жителей Земли. Остальным достались менее распространенные наречия, всего около 6900. На некоторых из них говорят менее 1000 человек, и они могут перейти в категорию мертвых в ближайшие сотню лет. Вместе с ними уйдет и их культурное наследие: уникальные истории, юмор, даже эмоции, пишет MIT Technology Review.

Машинный перевод работает только для единиц самых распространенных языков. Недавно к нейросети Google Translate, которая до того охватывала только 9 языков, присоединились еще три, в том числе — русский. Впрочем, по мнению некоторых исследователей, лет через 10 проблемы языкового барьера у людей не будет.

Загрузка...
Подписывайтесь на наши каналы в Telegram

«Хайтек» - новости онлайн по мере их появления

«Хайтек» Daily - подборки новостей 3 раза в день

Как через 20 лет будет выглядеть армия будущего
Тренды
5 финансовых инструментов, которые помогут инвесторам даже после падения криптовалюты
Тренды
Александр Лямин, Qrator Labs: наша задача — выработать у людей цифровую гигиену, чтобы они «не ели с помойки»
Кейсы
Эдуард Фош Вильяронга: люди видят в роботе только внешность, забывая, что он следит за ними
Тренды
Доктор Куэй Во-Райнард, HIT Foundation: если страна требует суверенитета данных, мы построим для нее отдельный блокчейн
Кейсы
Идеи
«Хакинтош»: как собрать свой собственный Mac лучше, чем у Apple
Роботы против мигрантов: какой вклад в ксенофобию и расизм делают технологии ИИ
Тренды
Война скриптов — искусственный интеллект против навязчивой рекламы
Тренды
Как заново изобрести супермаркет: осознанность потребления, этика производства и роботы
Тренды
Каждый человек станет сам себе банком: цифровой мир отказывается от посредников между бизнесом и клиентом
Тренды
Архитектор вычислительной инфраструктуры «Платона» Александр Варламов — о будущем ИТ-индустрии в России, стартапах и разработке
Кейсы
Дмитрий Богданов, капитан сборной России по CS:GO — о стиле жизни киберспортсмена, тренировках и блокировках РКН
Тренды
Идеи
Космос — наш дом: что осталось решить ученым, чтобы поселить человека за пределами Земли
Прайсинг, трекинг, скоринг, биллинг и другие технологии, которые двигают российский бизнес
Тренды
Кейсы
«Педиатр 24/7»: как телемед-стартап подарил родителям спокойствие, а врачам — работу
Вас снова обманули: как человечество учит компьютеры определять фейки в интернете
Тренды
БиСи Бирман, Heavy Projects: ИИ должен иметь несовершенства — это элемент случая
Мнения
Артем Геллер, lab.ag: делая сервис для государства, ты помогаешь своей бабушке
Мнения
Акселераторы и инкубаторы: что выбрать стартапу на раннем этапе развития
Мнения
Вопрос доверия: как и почему изменилось отношение к телемедицине в России
Тренды
Правительственные криптопесочницы: как освободить финтех от давления закона и защитить потребителей
Тренды
Роман Нестер, Segmento: я верю корпорациям больше, чем маленьким компаниям
Кейсы
Суперагенты в недвижимости: как блокчейн и большие данные заменяют риелторов
Тренды
СМИ будущего: вертикальные видео, новости по запросу и смерть сайтов
Тренды
Сет Стивенс-Давидовиц: у людей гораздо больше непристойных и скверных мыслей, чем мы думали
Мнения
Тренды
Колонизация отменяется: почему терраформирование невозможно на Марсе
Умные города подвергают своих жителей опасности из-за датчиков освещения и радиации
Тренды
Геронтолог Обри ди Грей: жизнь длиной в тысячу лет — это побочный эффект поиска вечного здоровья
Мнения
Биоценоз в фарме: зачем нужна альтернатива антибиотикам и как работают лекарства нового поколения
Тренды
Чарльз Адлер, co-founder Kickstarter: я — панк-рокер, который раздвигает границы
Кейсы
Как ИИ меняет медицину: личный помощник для врачей, маршрутизатор в клиниках и разработчик лекарств
Кейсы
Эдвин Диндер, Huawei Technologies: умный город — это ничто
Мнения
«Если изобретение с ИИ не приносит пользу, сам продукт никому не нужен»
Мнения
Feature engineering: шесть шагов для создания успешной модели машинного обучения
Тренды
Мнения
Человек — это набор из пяти чисел: Игорь Волжанин, DataSine — о психотипировании с помощью big data
Карло Ратти, Senseable City Laboratory (MIT) — о городах будущего, третьей коже человека и роболодках
Тренды
Мы все — сенсоры: CEO SQream Ами Галь — о том, как обрабатывают big data
Кейсы
Что такое скрапинг: как Amazon, Walmart и другие ритейлеры используют ботов в борьбе с конкурентами
Идеи
Почему китайские подлодки-беспилотники станут самым опасным врагом под водой?
Идеи
Филипп Роуд, LSE Cities: самый кошмарный сценарий — беспилотники, ездящие по городу, чтобы не платить за парковку
Мнения
Юрий Корженевский — о том, как построить безопасные системы для банков на блокчейне
Блокчейн
Иннополис
Russian Robot Olympiad: как дети строят роботов и решают реальные инженерные проблемы
Тренды
MyGenetics: ДНК-тесты, помогающие «взломать» организм, как компьютер
Trade-to-Mine: как биржи привлекают трейдеров в условиях падения рынка
Блокчейн
Дмитрий Фадин, 3D Bioprinting Solutions — о будущем биопринтинга и печати органов в космосе
Мнения
IoT изменит все: какие умные технологии принесут бизнесу экономию, безопасность и инновации
Тренды
Как высокие технологии побуждают нас покупать билеты и туристические услуги
Тренды
Чем плоха Кремниевая долина для IT-стартапов из России: дорого, неудобно и нет транспорта
Мнения
Жить по-умному: как защитить свой дом и не бояться киберугроз
Умный дом