Искуственный интеллект читает по губам лучше человека

Чтение по губам нельзя назвать точной научной дисциплиной. Однако благодаря возможностям современных компьютеров, а в частности нейросетям, можно разработать искусственный интеллект, который справится с чтением по губам намного лучше человека. Watch, Attend and Spell (WAS) – это новая система программного обеспечения с искусственным интеллектом, разработанная учеными из Оксфорда в сотрудничестве с компанией DeepMind, Google. Система WAS использует компьютерное зрение и методы машинного обучения, чтобы научиться читать по губам, смотря телевизионные передачи длительностью более 5000 часов.

Исследовательская группа сравнивала способности машины и человека-эксперта разбираться в том, что говорилось в видео, сосредоточившись лишь на движениях губ людей в кадре. В результате ученые обнаружили, что новое программное обеспечение было более точным по сравнению с профессионалом. Человек правильно распознавал лишь 12 процентов слов, в то время как искусственный интеллект WAS был способен распознать более 50 процентов слов. Ошибки машины заключались только в потере буквы «с» на концах слов.

Новое программное обеспечение может повлиять на ряд новейших разработок, в том числе помочь слабослышащим и глухим в ориентации в пространстве. Также в будущем подобную систему можно будет использовать для создания субтитров к видео в реальном времени. Кроме того, подобные технологии могут повысить точность и скорость преобразования речи в текст, особенно в шумных местах, где микрофоны просто не слышат пользователя.

Источник: Naced-Science