Специалисты Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) создали алгоритм и приложение для смартфона, которое позволяет считывать речь пользователя в шумных местах по губам, тем самым повышая точность распознавания слов в сложных условиях. Приложение может найти свое применение в широком спектре отраслей с применением голосовых команд - от сферы услуг до тяжелой промышленности, сообщили журналистам во вторник в пресс-службе СПб ФИЦ РАН.
«Исследователи Санкт-Петербургского Федерального исследовательского центра РАН научились при помощи алгоритмов искусственного интеллекта и компьютерного зрения распознавать речь человека по губам. Разработка поможет повысить точность работы голосовых помощников в шумных условиях, например, в людных местах или при управлении тяжелой техникой», – рассказали в пресс-службе.
В современных условиях голосовые команды широко распространяются как в работе, так и в повседневной жизни, например, при использовании поисковиков на смартфоне. Однако если в условиях относительной тишины цифровые алгоритмы распознают слова пользователей достаточно точно, то при ощутимых шумах эффективность алгоритмов падает – команда либо не распознается, либо искажается и даже обретает противоположный смысл.
Решение петербургских ученых
Для решения этой проблемы специалисты СПб ФИЦ РАН предложили нейросеть, которая собирала бы два вида информации по аналогии с человеческим восприятием – звуковую форму речи и движения губ, которые ее непременно сопровождают.
«В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространенных команд. Причем, по словам ученых, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность», – пояснили ТАСС в пресс-службе СПб ФИЦ РАН.
Программа тестировалась с помощью водителей шумных большегрузных автомобилей одной из логистических компаний в России. Для этого ПО было установлено на смартфоны испытуемых. Результаты подтвердили предположение о том, что совмещение двух видов считывания информации повышает эффективность работы алгоритмов - только по чтению губ точность распознавания команд составила 60-80%, а в комбинации со звуковым сигналом – более 90%.
«Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолетов и тяжелой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей», – рассказал старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько.
Исследование поддержано грантом Российского научного фонда. Для разработанного ПО уже получено свидетельство о государственной регистрации. Результаты проекта также опубликованы в материалах профильной международной конференции European Signal Processing Conference (EUSIPCO).
Источник: ТАСС