Разработчики из Оксфордского университета создали первую в мире программу, которая распознает речь по губам на уровне целых предложений и делает это намного лучше человека. Ее работа основана на использовании нейросетей и методов глубинного обучения. Научная статья исследователей, которая была подготовлена к конференции ICLR 2017, опубликована в открытом доступе.
Автоматические системы распознавания речи на основе мимики человека имеют большой практический потенциал: они могут быть использованы для создания слуховых аппаратов нового поколения, биометрической идентификации или расследования преступлений. Поэтому ученые уже много лет пытаются разработать программу для «чтения» по губам, но до сих пор им не удавалось добиться успеха. Современные системы распознавания речи на основе мимики хорошо «считывали» отдельные слова и словосочетания, однако они не могли справиться с целыми предложениями.
Авторы нового исследования преодолели это ограничение с помощью программы LipNet, в основе которой лежит использование LSTM-нейросети. Эта нейросеть представляет собой подвид рекуррентных нейросетей, для которых характерно наличие обратной связи. Ее главная особенность заключается в том, что она способна обучаться долговременным зависимостям. На практике это означает, что LSTM-нейросеть по умолчанию хранит информацию в течение продолжительного периода времени и способна работать с контекстом в длинных предложениях (подробнее о LSTM и рекуррентных нейросетях вы можете прочитать в нашем материале). Кроме того, исследователи также использовали специальную сверточную нейросеть (STCNN), которая хорошо справляется с задачей анализа видео, и обучение методом нейросетевой темпоральной классификации (Connectionist Temporal Classification, CTC).
КАК НАУЧИТЬСЯ ЧИТАТЬ ПО ГУБАМ?
В качестве исходного материала авторы работы взяли базу данных Grid, в которой было собрано более 32 тысяч видеозаписей. На них 13 человек произносили на английском языке предложения, построенные по одинаковому принципу: команда (4) + цвет (4) + предлог (4) + буква (25) + число (10) + наречие (4). В скобках указано количество вариантов слов для каждой из шести словесных категорий. Разнообразие вариантов обуславливается тем, что разные звуки (например, [p], [b], [m]) во время произношения выглядят почти одинаково, то есть имеют общую визему. Всего каждое предложение имело по 64 тысячи вариантов.
В ходе тренировки LipNet училась следить за губами говорящего на видео, и на основе этого понимать, что он сказал. Программу обучали на 88 процентах выборки, оставшиеся 12 процентов были использованы для проверки ее работы.
Результаты тестирования показали, что LipNet может правильно распознавать речь по губам в 93,4 процентах случаев. Таким образом, системе удалось не только обойти другие программы, но и специально обученных людей (их точность распознавания речи достигает 52,3 процентов). Тем не менее, сами авторы работы отмечают, что условия проверки работы LipNet были весьма «тепличными», при распознавании произвольной человеческой речи результат может быть значительно хуже.
Ранее компания Microsoft усовершенствовала систему распознавания устной речи, работа которой также основана на использовании сверточных и LSTM-нейросетей. Теперь система, которую планируется использовать в в голосовом помощнике Cortana, игровой приставке Xbox One и других программах, делает меньше ошибок, чем профессиональный специалист по набору текста.
Источник: nplus1.ru
Новое приложение умеет читать по губам
Оксфордские специалисты разработали новую программу с искусственным интеллектом, которая способна читать по губам и оказывать помощь людям с проблемами слуха.
Новинка имеет название Watch, Attend and Spell (WAS). Ее действие основано на компьютерном зрении и машинной системе обучения.
Ученые просмотрели свыше 5 тыс. часов видео с чтением по губам. В общей сложности на записи было представлено около 118 тыс. предложений и 17,5 тыс. слов. Специалисты сопоставили эффективность работы программы с работой живого эксперта, проводя тесты видеозаписей без звука, где демонстрировались лишь движения губ спикеров.
Новая разработка оказалось точной в большей степени, нежели человек. Эксперт правильно выявил 12 процентов слов, а программа — 50 процентов, допуская в процессе лишь очень небольшие погрешности (например, пропускалась какая-то буква в слове). Разработчики верят, что их открытие обеспечит глухонемым людям свободу общения.
Реклама на веке
Другое мобильное приложение Natural Cycles было признано одним из наиболее надежных средств контрацепции: одобрила немецкая экспертная организация Tuv Sud. Программа каждый день следит за температурой женского тела на протяжении всего цикла и оставляет рекомендации касательно оптимальных способов контрацепции. Таким образом, на основе данных о температуре, приложение определяет степень фертильности женщины на данное время.
Новинка была протестирована на огромном количестве женщин. Выяснилось, что она предупреждает наступление беременности настолько эффективно, насколько это делает оральный контрацептив. Приложение находится в той же группе с медицинскими принадлежностями, что и иголки для акупунктуры. Программу можно назвать единственной в своем роде, которая была сертифицирована как контрацептив.
В момент высокого риска беременности приложение советует воспользоваться презервативом. Известно, что накануне овуляции в теле увеличивается количество эстрогена, который понижает температуру. В период завершения овуляции, когда производится прогестерон, температура тела становится выше. Между этими фазами цикла и находится овуляция. В момент овуляции температура поднимается на 0,2-0,45 градусов, и программа улавливает это.
Источник: wek.ru
Читай по губам (РУС) на андроид — скачать Читай по губам (РУС) бесплатно
На данный момент мы работаем над описанием Читай по губам (РУС), Игры для Андроид от разработчика Maxim Troschinsky в категории Пазлы, , . Между тем вы можете прочитать официальное описание, предоставленное Maxim Troschinsky здесь.
Размер :
Операционная система :
Разработчик :
Рекомендации :
Рекомендуется для всей семьи.
Цена :
В приложении нет дополнительных покупок. Бесплатно
Cистемные требования для установки :
Минимум 14 MB свободного места в памяти телефона и операционная система Android 4.0 и выше.
Источник: www.androidlist-russia.com