«В этом 10-летнем периоде времени, я считаю, что мы не только будем использовать клавиатуру и мышь для взаимодействия, но и за это время мы усовершенствуем распознавание речи и речевой вывод достаточно хорошо, чтобы они стали стандартной частью интерфейс.» — Билл Гейтс, 1 октября 1997 г.
Технологии прошли долгий путь, и с каждым новым достижением человечество становится все более привязанным к ним и жаждет этих новых интересных функций на всех устройствах.
С появлением Siri, Alexa и Google Assistant пользователи технологий жаждут распознавания речи в повседневном использовании Интернета. В этом посте я расскажу, как интегрировать распознавание и синтез речи в браузере с помощью JavaScript WebSpeech API.
Согласно веб-документации Mozilla:
Web Speech API позволяет включать голосовые данные в веб-приложения. Web Speech API состоит из двух частей: SpeechSynthesis (преобразование текста в речь) и SpeechRecognition (асинхронное распознавание речи).
Требования, которые нам понадобятся для создания нашего приложения
В этом простом приложении для распознавания речи мы будем работать всего с тремя файлами, которые будут находиться в одном каталоге:
САМОЕ БЫСТРОЕ РАСПОЗНАВАНИЕ РЕЧИ БЕЗ ИНТЕРНЕТА НА PYTHON
- index.html , содержащий HTML-код приложения.
- style.css , содержащий стили CSS.
- index.js , содержащий код JavaScript.
Кроме того, нам нужно кое-что сделать. Вот они:
- Базовые знания JavaScript.
- Веб-сервер для запуска приложения. Для этого достаточно Веб-сервера для Chrome.
Настройка нашего приложения для распознавания речи
Давайте начнем с настройки HTML и CSS для приложения. Ниже представлена разметка HTML:
Speech Recognition http://soundbible.com/1598-Electronic-Chime.html —>
Вот сопровождающий его стиль CSS:
Копирование приведенного выше кода должно привести к примерно следующему:
Включение нашего приложения для распознавания речи с помощью WebSpeech API
На момент написания WebSpeech API доступен только в Firefox и Chrome. Его интерфейс синтеза речи живет в window объекте браузера как speechSynthesis , в то время как его интерфейс распознавания речи живет в объекте браузера window как SpeechRecognition в Firefox и как webkitSpeechRecognition в Chrome.
Разрабатываем приложения для распознавания речи с помощью Python
Под этим понимают автоматическое распознавание речи или голоса. Данное понятие включает в себя синтез осмысленных речевых сигналов с помощью семплирования, искусственных нейронных сетей и машинного обучения.
Голосовой ассистент на Python | Голосовое управление компьютером | Распознавание речи Python
Как создать программу для распознавания голоса
И мы можем использовать Google Web Speech API, который поставляется из этой библиотеки.
В этой реализации я записал свой голос, используя собственный микрофон, и SpeechRecognizer получил доступ к микрофону.(Установить Пакет PyAudio чтобы получить доступ к микрофону)и узнал мой голос соответственно.
Посмотрите фрагмент кода ниже, чтобы понять полную реализацию, так как они относительно понятны.
Спасибо за чтение.
Я надеюсь, что теперь у вас есть лучшее понимание того, как распознавание речи работает в целом и, что наиболее важно, как реализовать это с помощью Google Speech Recognition API с Python.
Не стесняйтесь проверить исходный код здесь если тебе интересно.
Я также рекомендую вам попробовать другие API для сравнения точности преобразования текста в текст.
Несмотря на то, что продукты с поддержкой речи не используются широко на предприятиях и в нашей повседневной жизни на данном этапе, я искренне верю, что эта технология нарушит работу многих компаний и то, как потребители будут использовать продукты с функциями распознавания голоса, рано или поздно.
Как всегда, если у вас есть какие-либо вопросы или комментарии, не стесняйтесь оставлять свои отзывы ниже, или вы всегда можете связаться со мной по LinkedIn, До тех пор, до встречи в следующем посте!
об авторе
Адмонд ли известен как один из самых востребованныхученые-данные и консультантыпомогая начинающим учредителям и различным компаниям решать их проблемы, используя данные с большим опытом вконсалтинг по науке о данных и отраслевые знания,
Вы можете связаться с ним на LinkedIn, средний, щебет, а также facebook или забронировать встречу с ним здесь если вы ищете консалтинга для вашей компании.
Источник: machinelearningmastery.ru