Развитие технологий распознавания голоса даёт пользователям новые возможности для взаимодействия с различными устройствами. Мы постепенно привыкаем к голосовым помощникам, но с помощью голоса можно не только узнавать погоду или включать музыку, но и набирать большие объёмы текста.
Что такое голосовой ввод текста
Голосовой ввод текста — это функция, основанная на технологии распознавании речи. Программа голосового ввода воспринимает произнесенные слова и преобразует их в письменный текст.
Не стоит путать голосовой ввод с голосовым управлением. Вторая технология упрощает пользователю выполнение каких-либо действий на устройстве — например, включает музыку или запускает приложения без помощи рук. Голосовой же ввод решает более узкую задачу — набор текста с помощью голоса.
Голосовой ввод применим в разных ситуациях:
- для перевода аудиофайлов в текстовый формат — например, для расшифровки интервью или записи лекции;
- для сохранения в файл большого объёма устного текста, ведь говорим мы намного быстрее, чем печатаем;
- для преодоления физических ограничений, при которых нет возможности набирать текст на клавиатуре.
Для использования голосового ввода нужен лишь микрофон. Владельцы ноутбуков могут использовать микрофон, встроенный в аппарат, а владельцы стационарных компьютеров — тот, что есть в веб-камерах, которые подключаются к ПК.
голосовое управление компьютером Jarvis
В принципе, для голосового ввода подойдёт любой микрофон, если говорить чётко и не очень быстро. Особой настройки оборудования тоже не требуется. Достаточно убедиться в том, что система воспринимает звук через микрофон.
Проверка и настройка микрофона
Прежде всего подключите микрофон к компьютеру. Если вы хотите использовать встроенное устройство ноутбука или веб-камеры, то ничего подключать не надо. Затем найдите на панели уведомлений значок динамика. Он может быть спрятан под галочкой.
Кликните по значку динамика правой кнопкой и выберите пункт «Записывающие устройства». Это откроет список оборудования, которое можно использовать для записи звука. В этом списке должен быть и ваш микрофон вне зависимости от того, подключен он отдельно или встроен в ноутбук.
Если в списке записывающих устройств пусто, кликните на свободном месте правой кнопкой мышки и отметьте пункты «Показывать отключенные устройства» и «Показывать отсоединенные устройства». После того как микрофон появится в списке, откройте правым кликом его меню и выберите опцию «Включить». Также убедитесь, что он назначен устройством по умолчанию.
Голосовой ассистент на Python | Голосовое управление компьютером | Распознавание речи Python
Удостовериться в том, что система воспринимает звук с микрофона, очень просто: скажите в него что-нибудь. Если справа появляются зелёные полосы, значит всё готово к голосовому вводу. Попробуйте говорить тише или громче — вы заметите, как количество зелёных полос меняется в зависимости от громкости голоса.
При желании можно попробовать изменить стандартные параметры микрофона, добившись некоторого улучшения качества записи. Для этого:
- Кликните правой кнопкой по микрофону.
- Откройте его свойства.
- Перейдите на вкладку «Уровни».
- Поставьте максимальные значения громкости и усиления.
- Откройте вкладку «Улучшения».
- Включите подавление шума и эхо.
Количество опций для улучшения зависит от того, какая звуковая карта установлена на вашем компьютере. К сожалению, некоторые из них не имеют вообще никаких параметров для настройки, кроме управления громкостью и усилением. Но для голосового ввода это не критично — главное, чтобы система в принципе воспринимала звук через микрофон.
Программы для голосового ввода
Если вы планируете пользоваться голосовым вводом постоянно, то самое удобное решение — установить одну из программ, которая предоставляет такую возможность.
Dictate для MS Office
В 2017 году разработчики Microsoft выпустили дополнение Dictate. Оно доступно для бесплатной установки на Windows 8.1/10 в пакетах MS Office 2013 и старше. После инсталляции Dictate в Word, PowerPoint и Outlook появляется дополнительный раздел, позволяющий включить микрофон и использовать распознавание речи для начитки текста.
Спустя некоторое время Microsoft прекратила поддержку дополнения, интегрировав функцию распознавания речи в Office 365 и Windows 10. Если вы используете эту версию пакета приложений, то можете без труда наговорить любой текст через микрофон.
Как это сделать:
- Откройте Word.
- Нажмите сочетание клавиш Win+H.
- Кликните по значку микрофона и диктуйте текст.
Распознавание работает только в том случае, если в «Параметрах» включена соответствующая функция:
Несмотря на заявленную поддержку русского языка, качество его распознавания оставляет желать лучшего. Программа правильно записывает простые фразы, но на сложных предложениях часто спотыкается. Поэтому не стоит даже надеяться на то, что вы будете говорить безостановочно — для получения приемлемого результата необходимо делать паузы и чётко проговаривать все окончания. Распознавание аудиофайлов здесь не поддерживается — для этого нужны другие программы.
Расширение Dictate больше нельзя скачать с официальной страницы Microsoft, но оно осталось на других сайтах. Однако загрузка из сторонних источников может быть опасной из-за вирусной угрозы. Если у вас нет подписки на Office 365, то рекомендуем использовать другие программы для голосового набора текста.
MSpeech
MSpeech — простая программа для обработки речи и превращения голосового потока в текст, способная распознавать более 50 языков, среди которых русский.
После установки и запуска она сворачивается в системный трей. Чтобы вызвать её оттуда, кликните правой кнопкой мышки по иконке программы и выберите опцию «Показать».
Для управления записью здесь используются две кнопки — «Начать» и «Остановить».
Самые важные функции программы скрыты в её настройках. Нажмите на одноимённую кнопку, чтобы перейти в этот раздел. Здесь вы можете:
- Включить автозапуск приложения вместе с системой.
- Выбрать основной и дополнительный языки распознавания.
- Задать собственные команды для запуска других программ. Например, по ключевому слову «интернет» будет открываться Mozilla Firefox.
- Назначить горячие клавиши для управления записью.
- Включить передачу текста в другие программы: редакторы, офисные приложения, браузеры и т.д.
Для работы MSpeech требуется подключение к Интернету, так как программа использует Google Voice API.
Speechpad
Speechpad — это сервис, который можно использовать в браузере или интегрировать с операционными системами Windows и Linux для добавления голосового ввода в другие программы — например, «Блокнот» или офисные приложения.
Если вы хотите пользоваться голосовым вводом в Google Chrome, в том числе набирать сообщения и заполнять другие формы, сделайте следующее:
- Установите в Chrome расширение Speechpad.
- После инсталляции кликните по значку дополнения на верхней панели, чтобы открыть его настройки.
- Выберите язык голосового ввода.
- Нажмите «Save» и перезапустите браузер.
- Откройте любой сайт с текстовой формой. Это может быть поисковая строка Яндекса или диалог в соцсети.
- Кликните по полю правой кнопкой и выберите опцию «Speechpad».
Если голосовой ввод поддерживается, то форма окрасится в розовый цвет. Также вам нужно дать разрешение на использование микрофона, после чего вы можете диктовать текст.
Чтобы расширить действие сервиса на другие приложения Windows, необходимо установить дополнительный модуль интеграции.
- Скачайте модуль и распакуйте архив.
- Запустите файл install_host.bat.
- Зарегистрируйтесь в голосовом блокноте.
- Авторизуйтесь в кабинете пользователя и нажимаем на кнопку «Включить тестовый период».
- Откройте сайт голосового блокнота.
- Отметьте пункт «Интеграция с OS».
- Нажмите «Включить запись».
- Запустите любое приложение с текстовым редактором (например, Word) и диктуйте текст.
Интеграция с системой — платная услуга. Проверить её работу можно без покупки лицензии, но для постоянного использования требуется подписка: месяц — 100 рублей, 3 месяца — 250 рублей, 1 год — 800 рублей.
Voco
Voco — платное Windows-приложение для распознавания речи и преобразования её в текстовый формат. Оно даже поддерживает расстановку знаков препинания с помощью специальных команд.
Для проверки орфографии эта программа использует встроенные словари. Кроме того, вы можете научить её новым выражениям, открыв доступ к вашим письмам и документам.
- Basic — 1718 рублей. Бесплатные обновления в течение 1 года. Продление подписки на апдейты — 559 рублей ежегодно.
- Professional — 14 136 рублей. Продление подписки на обновления — 4937 рублей ежегодно.
- Enterprise — от 50 749 рублей. Продление подписки на обновления — 17 786 рублей ежегодно.
Для домашнего использования оптимально подходит Voco.Basic. Однако в ней нет распознавания аудиозаписей и тематических словарей. Эти возможности доступны только в старших версиях.
Веб-сервисы и приложения для голосового ввода
Для использования голосового ввода от случая к случаю можно обойтись без установки на компьютер специальных программ. Скорее всего, вам будет достаточно возможностей веб-сервисов и расширений для браузера.
Google Docs
Простой инструмент голосового ввода есть в Google Docs — сервисе для работы с текстовыми документами. Для его использования достаточно иметь аккаунт почты Gmail.
Как пользоваться голосовым вводом в Google Docs:
- Откройте сайт поисковой системы Google.
- Авторизуйтесь под своей учётной записью Google или зарегистрируйте новый профиль.
- Кликните по квадрату из точек, чтобы раскрыть меню с сервисами.
- Нажмите «Ещё», чтобы увидеть полный список.
- Перейдите в «Документы».
- В поле «Создать документ» нажмите «Пустой файл».
На экране появится текстовый редактор Google. Чтобы включить голосовой ввод, раскройте меню «Инструменты» и выберите соответствующую опцию. Слева появится виджет с микрофоном. Выберите в нём язык, на котором вы будете говорить, а затем нажмите на иконку микрофона, чтобы включить распознавание. Значок должен стать красным.
Если браузер запросит разрешение на использование микрофона, дайте его.
Запуск голосового ввода доступен также с помощью сочетания клавиш Ctrl+Shift+S. Функция запускается с языком, установленным по умолчанию.
После настройки начинайте говорить — Google Docs будет распознавать речь и превращать её в текст. Знаки препинания и новую строку проговаривайте словами, чётко произносите окончания слов — в противном случае исправлять текст придётся очень долго.
Speechpad
Speechpad — бесплатный сервис, который работает только в браузере Chrome. Выше мы рассказали, как настроить его интеграцию с Windows. Однако для набора небольшого фрагмента текста в этом нет необходимости — с задачей отлично справится веб-интерфейс голосового блокнота.
- Откройте сайт Speechpad.ru.
- Пролистните главную страницу до окна редактора.
- Выберите язык ввода.
- Нажмите на кнопку «Включить запись» и разрешите использование микрофона.
- Диктуйте текст.
Возле кнопки «Включить запись» вы увидите поле предварительного показа. В нём отображается то, что будет добавлено в документ.
Расставлять знаки препинания и переходить на новую строку можно голосом или кнопками, которые находятся между полем предварительного просмотра и редактором. При наведении на каждую кнопку появляется текст голосовой команды, к которой она применяется — например, «вопросительный знак» или «открыть скобку».
Итоговый документ доступен для скачивания в формате TXT.
VoiceNote
VoiceNote — ещё один сервис для преобразования голоса в текст, который работает только в Google Chrome. При попытке запустить его в другом браузере появляется сообщение об ошибке.
Для голосового ввода через VoiceNote можно использовать Live Demo или отдельное приложение для Chrome.
Как пользоваться VoiceNote:
- Откройте редактор.
- Нажмите на значок в виде земного шара и выберите язык ввода.
- Кликните по иконке микрофона.
- Разрешите использование записывающего устройства.
- Диктуйте текст.
Правила ввода здесь стандартные: знаки препинания можно проговаривать словами, а также голосом отправлять текст на новую строчку.
Полученный документ доступен для сохранения в формате TXT.
TalkTyper
TalkTyper — онлайн-редактор для голосового ввода. Главное его достоинство — поддержка 37 языков. Однако TalkTyper, как и предыдущие сервисы, работает только в Google Chrome.
Принцип ввода текста в этом редакторе не отличается от других: вы указываете язык, нажимаете на значок микрофона и разрешаете его использование. Знаки препинания и новая строка проговариваются словами.
Результат обработки текста в TalkTyper можно сохранить в виде документа в формате TXT, скопировать в буфер обмена, распечатать, отправить по почте, твитнуть и перевести на другой язык.
Voice Notepad
Voice Notepad — ещё один сервис для преобразования голоса в текст, работающий только в Chrome. Он поддерживает больше 120 языков ввода. В остальном функциональность у него такая же, как у сервисов, перечисленных выше: расстановка знаков препинания голосом, сохранение документа в формате TXT, копирование в буфер обмена, отправка по почте или на печать и т.д.
Особенность онлайн-сервисов заключается в том, что все они работают только в Google Chrome. Это связано с тем, что в их основе лежит лицензионная гугловская технология распознавания речи. Другие браузеры её не поддерживают или поддерживают с ограничениями. Например, Speechpad можно запускать в Яндекс.Браузере, однако в чужеродной среде он часто работает с ошибками. Так что если вы не пользуетесь Google Chrome, проще всего установить одну из программ для голосового ввода на компьютер и забыть про неудобства.
Источник: compconfig.ru
Что такое голосовые помощники в Windows?
Приложения голосового помощника могут использовать API ConversationalAgent Windows, что позволяет реализовывать в этих приложениях все возможности голосового помощника.
Функции голосового помощника
Приложения голосового агента можно активировать с помощью произнесенного ключевого слова, и тогда вам не придется включать голосовую связь руками. Активация голосом работает при закрытии приложения и при заблокированном экране.
Кроме того, Windows предоставляет набор настроек конфиденциальности голосовой активации, которые дают пользователям возможность управлять активацией голосом и вышеуказанными блокировками для каждого приложения.
После активации голоса Windows будет правильно управлять несколькими активными агентами и уведомлять каждого помощника, если они были приостановлены или отключены. Это позволяет приложениям правильно управлять прерываниями и другими событиями между агентами.
Как работает активация голосом?
Среда выполнения активации агента (AAR) — это постоянно работающий процесс Windows, который управляет активацией приложения по произнесенному ключевому слову или нажатию кнопки. Он запускается вместе с Windows, если в системе есть хотя бы одно такое зарегистрированное приложение. Приложения взаимодействуют с AAR через API ConversationalAgent в Windows SDK.
Когда пользователь произносит ключевое слово, программный или аппаратный определитель ключевых слов в системе уведомляет AAR об обнаружении ключевого слова, предоставляя идентификатор ключевого слова. AAR, в свою очередь, отправляет запрос BackgroundService на запуск приложения с соответствующим идентификатором приложения.
Регистрация
При первом запуске приложения, активируемого голосом, оно регистрирует свой идентификатор приложения и информацию о ключевых словах через API ConversationalAgent. AAR регистрирует все конфигурации в глобальном сопоставлении с помощью аппаратного или программного определителя ключевых слов в системе, что позволяет им обнаруживать ключевое слово приложения. Приложение также регистрируется в фоновой службе.
Обратите внимание, что это означает, что приложение не может быть активировано голосом, пока оно не будет запущено хотя бы один раз и регистрация не будет завершена.
Получение активации
После получения запроса от AAR фоновая служба запускает приложение. Приложение получает сигнал через метод жизненного цикла OnBackgroundActivated App.xaml.cs с уникальным аргументом события. Этот аргумент сообщает приложению, что оно было активировано AAR и должно начать проверку ключевых слов.
Если приложение успешно проверяет ключевое слово, оно выполнит запрос, отображаемый на переднем плане. Когда этот запрос завершается успешно, приложение отображает пользовательский интерфейс и продолжает взаимодействие с пользователем.
AAR по-прежнему сигнализирует активным приложениям, когда произносится их ключевое слово. Однако вместо того, чтобы сигнализировать через метод жизненного цикла App.xaml.cs , он подает сигнал через событие в API ConversationalAgent.
Проверка ключевого слова
Определитель ключевых слов, запускающий приложение, обеспечивает низкое энергопотребление за счет упрощения модели ключевых слов. Это позволяет определителю ключевых слов быть «всегда активным» без большого энергопотребления, но это также означает, что у определителя ключевых слов, вероятно, будет большое количество «ложных срабатываний», когда он определит ключевое слово, даже если это ключевое слово не было произнесено. Вот почему система голосовой активации запускает приложение в фоновом режиме: чтобы дать приложению возможность проверить, что ключевое слово было произнесено, прежде чем прерывать текущий сеанс пользователя. AAR сохраняет звукозапись от момента за несколько секунд до того, как ключевое слово было обнаружено, и делает ее доступной для приложения. Приложение может для этой записи запустить более надежный определитель ключевых слов.
Дальнейшие действия
- Изучите инструкции по разработке, чтобы обеспечить наилучшие условия для активации голосом.
- См. раздел голосовых помощников на странице начала работы Windows.
- Изучите страницу Пример голосового помощника UWP и выполните инструкции, чтобы запустить пример клиента.
Источник: learn.microsoft.com
Голосовой набор текста в Word: 5 вариантов
Всем привет! Сегодня мы разберем голосовой ввод текста в Word. Давайте для начала разберемся, а есть ли эта функция в программе? – да, она есть, и имеет поддержку с Ворда 2013 года и Windows 10 (да они работают вместе, тут ничего не поделаешь). Но есть маленький нюанс – данная функция не поддерживает русский язык.
В таком случае у нас есть 5 альтернативных вариантов. Вот о них я подробно рассказываю в статье ниже. И еще один момент – я вам не советую использовать отдельные программы для ввода текста. Дело в том, что они очень редко обновляются и имеют более скудные алгоритмы распознавания чем у Google или Word Online. Я протестировал парочку и пришел к выводу, что на данный момент они неработоспособны и сильно уступают своим онлайн-конкурентам.
ПРИМЕЧАНИЕ! Если в процессе возникнут какие-то трудности, текст не будет вводиться, то скорее всего у вас на компьютере неправильно подключен или настроен микрофон. Чтобы это исправить – читаем последнюю главу этой статьи.
Способ 1: Word online
В интернете существует бесплатная версия Microsoft Word онлайн, которая имеет почти те же самые функции, что и мобильная ПК версия. Но плюс, там есть возможность голосового набора текста, с поддержкой большого количества языков (в том числе и русский).
- Заходим на официальную страничку сервиса .
- Жмем «Войти». Если у вас установлена Windows 8, 10 или 11, то можете использовать эту учетную запись. Или вы можете создать новую, нажав по кнопке «Бесплатная регистрация».
- Вводим электронный ящик и пароль. Почту, которая привязана к Windows можно посмотреть через «Пуск» – «Параметры».
- Слева в меню выбираем значок «Word». После этого создаем «Новый пустой документ».
- Посмотрите в правый верхний угол и найдите в панели инструментов кнопку «Диктовать» со значком микрофона – нажмите по ней.
- Обязательно разрешаем доступ к микрофону компьютера.
- По середине в самом низу вы должны увидеть новую панель. Чтобы начать запись нажимаем по центральной кнопке.
- Перед этим я все же советую зайти в параметры диктофона, нажав по шестеренке. В строке «Язык речи» можно поменять язык ввода. Обязательно посмотрите, чтобы в параметре «Микрофон» стояло правильное устройство ввода. Иногда браузер подхватывает не то устройство. Есть также две настройки: «Автопунктуация» – позволяет автоматом ставить знаки препинания. Но для русского она плохо работает. Вторая настройка: «Фильтр ненормативной лексики» – тут уж каждый сам решает, включать её или нет (по умолчанию она выключена).
- По умолчанию данный файл будет сохраняться в облачное хранилище «One Drive». Но вы можете его сохранить на компьютер – для этого жмем «Файл».
- Слева выбираем «Сохранить как». Далее можно скачать на компьютер как Word формат, так и PDF.
Способ 2: Google Docs
Не обязательно иметь у себя на компьютере лицензионную версию Word, так как в интернете вы свободно можете пользоваться онлайн версией на сайте Google Docs. И там же есть функция голосового ввода. Давайте теперь разберемся, как с этим можно работать.
- Открываем сайт – docs.google.com .
- Теперь создаем новый пустой документ, нажав по листу со значком цветного плюсика.
- В панели управления выбираем раздел «Инструменты». И находим там «Голосовой ввод». Или вы можете воспользоваться сочетанием горячих клавиш:
Ctrl + Shift + S
ПРИМЕЧАНИЕ! Напомню, чтобы использовать быстрые клавиши, нужно сначала зажать вспомогательные кнопки Ctrl и Shift , а потом нажать на S .
- Слева появится значок микрофона, просто нажмите по нему.
- По умолчанию будет стоять русский язык или язык вашего региона. Вы можете поменять его на любой другой, для этого нажмите по нему и из выпадающего списка выберите нужный вариант.
- Далее браузер спросит разрешение на использование микрофона – кликаем по кнопке «Разрешить». Напомню, что браузер при этом будет использовать то устройство ввода, которое стоит по умолчанию в системе. Теперь можете говорить в микрофон.
- Как только текст будет готов, вы можете скачать его – для этого жмем «Файл» – «Скачать» – выбираем формат. Также файл сохраняется у вас на Google-диске, и вы можете делиться им по ссылке с друзьями, знакомыми, родными и сотрудниками.
Способ 3: VoiceNote
В интернете сейчас полно онлайн-сервисов, которые позволяют делать набор текста голосом. Все их описывать нет смысла, так как они работают плюс-минус одинаково. Нужно понимать, что алгоритмы там не такие мощные, как у того же Google, поэтому могут быть ошибки. Самый лучший сервис, на мой взгляд – это «Voice Note». Давайте посмотрим, как с ним можно работать.
- Заходим на официальный сайт «ВойсНот» .
- Есть вариант установить приложение для браузера. Но я все же советую использовать онлайн версию.
- Сначала нужно выбрать язык – слева ниже листа нажмите по значку планетки.
- В панели справа находим микрофон и жмем по нему.
- Разрешаем доступ.
- Скачать файл в Word невозможно, поэтому лучше всего выделить текст. Если букв слишком много, то используем сочетание клавиш:
Ctrl + A
- После этого копируем текст в буфер обмена:
Ctrl + C
ПРИМЕЧАНИЕ! Можно просто нажать правой кнопкой мыши по тексту и выбрать «Копировать».
- Теперь открываем пустой файл Word и вставляем туда текст ( Ctrl + V ).
Способ 4: Speech Pad
Еще один очень хороший сервис, который мне удалось найти совершенно случайно. Работает он даже лучше, чем «VoiceNote». Инструкция будет аналогичная, поэтому рассказывать подробно не буду. Заходим на сайт . Пролистываем в самый низ и нажимаем по кнопке «Включить запись». Даем добро на использование микрофона и просто начинаем говорить.
После этого в верхней части вы увидите распознанный текст. Через какое-то время, если его не удалить, он перекинется в основное поле. Знаки тут нужно ставить вручную.
Все очень удобно. Лучше всего говорить по одному предложению. К сожалению, как и в прошлом варианте, можно скачать текст только в обычном текстовом формате. Поэтому я советую копировать и вставлять текст в готовый Ворд-документ, как мы это делали в прошлой главе. Но что самое крутое – это возможность транскрибации, когда запись текста идет с видео или аудиофайла.
Чтобы включить функцию, нажмите по надписи «Транскрибация» под основным листом.
Здесь можно залить собственное видео или аудио. Также можно указать ссылку на файл в интернете. Есть возможность записи текста с YouTube видео, для этого выделите нужную галочку сверху и введите ID видеозаписи.
Способ 5: Встроенная функция в Word
В 2017 году компания Microsoft начала разработку собственного проекта Dictate. Изначально он существовал отдельно, и программу можно было скачать на разных языках (только не на русском) с официального сайта.
Но с 2020 года его интегрировали в Windows 10 и Microsoft 365. Именно на его основе и работает голосовой помощник Cortana. Проблема в том, что он до сих пор не поддерживает русский язык и работает только с английским, канадских, индийским, австралийским, французским, немецким, японским, испанским и китайским. Если вам этого достаточно, то использовать его можно прям в Word, нажав по кнопкам:
+ H
После этого просто диктуем текст. Также функцию можно включить вручную:
- Переходим в «Пуск».
- Заходим в раздел «Специальные возможности».
- Слева пролистайте до подраздела «Голосовые функции» и включите распознавание речи.
Настройка и подключение микрофона
Если какой-то из способов не сработал, или текст почему-то не вводится, то значит есть проблема с подключением. Нам нужно сначала проверить, правильно ли подключен микрофон. Кроме случая с ноутбуком, так как микрофон там встроенный. Второе – нам нужно настроить микрофон. Об это подробно, с картинками и пояснениями – написано тут.
Вы также можете задавать свои вопросы в комментариях.
Источник: wifigid.ru