С помощью этой программы вы сможете голосом выполнять различные команды (альтернатива VoiceMacro). Для этого программа использует Google Voice API поддержка более 50 языков. Некоторые возможности программы: ограничение на команд нет, указать уровень сигнала, при котором будет активирована запись; распознанный текст, может быть передан другим программам в поле ввода; для синтеза голоса можно использовать (Microsoft SAPI (Бесплатный синтезатор RHVoice), Google Text-To-Speech, Yandex Text-To-Speech, iSpeech Text-To-Speech, Nuance Text-To-Speech). Программа бесплатная но с ограничениями:
Лицензия необходима для:
1) Активации функций коррекции текста при передаче в поля ввода других программ.
а) Замена слов по списку.
б) Изменение первых букв предложений на прописные (Работает только для Русского и Английского текста).
2) Отправка текста в неактивные окна программ (Осуществляется с помощью метода WM_COPYDATA). Данный функционал
обычно необходим разработчикам программ, для организации взаимодействия своей программы с MSpeech.
Набор текста голосом
Источник: sonraid.ru
Как преобразовать голос в текст?
Многие пользователи современных смартфонов настолько привыкли к голосовым помощникам, преобразующим речь в текст, что хотели бы иметь подобный функционал и у себя на компьютере. В ОС Windows есть встроенный голосовой помощник — Cortana, но в русскоязычных дистрибутивах операционной системы функция распознавания речи на данный момент не работает. Потому остается использовать сторонние программы или онлайн-сервисы по преобразованию голоса в текст.
Программа распознавания речи Voco
Voco — отечественная программа, позиционируемая разработчиками как профессиональное средство преобразования голоса в текс, которое по скорости работы превосходит в 1,5-3 раза даже самого опытного стенографиста. Кроме того, при помощи данной программы можно преобразовывать в текст ранее созданные аудиозаписи.
Это платное приложение с возможностью пробного использования без функциональных ограничений в течение 14 дней. Программа работает только в 64-битных версиях Windows 7/8/10. При этом для ее нормального функционирования требуется довольно мощный процессор (Intel Core i5 или мощнее). Процессоры с низкой производительностью не смогут обрабатывать речь пользователя достаточно быстро.
Как пользоваться программой Voco?
Все, что требуется для преобразования голоса в текст при помощи Voco:
- Открыть любой установленный на компьютере текстовый редактор (подойдет даже обычный Блокнот). Также можно кликнуть по любому текстовому полю (например, в браузере).
- Запустить функцию распознавания речи (по умолчанию — это двукратное нажатие клавиши «Ctrl»).
- Говорить в микрофон. Программа Voco начнет автоматически преобразовывать речь пользователя, вписывая слова в текстовый редактор или текстовое поле, находящееся в фокусе.
Голосовой набор текста 🎤
Программа Voco автоматически проставляет пробелы между словами, союзами, предлогами, частицами, а также распознает в речи пользователя команды на проставление знаков препинания.
Приложение Voco способно «обучаться». Если задействовать соответствующую функцию в настройках, программа будет анализировать тексты и речевую модель пользователя, что позволит в дальнейшем улучшить качество и увеличить скорость распознавания голоса.
Кроме того, программа Voco способна преобразовывать в текст голос из звукозаписей, однако для этого на компьютере должен быть установлен и специальным образом настроен (инструкцию можно найти во встроенной справке) редактор Microsoft Word версии 2010 или выше.
Преобразование голоса в текст при помощи MSpeech
MSpeech — программа для распознавания речи с открытым исходным кодом, понимающая более 50 языков. В качестве модуля распознавания используется Google Voice Api (тот же самый, что и в мобильных устройствах под управлением Android). Т.е. приложение не работает без подключения к интернету.
В отличие от предыдущей программы, MSpeech не преобразовывает речь в режиме реального времени. Вместо этого она сначала осуществляет запись голоса пользователя, отправляет его на сервисы Google, где происходит преобразование, а затем вписывает полученный результат в текстовое поле любого активного окна.
Программа MSpeech очень проста в использовании:
- Запускаем функцию записи голоса, используя горячие клавиши (по умолчанию — «Ctrl + Alt + F10») либо путем нажатия на кнопку «Начать запись» в основном окне приложения.
- По завершению произношения речи просто выключаем запись. Программа автоматически вставит текст в открытый текстовый редактор или текстовое поле, на котором находится фокус.
Также MSpeech позволяет запускать и останавливать выполнение любых внешних программ, открывать файлы, выполнять команды командной строки Windows и преобразовывать текст в голос. Команды можно создавать самому в неограниченном количестве, используя соответствующую функцию в настройках приложения.
Преобразование аудиозаписей в текст на RealSpeaker.net
Онлайн-сервис RealSpeaker.net предоставляет возможность преобразования голоса в текст из загруженных пользователем аудио- и даже видеозаписей. Записи продолжительностью до 1,5 минуты можно преобразовывать бесплатно. За преобразование аудио- или видеозаписей более этого времени придется заплатить по тарифу в 8 рублей за минуту (цена на момент написания обзора). Однако продолжительные аудио- и видеофайлы всегда можно разделить на фрагменты по 90 секунд в любом подходящем редакторе, а затем загружать их на сервис RealSpeaker по отдельности.
Пользоваться данным сервисом очень просто:
- Выбираем нужный язык для преобразования на главной странице сервиса и жмем кнопку «Продолжить».
- Загружаем на сайт аудио- или видеофайл, который следует преобразовать в текст.
- На новой странице отобразится список загруженных на сайт файлов, причем среди них будут и те, что загружены другими пользователями. Находим нашу аудио-/видеозапись и нажимаем на кнопку «Транскрибировать» напротив ее названия.
- По завершению преобразования откроется новая страница с полученным текстом, в котором будут отсутствовать знаки препинания. Для этого разработчики сервиса предусмотрели текстовый редактор. Моно внести в текст правки прямо на сайте либо скопировать его в любой другой редактор на компьютере.
Преобразование голоса на Speechpad.ru
Speechpad.ru (или «Голосовой блокнот») — онлайн-сервис, использующий для преобразования голоса в текста все тот же Google Voice Api. Через браузер данным сервисом можно пользоваться бесплатно и без ограничений. Однако разработчики также предлагают установить плагин для браузера Google Chrome, который можно настроить таким образом, чтобы он взаимодействовал с любыми программами на компьютере, т.е. обеспечивал автоматический ввод текста в редакторы и текстовые поля. Но эту функцию мы рассматривать не будем, остановимся на онлайн-преобразовании голоса:
- В нижней части главной страницы Speechpad.ru расположен модуль преобразования голоса в текст. Нажмите на кнопку «Включить запись» и начните произносить речь в микрофон (браузер может запросить доступ к микрофону — нажмите на кнопку согласия, если покажется окно с запросом).
- По завершению произношения нажмите на кнопку «Отключить запись». Надиктованный текст переместится в «Результирующее поле», где его можно будет отредактировать и скачать в виде текстового документа.
Ручное транскрибирование голоса в текст
Существует ряд специализированных программ, предназначенных для ручного транскрибирования речи в текст. Такие приложения не способны автоматически преобразовывать голос в текст, однако делают более удобным выполнение задач по написанию текстов под диктовку, когда в качестве диктора выступает аудиозапись.
Программы для ручного транскрибирования аудио обычно представляют собой мультимедиа-проигрыватель. Некоторые приложения имеют встроенный текстовый редактор, служащий для написания в него текстов, у других — редактор отсутствует, но предусмотрена возможность управления посредством глобальных горячих клавиш.
Для примера рассмотрим функционал бесплатной программы LossPlay . Текстовый редактор у нее отсутствует, зато имеется возможность использования этого приложения в качестве мультимедиа-проигрывателя, т.к. он поддерживает множество форматов аудио- и видеофайлов, а также имеет свойственный видео- и аудиоплеерам пользовательский интерфейс.
Функционал LossPlay, относящийся к транскрибированию (все перечисленные функции запускаются горячими клавишами, которые можно настроить по желанию):
- Возможность ускорения и замедления проигрываемого аудио или видеоролика.
- Два режима перемотки аудио/видео, в каждом из которых время устанавливается вручную.
- Управление громкостью левого и правого канала по отдельности (удобно при транскрибировании диалогов, записанных в разделенном двухканальном режиме).
- Создание скриншота текущего кадра видео и его автоматическое сохранение на диск.
- Переключение аудиодорожек и субтитров в видео, если таковые имеются.
- Одновременная работа с 4-мя плейлистами, при этом в них могут быть указаны, как аудио-, так и видеофайлы.
- Создание до 30 отдельных текстовых строк неограниченной длины, вставляемых в печатаемый текст посредством горячих клавиш.
- Вставка в печатаемый текст тайм-кода (текущей временной позиции проигрываемого медиафайла).
- Отслеживание буфера обмена и сохранение скопированного текста в базе с возможностью последующей вставки, всего, что ранее копировал пользователь.
- Наличие таких удобных опций, как отмотка воспроизведения на секунду назад при снятии с паузы, автоматическая остановка воспроизведения каждые несколько секунд на определенное время (оба параметра задаются вручную), автоматическая вставка тайм-кода.
Источник: www.softsalad.ru
Голосовой ввод
Голосовой ввод – способ ввода текста при помощи обычной речи, передаваемой посредством микрофона. Иногда голосовой ввод ассоциируется с голосовым управлением компьютером, однако, последнее является более простой задачей и не подразумевает полноценного преобразования голоса в текст. Наиболее развиты функции голосового набора в мобильных операционных системах Android и iOS, но, при необходимости, их можно реализовать и в Windows. Кстати, в последней версии Windows 10 Microsoft планирует доработать русскоязычный голосовой ввод до уровня встроенного в систему модуля (англоязычный модуль уже работает), однако, обладателям более старых версий всё-таки придётся пользоваться сторонними решениями. Если Вам хочется попробовать превратить свой компьютер в виртуального стенографиста, попробуйте один из предложенных в статье ниже способов или форму ниже:
Форма для распознавания голоса в текст онлайн
Нажмите на иконку микрофона и начните говорить. Говорите! Не было записано никаких звуков. Возможно, Вам нужно настроить микрофон. Микрофон не подключён.
Убедитесь, что Вы подключили его к нужному разъёму и проверьте правильность настроек микрофона. Чтобы активировать микрофон, нажмите кнопку «Разрешить» вверху. Не было дано разрешения на работу микрофона. Использование микрофона заблокировано. Чтобы исправить это, перейдите в настройки браузера по адресу: chrome://settings/contentExceptions#media-stream Web Speech API не поддерживается Вашим браузером.
Установите браузер Chrome версии 25 и выше.
Копировать и вставить
Нажмите CTRL+C чтобы скопировать текст. (Command+C на Mac OS.)
Создать Email
Текст отправлен в почтовую программу по умолчанию. (См.: chrome://settings/handlers для изменений.)
Как преобразовать речь в текст
Если Вы слишком медленно печатаете на клавиатуре, а учиться десятипальцевому методу набора лень, можете попробовать воспользоваться современными программами и сервисами голосового ввода текста. Клавиатура, бесспорно, достаточно удобный инструмент управления компьютером.
Однако, когда дело доходит до наборки длинного текста, мы понимаем всё её (а, если быть честными, то наше :)) несовершенство. На ней ещё нужно уметь быстро печатать! Пару лет назад я, желая упростить себе работу по написанию статей, решил найти такую программу, которая бы позволяла преобразовать голос в текст.
Я думал, как было бы хорошо, если бы я просто говорил всё что нужно в микрофон, а компьютер печатал вместо меня 🙂 Каково же было моё разочарование, когда я понял, что на тот момент никаких реально работающих (а тем более бесплатных) решений для этого дела не существовало. Были, правда, отечественные разработки, вроде «Горыныча» и «Диктографа».
Они понимали русский язык, но, увы, качество распознавания речи имели довольно низкое, требовали долгой настройки с созданием словаря под свой голос, да ещё и стоили довольно недёшево. Потом на свет появился Android и ситуация немного сдвинулась с мёртвой точки.
В этой системе голосовой ввод появился в качестве встроенной (и довольно удобной) альтернативы ввода с виртуальной экранной клавиатуры. И вот недавно в одном из комментариев меня спросили, есть ли возможность голосового ввода для Windows? Я ответил, что пока нет, но решил поискать и оказалось, что, может и не совсем полноценная, но такая возможность существует! О результатах моих изысканий и будет сегодняшняя статья.
Проблема распознавания речи
Перед тем как начать разбор существующих на сегодняшний день решений для голосового ввода в Windows, хотелось бы немного осветить суть проблемы распознавания речи компьютером. Для более точного понимания процесса предлагаю взглянуть на следующую схему: Как видим, преобразование речи в текст происходит в несколько этапов:
- Оцифровка голоса. На этом этапе качество зависит от чёткости дикции, качества микрофона и звуковой карты.
- Сравнение записи с записями в словаре. Здесь работает принцип «чем больше – тем лучше»: чем больше записанных слов содержит словарь, тем выше шансы того, что Ваши слова будут распознаны правильно.
- Вывод текста. Система автоматически, ориентируясь по паузам, пытается выделить из потока речи отдельные лексемы, соответствующие шаблонным лексемам из словаря, а затем выводит найденные соответствия в виде текста.
Главная проблема, как нетрудно догадаться, кроется в двух основных нюансах: качестве оцифрованного отрезка речи и объёме словаря с шаблонами. Первую проблему реально минимизировать даже при наличии дешёвого микрофона и стандартной звуковой карты. Достаточно просто говорить не спеша и внятно.
Со второй проблемой, увы, не всё так просто. Компьютер, в отличие от человека, не может корректно распознать одну и ту же фразу, сказанную, например, женщиной и мужчиной. Для этого в его базе должны существовать оба варианта озвучки разными голосами!
В этом и кроется основной подвох. Создать словарь для одного человека, в принципе, не так сложно, однако, учитывая, что каждое слово должно быть записано в нескольких вариантах, это получается очень долго и трудозатратно. Поэтому, большинство из существующих на сегодняшний день программ для распознавания речи либо стоят слишком дорого, либо не имеют собственных словарей, предоставляя пользователю возможность создать их самостоятельно.
Я не зря упомянул про Андроид чуть выше. Дело в том, что Гугл, который его разрабатывает, создал и единственный на сегодня общедоступный глобальный онлайн-словарь для распознавания речи (причём многоязычный!) под названием Google Voice API. Подобный словарь для русского языка также создаёт Яндекс, но пока он, увы, ещё непригоден для использования в реальных условиях. Поэтому практически все бесплатные решения, которые мы рассмотрим ниже, работают именно со словарями Google. Соответственно, все они имеют одинаковое качество распознавания и нюансы заключаются лишь в дополнительных возможностях.
Программы голосового ввода
Полноценных программ для голосового ввода под Windows не так уж много. Да и те, которые есть и понимают русский язык, в основном являются платными. Например, стоимость популярной пользовательской системы преобразования голоса в текст RealSpeaker стартует с отметки 2 587 руб, а профессионального комплекса Цезарь-Р аж с 35 900 руб!
Но среди всего этого дорогого софта имеется одна программка, которая не стоит и копейки, но при этом предоставляет функционал, более чем достаточний для большинства пользователей. Называется она MSpeech:
Основное окно программы имеет максимально простой интерфейс – индикатор уровня звука и всего три кнопки: включить запись, остановить запись и открыть окно настроек. Работает MSpeech также весьма просто. Вам нужно нажать кнопку записи, установить курсор в окно, в которое должен выводиться текст и начать диктовать. Для большего удобства запись и её остановку лучше производить горячими клавишами, которые можно задать в Настройках:
Кроме горячих клавиш Вам может потребоваться изменить тип передачи текста в окна нужных программ. По умолчанию установлен вывод в активное окно, однако, можно задать передачу в неактивные поля или в поля конкретной программы. Из дополнительных возможностей стоит отметить группу настроек «Команды», которая позволяет реализовать голосовое управление компьютером при помощи заданных Вами фраз.
Вообще же MSpeech – довольно удобная программа, которая позволяет набирать текст голосом в любом окне Windows. Единственный нюанс в её использовании – компьютер должен быть подключён к Интернету для доступа к словарям Гугла.
Голосовой ввод онлайн
Если Вам не хочется устанавливать на свой компьютер никаких программ, но есть желание попробовать вводить текст голосом, можете воспользоваться одним из многочисленных онлайн-сервисов, которые работают на базе всё тех же словарей Гугла.
Ну и, естественно, первым делом стоит упомянуть о «родном» сервисе Google под названием Web Speech API:
Этот сервис позволяет переводить в текст неограниченные отрезки речи на более чем 50 языках! Вам достаточно просто выбрать язык, на котором Вы говорите, нажать на иконку микрофона в правом верхнем углу формы, при необходимости подтвердить разрешение на доступ сайта к микрофону и начать говорить.
Если Вы не используете какую-либо узкоспециализированную терминологию и говорите внятно, то сможете получить весьма неплохой результат. Кроме слов сервис «понимает» ещё и знаки препинания: если Вы скажете «точка» или «запятая», необходимый знак появится в форме вывода.
По окончании записи распознанный текст будет автоматически выделен и Вы сможете скопировать его в буфер обмена или отправить по почте.
Из недостатков стоит отметить лишь возможность работы сервиса только в браузере Google Chrome старше 25-й версии, а также отсутствие возможности мультиязычного распознавания.
Кстати, на нашем сайте вверху Вы найдёте полностью русифицированную версию этой же формы распознавания речи. Пользуйтесь на здоровье 😉
На базе сервиса Гугла существует достаточно аналогичных онлайн-ресурсов распознавания речи. Одним из представляющих для нас интерес можно назвать сайт Dictation.io:
В отличие от Web Speech API, Dictation.io имеет более стильное оформление в виде блокнота. Основным его преимуществом перед сервисом Гугла является то, что он позволяет остановить запись, а затем снова запустить и при этом введённый ранее текст сохранится пока Вы сами не нажмёте кнопку «Clear».
Как и сервис Google Dictation.io «умеет» ставить точки, запятые, а также восклицательный знак и знак вопроса, но не всегда начинает новое предложение с большой буквы.
Если же Вы ищете сервис с максимальным функционалом, то, наверное, одним из лучших в этом плане будет TalkTyper:
Главные преимущества сервиса:
- наличие русскоязычного интерфейса;
- возможность просмотра и выбора вариантов распознавания;
- наличие голосовых подсказок;
- автоотключение записи после длительной паузы;
- встроенный текстовый редактор с функциями копирования текста в буфер обмена, распечатки его на принтере, отправки по почте или в Твиттер и перевода на другие языки.
Единственным недостатком сервиса (кроме уже описанных общих недостатков Web Speech API) является не совсем привычный для подобных сервисов алгоритм работы. После нажатия кнопки записи и надиктовки текста, его нужно проверить, выбрать вариант, наиболее соответствующий тому, что Вы хотели сказать, а затем перенести в текстовый редактор внизу. После чего процедуру можно повторить.
А если нужно наоборот, перевести текст в голос, можно использовать онлайн-синтезатор речи https://voicebot.su. Он позволяет озвучивать текст на нескольких языках. Работает без дополнительных настроек, запускается даже на слабом компьютере и смартфоне.
Плагины для Хрома
Кроме полноценных программ и онлайн-сервисов, существует ещё один способ распознать речь в текст. Этот способ реализовывается за счёт плагинов для браузера Google Chrome.
Главным преимуществом использования плагинов является то, что с их помощью Вы можете вводить текст голосом не только в специальной форме на сайте сервиса, но и в любом поле ввода на любом веб-ресурсе! Фактически плагины занимают промежуточную нишу между сервисами и полноценными программами для голосового ввода.
Одним из лучших расширений для перевода речи в текст является SpeechPad:
Не совру, если скажу, что SpeechPad – один из лучших русскоязычных сервисов перевода речи в текст. На официальном сайте Вы найдёте довольно мощный (хоть и немного староватый дизайном) онлайн-блокнот со множеством продвинутых функций, среди которых есть:
- поддержка голосовых команд управления компьютером;
- улучшенная поддержка расстановки знаков препинания;
- функция отключения звуков на ПК;
- интеграция с Windows (правда, на платной основе);
- возможность распознавания текста с видео или аудиозаписи (функция «Транскрибация»);
- перевод распознанного текста на любой язык;
- сохранение текста в текстовый файл, доступный для скачивания.
Что же касается плагина, то он предоставляет нам максимально упрощённый функционал сервиса. Установите курсор в нужное Вам поле ввода, вызовите контекстное меню и нажмите на пункт «SpeechPad». Теперь подтвердите доступ к микрофону и, когда поле ввода станет розовым, надиктуйте нужный текст.
После того, как Вы прекратите говорить (пауза более чем в 2 секунды), плагин сам остановит запись и выведет в поле всё, что Вы сказали. При желании Вы можете зайти в настройки плагина (правый клик на иконке плагина вверху) и изменить параметры по умолчанию:
Как ни странно, но во всём Интернет-магазине расширений Гугла мне больше не попалось ни одного стоящего плагина, который бы позволял реализовать голосовой ввод в любом текстовом поле. Единственным похожим расширением было англоязычное Oweb Voice Input. Оно добавляет иконку микрофона ко всем полям ввода на веб-странице, но не всегда правильно располагает её, поэтому она может оказаться вне экрана.
Если же Вы являетесь любителем социальной сети VK.com, то можете установить расширение Голосовой ввод для ВКонтакте:
После установки данного плагина ко всем полям ввода ВКонтакте добавляется иконка микрофона, нажатие на которую активирует запись звука с последующим распознаванием сказанного Вами в текст. Работает плагин хорошо, но, увы, только ВКонтакте.
Выводы
Несмотря на то, что до сих пор не существует способа, который бы обеспечил стопроцентное распознавание голоса в текст, за последние годы прогресс всё же наметился. Как мы могли убедиться, этому активно способствует корпорация Google. Создав свой Web Speech API, Гугл, практически открыл дорогу всем желающим для создания программ и сервисов перевода речи в текст. Причём, все они потенциально бесплатны!
Если Гугл не забросит развитие словарей распознавания голоса (как это у него, увы, часто бывало с другими проектами), то уже в ближайшем будущем у нас будет шанс получить качественные и бесплатные инструменты голосового ввода. Думаю, что так оно и будет, поскольку даже наш Яндекс ведёт активную работу в данном направлении. А, если будет конкуренция, то будет и развитие.
На сегодняшний же день мы уже можем использовать некоторые наработки, которые дают нам возможность распознавать речь с точностью от 60 до 90% (зависит от Вашей дикции и качества микрофона). В принципе, такой точности достаточно для надиктовки чернового варианта любого текста с последующей его правкой. Поэтому, если Вы до сих пор медленно печатаете, попробуйте голосовой ввод. Вполне возможно, что Вы будете очень довольны 😉
P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.
Источник: www.bestfree.ru