Как пользоваться программой mspeech

С помощью этой программы вы сможете голосом выполнять различные команды (альтернатива VoiceMacro). Для этого программа использует Google Voice API поддержка более 50 языков. Некоторые возможности программы: ограничение на команд нет, указать уровень сигнала, при котором будет активирована запись; распознанный текст, может быть передан другим программам в поле ввода; для синтеза голоса можно использовать (Microsoft SAPI (Бесплатный синтезатор RHVoice), Google Text-To-Speech, Yandex Text-To-Speech, iSpeech Text-To-Speech, Nuance Text-To-Speech). Программа бесплатная но с ограничениями:

Лицензия необходима для:
1) Активации функций коррекции текста при передаче в поля ввода других программ.
а) Замена слов по списку.
б) Изменение первых букв предложений на прописные (Работает только для Русского и Английского текста).
2) Отправка текста в неактивные окна программ (Осуществляется с помощью метода WM_COPYDATA). Данный функционал
обычно необходим разработчикам программ, для организации взаимодействия своей программы с MSpeech.

Набор текста голосом

Источник: sonraid.ru

Как преобразовать голос в текст?

Многие пользователи современных смартфонов настолько привыкли к голосовым помощникам, преобразующим речь в текст, что хотели бы иметь подобный функционал и у себя на компьютере. В ОС Windows есть встроенный голосовой помощник — Cortana, но в русскоязычных дистрибутивах операционной системы функция распознавания речи на данный момент не работает. Потому остается использовать сторонние программы или онлайн-сервисы по преобразованию голоса в текст.

Программа распознавания речи Voco

Voco — отечественная программа, позиционируемая разработчиками как профессиональное средство преобразования голоса в текс, которое по скорости работы превосходит в 1,5-3 раза даже самого опытного стенографиста. Кроме того, при помощи данной программы можно преобразовывать в текст ранее созданные аудиозаписи.

Это платное приложение с возможностью пробного использования без функциональных ограничений в течение 14 дней. Программа работает только в 64-битных версиях Windows 7/8/10. При этом для ее нормального функционирования требуется довольно мощный процессор (Intel Core i5 или мощнее). Процессоры с низкой производительностью не смогут обрабатывать речь пользователя достаточно быстро.

Как пользоваться программой Voco?

Все, что требуется для преобразования голоса в текст при помощи Voco:

  • Открыть любой установленный на компьютере текстовый редактор (подойдет даже обычный Блокнот). Также можно кликнуть по любому текстовому полю (например, в браузере).
  • Запустить функцию распознавания речи (по умолчанию — это двукратное нажатие клавиши «Ctrl»).
  • Говорить в микрофон. Программа Voco начнет автоматически преобразовывать речь пользователя, вписывая слова в текстовый редактор или текстовое поле, находящееся в фокусе.

Voco

Голосовой набор текста 🎤

Программа Voco автоматически проставляет пробелы между словами, союзами, предлогами, частицами, а также распознает в речи пользователя команды на проставление знаков препинания.

Программа Voco

Приложение Voco способно «обучаться». Если задействовать соответствующую функцию в настройках, программа будет анализировать тексты и речевую модель пользователя, что позволит в дальнейшем улучшить качество и увеличить скорость распознавания голоса.

Настройки Voco

Кроме того, программа Voco способна преобразовывать в текст голос из звукозаписей, однако для этого на компьютере должен быть установлен и специальным образом настроен (инструкцию можно найти во встроенной справке) редактор Microsoft Word версии 2010 или выше.

Преобразовывание звукозаписей в текст в программе Voco

Преобразование голоса в текст при помощи MSpeech

MSpeech — программа для распознавания речи с открытым исходным кодом, понимающая более 50 языков. В качестве модуля распознавания используется Google Voice Api (тот же самый, что и в мобильных устройствах под управлением Android). Т.е. приложение не работает без подключения к интернету.

В отличие от предыдущей программы, MSpeech не преобразовывает речь в режиме реального времени. Вместо этого она сначала осуществляет запись голоса пользователя, отправляет его на сервисы Google, где происходит преобразование, а затем вписывает полученный результат в текстовое поле любого активного окна.

Программа MSpeech очень проста в использовании:

  • Запускаем функцию записи голоса, используя горячие клавиши (по умолчанию — «Ctrl + Alt + F10») либо путем нажатия на кнопку «Начать запись» в основном окне приложения.

MSpeech

  • По завершению произношения речи просто выключаем запись. Программа автоматически вставит текст в открытый текстовый редактор или текстовое поле, на котором находится фокус.

Также MSpeech позволяет запускать и останавливать выполнение любых внешних программ, открывать файлы, выполнять команды командной строки Windows и преобразовывать текст в голос. Команды можно создавать самому в неограниченном количестве, используя соответствующую функцию в настройках приложения.

Программа MSpeech

Преобразование аудиозаписей в текст на RealSpeaker.net

Онлайн-сервис RealSpeaker.net предоставляет возможность преобразования голоса в текст из загруженных пользователем аудио- и даже видеозаписей. Записи продолжительностью до 1,5 минуты можно преобразовывать бесплатно. За преобразование аудио- или видеозаписей более этого времени придется заплатить по тарифу в 8 рублей за минуту (цена на момент написания обзора). Однако продолжительные аудио- и видеофайлы всегда можно разделить на фрагменты по 90 секунд в любом подходящем редакторе, а затем загружать их на сервис RealSpeaker по отдельности.

Пользоваться данным сервисом очень просто:

  • Выбираем нужный язык для преобразования на главной странице сервиса и жмем кнопку «Продолжить».

RealSpeaker.net

  • Загружаем на сайт аудио- или видеофайл, который следует преобразовать в текст.

Онлайн-сервис RealSpeaker.net

  • На новой странице отобразится список загруженных на сайт файлов, причем среди них будут и те, что загружены другими пользователями. Находим нашу аудио-/видеозапись и нажимаем на кнопку «Транскрибировать» напротив ее названия.
Читайте также:
Как работать в программе тинкеркад

Веб-сервис RealSpeaker.net

  • По завершению преобразования откроется новая страница с полученным текстом, в котором будут отсутствовать знаки препинания. Для этого разработчики сервиса предусмотрели текстовый редактор. Моно внести в текст правки прямо на сайте либо скопировать его в любой другой редактор на компьютере.

Результат преобразования голоса в текст на RealSpeaker.net

Преобразование голоса на Speechpad.ru

Speechpad.ru (или «Голосовой блокнот») — онлайн-сервис, использующий для преобразования голоса в текста все тот же Google Voice Api. Через браузер данным сервисом можно пользоваться бесплатно и без ограничений. Однако разработчики также предлагают установить плагин для браузера Google Chrome, который можно настроить таким образом, чтобы он взаимодействовал с любыми программами на компьютере, т.е. обеспечивал автоматический ввод текста в редакторы и текстовые поля. Но эту функцию мы рассматривать не будем, остановимся на онлайн-преобразовании голоса:

  • В нижней части главной страницы Speechpad.ru расположен модуль преобразования голоса в текст. Нажмите на кнопку «Включить запись» и начните произносить речь в микрофон (браузер может запросить доступ к микрофону — нажмите на кнопку согласия, если покажется окно с запросом).

Speechpad.ru

  • По завершению произношения нажмите на кнопку «Отключить запись». Надиктованный текст переместится в «Результирующее поле», где его можно будет отредактировать и скачать в виде текстового документа.

Сервис Speechpad.ru

Ручное транскрибирование голоса в текст

Существует ряд специализированных программ, предназначенных для ручного транскрибирования речи в текст. Такие приложения не способны автоматически преобразовывать голос в текст, однако делают более удобным выполнение задач по написанию текстов под диктовку, когда в качестве диктора выступает аудиозапись.

Программы для ручного транскрибирования аудио обычно представляют собой мультимедиа-проигрыватель. Некоторые приложения имеют встроенный текстовый редактор, служащий для написания в него текстов, у других — редактор отсутствует, но предусмотрена возможность управления посредством глобальных горячих клавиш.

Для примера рассмотрим функционал бесплатной программы LossPlay . Текстовый редактор у нее отсутствует, зато имеется возможность использования этого приложения в качестве мультимедиа-проигрывателя, т.к. он поддерживает множество форматов аудио- и видеофайлов, а также имеет свойственный видео- и аудиоплеерам пользовательский интерфейс.

LossPlay

Функционал LossPlay, относящийся к транскрибированию (все перечисленные функции запускаются горячими клавишами, которые можно настроить по желанию):

  • Возможность ускорения и замедления проигрываемого аудио или видеоролика.
  • Два режима перемотки аудио/видео, в каждом из которых время устанавливается вручную.

Программа LossPlay

  • Управление громкостью левого и правого канала по отдельности (удобно при транскрибировании диалогов, записанных в разделенном двухканальном режиме).
  • Создание скриншота текущего кадра видео и его автоматическое сохранение на диск.
  • Переключение аудиодорожек и субтитров в видео, если таковые имеются.
  • Одновременная работа с 4-мя плейлистами, при этом в них могут быть указаны, как аудио-, так и видеофайлы.
  • Создание до 30 отдельных текстовых строк неограниченной длины, вставляемых в печатаемый текст посредством горячих клавиш.
  • Вставка в печатаемый текст тайм-кода (текущей временной позиции проигрываемого медиафайла).

Настройки программы LossPlay

  • Отслеживание буфера обмена и сохранение скопированного текста в базе с возможностью последующей вставки, всего, что ранее копировал пользователь.
  • Наличие таких удобных опций, как отмотка воспроизведения на секунду назад при снятии с паузы, автоматическая остановка воспроизведения каждые несколько секунд на определенное время (оба параметра задаются вручную), автоматическая вставка тайм-кода.

Источник: www.softsalad.ru

Голосовой ввод

Голос в текст

Голосовой ввод – способ ввода текста при помощи обычной речи, передаваемой посредством микрофона. Иногда голосовой ввод ассоциируется с голосовым управлением компьютером, однако, последнее является более простой задачей и не подразумевает полноценного преобразования голоса в текст. Наиболее развиты функции голосового набора в мобильных операционных системах Android и iOS, но, при необходимости, их можно реализовать и в Windows. Кстати, в последней версии Windows 10 Microsoft планирует доработать русскоязычный голосовой ввод до уровня встроенного в систему модуля (англоязычный модуль уже работает), однако, обладателям более старых версий всё-таки придётся пользоваться сторонними решениями. Если Вам хочется попробовать превратить свой компьютер в виртуального стенографиста, попробуйте один из предложенных в статье ниже способов или форму ниже:

Форма для распознавания голоса в текст онлайн

Нажмите на иконку микрофона и начните говорить. Говорите! Не было записано никаких звуков. Возможно, Вам нужно настроить микрофон. Микрофон не подключён.

Убедитесь, что Вы подключили его к нужному разъёму и проверьте правильность настроек микрофона. Чтобы активировать микрофон, нажмите кнопку «Разрешить» вверху. Не было дано разрешения на работу микрофона. Использование микрофона заблокировано. Чтобы исправить это, перейдите в настройки браузера по адресу: chrome://settings/contentExceptions#media-stream Web Speech API не поддерживается Вашим браузером.

Установите браузер Chrome версии 25 и выше.

Копировать и вставить
Нажмите CTRL+C чтобы скопировать текст. (Command+C на Mac OS.)
Создать Email
Текст отправлен в почтовую программу по умолчанию. (См.: chrome://settings/handlers для изменений.)

Как преобразовать речь в текст

Если Вы слишком медленно печатаете на клавиатуре, а учиться десятипальцевому методу набора лень, можете попробовать воспользоваться современными программами и сервисами голосового ввода текста. Клавиатура, бесспорно, достаточно удобный инструмент управления компьютером.

Однако, когда дело доходит до наборки длинного текста, мы понимаем всё её (а, если быть честными, то наше :)) несовершенство. На ней ещё нужно уметь быстро печатать! Пару лет назад я, желая упростить себе работу по написанию статей, решил найти такую программу, которая бы позволяла преобразовать голос в текст.

Я думал, как было бы хорошо, если бы я просто говорил всё что нужно в микрофон, а компьютер печатал вместо меня 🙂 Каково же было моё разочарование, когда я понял, что на тот момент никаких реально работающих (а тем более бесплатных) решений для этого дела не существовало. Были, правда, отечественные разработки, вроде «Горыныча» и «Диктографа».

Они понимали русский язык, но, увы, качество распознавания речи имели довольно низкое, требовали долгой настройки с созданием словаря под свой голос, да ещё и стоили довольно недёшево. Потом на свет появился Android и ситуация немного сдвинулась с мёртвой точки.

Читайте также:
МФЦ как работать в программе

В этой системе голосовой ввод появился в качестве встроенной (и довольно удобной) альтернативы ввода с виртуальной экранной клавиатуры. И вот недавно в одном из комментариев меня спросили, есть ли возможность голосового ввода для Windows? Я ответил, что пока нет, но решил поискать и оказалось, что, может и не совсем полноценная, но такая возможность существует! О результатах моих изысканий и будет сегодняшняя статья.

Проблема распознавания речи

Схема распознавания речи

Перед тем как начать разбор существующих на сегодняшний день решений для голосового ввода в Windows, хотелось бы немного осветить суть проблемы распознавания речи компьютером. Для более точного понимания процесса предлагаю взглянуть на следующую схему: Как видим, преобразование речи в текст происходит в несколько этапов:

  1. Оцифровка голоса. На этом этапе качество зависит от чёткости дикции, качества микрофона и звуковой карты.
  2. Сравнение записи с записями в словаре. Здесь работает принцип «чем больше – тем лучше»: чем больше записанных слов содержит словарь, тем выше шансы того, что Ваши слова будут распознаны правильно.
  3. Вывод текста. Система автоматически, ориентируясь по паузам, пытается выделить из потока речи отдельные лексемы, соответствующие шаблонным лексемам из словаря, а затем выводит найденные соответствия в виде текста.

Главная проблема, как нетрудно догадаться, кроется в двух основных нюансах: качестве оцифрованного отрезка речи и объёме словаря с шаблонами. Первую проблему реально минимизировать даже при наличии дешёвого микрофона и стандартной звуковой карты. Достаточно просто говорить не спеша и внятно.

Со второй проблемой, увы, не всё так просто. Компьютер, в отличие от человека, не может корректно распознать одну и ту же фразу, сказанную, например, женщиной и мужчиной. Для этого в его базе должны существовать оба варианта озвучки разными голосами!

В этом и кроется основной подвох. Создать словарь для одного человека, в принципе, не так сложно, однако, учитывая, что каждое слово должно быть записано в нескольких вариантах, это получается очень долго и трудозатратно. Поэтому, большинство из существующих на сегодняшний день программ для распознавания речи либо стоят слишком дорого, либо не имеют собственных словарей, предоставляя пользователю возможность создать их самостоятельно.

Я не зря упомянул про Андроид чуть выше. Дело в том, что Гугл, который его разрабатывает, создал и единственный на сегодня общедоступный глобальный онлайн-словарь для распознавания речи (причём многоязычный!) под названием Google Voice API. Подобный словарь для русского языка также создаёт Яндекс, но пока он, увы, ещё непригоден для использования в реальных условиях. Поэтому практически все бесплатные решения, которые мы рассмотрим ниже, работают именно со словарями Google. Соответственно, все они имеют одинаковое качество распознавания и нюансы заключаются лишь в дополнительных возможностях.

Программы голосового ввода

Полноценных программ для голосового ввода под Windows не так уж много. Да и те, которые есть и понимают русский язык, в основном являются платными. Например, стоимость популярной пользовательской системы преобразования голоса в текст RealSpeaker стартует с отметки 2 587 руб, а профессионального комплекса Цезарь-Р аж с 35 900 руб!

Но среди всего этого дорогого софта имеется одна программка, которая не стоит и копейки, но при этом предоставляет функционал, более чем достаточний для большинства пользователей. Называется она MSpeech:

Программа для перевода речи в текст MSpeech

Основное окно программы имеет максимально простой интерфейс – индикатор уровня звука и всего три кнопки: включить запись, остановить запись и открыть окно настроек. Работает MSpeech также весьма просто. Вам нужно нажать кнопку записи, установить курсор в окно, в которое должен выводиться текст и начать диктовать. Для большего удобства запись и её остановку лучше производить горячими клавишами, которые можно задать в Настройках:

Настройки MSpeech

Кроме горячих клавиш Вам может потребоваться изменить тип передачи текста в окна нужных программ. По умолчанию установлен вывод в активное окно, однако, можно задать передачу в неактивные поля или в поля конкретной программы. Из дополнительных возможностей стоит отметить группу настроек «Команды», которая позволяет реализовать голосовое управление компьютером при помощи заданных Вами фраз.

Вообще же MSpeech – довольно удобная программа, которая позволяет набирать текст голосом в любом окне Windows. Единственный нюанс в её использовании – компьютер должен быть подключён к Интернету для доступа к словарям Гугла.

Голосовой ввод онлайн

Если Вам не хочется устанавливать на свой компьютер никаких программ, но есть желание попробовать вводить текст голосом, можете воспользоваться одним из многочисленных онлайн-сервисов, которые работают на базе всё тех же словарей Гугла.

Ну и, естественно, первым делом стоит упомянуть о «родном» сервисе Google под названием Web Speech API:

Голосовой ввод от Google

Этот сервис позволяет переводить в текст неограниченные отрезки речи на более чем 50 языках! Вам достаточно просто выбрать язык, на котором Вы говорите, нажать на иконку микрофона в правом верхнем углу формы, при необходимости подтвердить разрешение на доступ сайта к микрофону и начать говорить.

Если Вы не используете какую-либо узкоспециализированную терминологию и говорите внятно, то сможете получить весьма неплохой результат. Кроме слов сервис «понимает» ещё и знаки препинания: если Вы скажете «точка» или «запятая», необходимый знак появится в форме вывода.

По окончании записи распознанный текст будет автоматически выделен и Вы сможете скопировать его в буфер обмена или отправить по почте.

Из недостатков стоит отметить лишь возможность работы сервиса только в браузере Google Chrome старше 25-й версии, а также отсутствие возможности мультиязычного распознавания.

Читайте также:
Как переместить установленные программы в другую папку

Кстати, на нашем сайте вверху Вы найдёте полностью русифицированную версию этой же формы распознавания речи. Пользуйтесь на здоровье 😉

На базе сервиса Гугла существует достаточно аналогичных онлайн-ресурсов распознавания речи. Одним из представляющих для нас интерес можно назвать сайт Dictation.io:

Голосовой ввод от Dictation.io

В отличие от Web Speech API, Dictation.io имеет более стильное оформление в виде блокнота. Основным его преимуществом перед сервисом Гугла является то, что он позволяет остановить запись, а затем снова запустить и при этом введённый ранее текст сохранится пока Вы сами не нажмёте кнопку «Clear».

Как и сервис Google Dictation.io «умеет» ставить точки, запятые, а также восклицательный знак и знак вопроса, но не всегда начинает новое предложение с большой буквы.

Если же Вы ищете сервис с максимальным функционалом, то, наверное, одним из лучших в этом плане будет TalkTyper:

TalkTyper

Главные преимущества сервиса:

  • наличие русскоязычного интерфейса;
  • возможность просмотра и выбора вариантов распознавания;
  • наличие голосовых подсказок;
  • автоотключение записи после длительной паузы;
  • встроенный текстовый редактор с функциями копирования текста в буфер обмена, распечатки его на принтере, отправки по почте или в Твиттер и перевода на другие языки.

Единственным недостатком сервиса (кроме уже описанных общих недостатков Web Speech API) является не совсем привычный для подобных сервисов алгоритм работы. После нажатия кнопки записи и надиктовки текста, его нужно проверить, выбрать вариант, наиболее соответствующий тому, что Вы хотели сказать, а затем перенести в текстовый редактор внизу. После чего процедуру можно повторить.

А если нужно наоборот, перевести текст в голос, можно использовать онлайн-синтезатор речи https://voicebot.su. Он позволяет озвучивать текст на нескольких языках. Работает без дополнительных настроек, запускается даже на слабом компьютере и смартфоне.

Плагины для Хрома

Кроме полноценных программ и онлайн-сервисов, существует ещё один способ распознать речь в текст. Этот способ реализовывается за счёт плагинов для браузера Google Chrome.

Главным преимуществом использования плагинов является то, что с их помощью Вы можете вводить текст голосом не только в специальной форме на сайте сервиса, но и в любом поле ввода на любом веб-ресурсе! Фактически плагины занимают промежуточную нишу между сервисами и полноценными программами для голосового ввода.

Одним из лучших расширений для перевода речи в текст является SpeechPad:

SpeechPad для Google Chrome

Не совру, если скажу, что SpeechPad – один из лучших русскоязычных сервисов перевода речи в текст. На официальном сайте Вы найдёте довольно мощный (хоть и немного староватый дизайном) онлайн-блокнот со множеством продвинутых функций, среди которых есть:

  • поддержка голосовых команд управления компьютером;
  • улучшенная поддержка расстановки знаков препинания;
  • функция отключения звуков на ПК;
  • интеграция с Windows (правда, на платной основе);
  • возможность распознавания текста с видео или аудиозаписи (функция «Транскрибация»);
  • перевод распознанного текста на любой язык;
  • сохранение текста в текстовый файл, доступный для скачивания.

Что же касается плагина, то он предоставляет нам максимально упрощённый функционал сервиса. Установите курсор в нужное Вам поле ввода, вызовите контекстное меню и нажмите на пункт «SpeechPad». Теперь подтвердите доступ к микрофону и, когда поле ввода станет розовым, надиктуйте нужный текст.

После того, как Вы прекратите говорить (пауза более чем в 2 секунды), плагин сам остановит запись и выведет в поле всё, что Вы сказали. При желании Вы можете зайти в настройки плагина (правый клик на иконке плагина вверху) и изменить параметры по умолчанию:

Настройки SpeechPad

Как ни странно, но во всём Интернет-магазине расширений Гугла мне больше не попалось ни одного стоящего плагина, который бы позволял реализовать голосовой ввод в любом текстовом поле. Единственным похожим расширением было англоязычное Oweb Voice Input. Оно добавляет иконку микрофона ко всем полям ввода на веб-странице, но не всегда правильно располагает её, поэтому она может оказаться вне экрана.

Если же Вы являетесь любителем социальной сети VK.com, то можете установить расширение Голосовой ввод для ВКонтакте:

Голосовой ввод для ВКонтакте

После установки данного плагина ко всем полям ввода ВКонтакте добавляется иконка микрофона, нажатие на которую активирует запись звука с последующим распознаванием сказанного Вами в текст. Работает плагин хорошо, но, увы, только ВКонтакте.

Выводы

Несмотря на то, что до сих пор не существует способа, который бы обеспечил стопроцентное распознавание голоса в текст, за последние годы прогресс всё же наметился. Как мы могли убедиться, этому активно способствует корпорация Google. Создав свой Web Speech API, Гугл, практически открыл дорогу всем желающим для создания программ и сервисов перевода речи в текст. Причём, все они потенциально бесплатны!

Если Гугл не забросит развитие словарей распознавания голоса (как это у него, увы, часто бывало с другими проектами), то уже в ближайшем будущем у нас будет шанс получить качественные и бесплатные инструменты голосового ввода. Думаю, что так оно и будет, поскольку даже наш Яндекс ведёт активную работу в данном направлении. А, если будет конкуренция, то будет и развитие.

На сегодняшний же день мы уже можем использовать некоторые наработки, которые дают нам возможность распознавать речь с точностью от 60 до 90% (зависит от Вашей дикции и качества микрофона). В принципе, такой точности достаточно для надиктовки чернового варианта любого текста с последующей его правкой. Поэтому, если Вы до сих пор медленно печатаете, попробуйте голосовой ввод. Вполне возможно, что Вы будете очень довольны 😉

P.S. Разрешается свободно копировать и цитировать данную статью при условии указания открытой активной ссылки на источник и сохранения авторства Руслана Тертышного.

Источник: www.bestfree.ru

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru