Доступность реализации сложных алгоритмов и других технических ноу-хау для современного программиста породила всплеск создания интересных проектов. Одним из них является система, имитирующая произношение произвольного текста выбранным голосом. О ее установке и запуске я расскажу в этой статье.
Репозиторий англоязычной версии такой нейросети располагается на GitHub , его создателем является CorentinJ . Также имеется построенный на базе указанного русскоязычный проект за авторством vlomme . Для скачивания первоисточников проектов на локальную машину следует использовать систему контроля версий Git (команды описаны здесь ). В частности, после перехода в локальную папку с вашими проектами на Python можно набрать:
git clone ссылка_на_удаленный_репозиторий имя_папки_для_проекта
Например, для русскоязычного проекта:
git clone https://github.com/vlomme/Multi-Tacotron-Voice-Cloning.git voice_cloning_test
Готовим виртуальное окружение
После создаем новое виртуальное окружение (процесс детально описан здесь ), так как потребуется установка определенных версий библиотек, которые могут быть несовместимы с другими имеющимися в вашей базовой сборке. С учетом того, что у меня установлена Anaconda, для этого я воспользовался командой:
Изменение голоса на Venom или девушки(Gtfobae )
conda create —name имя_среды python=3.7
Обратите внимание, что версия Python 3.7 на данный момент является последней из поддерживаемых нейросетью.
Источник: dzen.ru
Создаем собственную Alexa в 20 строках Python
У всех моих друзей есть Alexa, а у меня нет, из-за чего они надо мной смеются. Натерпевшись вдоволь, я решил: “Хватит!”.
Я связался со своей командой, и как только с моих уст прозвучало “Alexa”, кто-то из ребят выкрикнул: “Не покупай Alexa! Создай свою. Это можно сделать в 20 строк кода”.
О чем этот проект?
Его цель — сэкономить деньги и создать собственную Alexa, способную выполнять для вас массу полезных вещей.
Ваша бабушка будет в восторге! Ей ничего не придется делать вручную, достаточно будет голосовых команд, и виртуальный помощник сделает все, что нужно.
Немного терминологии
Модуль/библиотека:
Предопределенный или предварительно написанный кем-то код, который можно бесплатно использовать в своем проекте.
Класс:
Концепция из ООП, которая позволяет группировать код и в некотором смысле является схемой для создания объектов. Классы позволяют использовать код повторно.
Объект:
Экземпляр класса, который можно задействовать для обращения к атрибутам и методам класса.
У Alexa есть две задачи
1. Слушать
Прослушивание команд является основной функциональностью любого виртуального помощника. Команды бывают различные, например: “Алекса, включи музыку” или “Алекса, сколько время?”
ИЗМЕНИТЬ ГОЛОС в игре или приложении быстро!!! Clownfish Voice Changer
Помощник должен прослушать команду, понять ее и выполнить действие.
2. Говорить
Прослушивая и понимая команды, Alexa выполняет определенные действия. В ходе этого процесса она предоставляет голосовую обратную связь.
Реализация этих функций
Нам понадобятся два модуля Python:
- SpeechRecognition.
- Python Text-To-Speech (pyttsx3).
1. SpeechRecognition
Эта библиотека реализует распознавание речи: она помогает помощнику слушать ваши команды, понимать их и выполнять нужные действия.
Любой сторонний продукт нужно так или иначе устанавливать. Для этого выполните в терминале:
pip install SpeechRecognition
После установки можно использовать библиотеку в проекте. В процессе работы с модулем нам понадобятся три важных компонента.
1) Класс Recognizer: это основной класс модуля, который содержит все ключевые функции, нужные для создания приложения распознания речи.
Для начала нужно создать этот класс, а также его объекты:
r = sr.Recognizer()
Здесь r представляет просто произвольное имя, заданное для объекта. В его качестве можно использовать любую допустимую переменную Python.
2) Доступ к микрофону: так как помощнику нужно прослушивать команды, вам потребуется предоставить ему доступ к микрофону устройства. Для этого можно использовать класс Microphone :
# открываем микрофон и начинаем запись
with Microphone() as source:
# выполнение действий — «source« — это экземпляр микрофона, #созданный выше
pass
3) Прослушивание речи пользователя: после организации доступа к микрофону останется прописать прослушивание команд. Это можно сделать с помощью метода listen() , предоставляемого классом Recognizer :
# Прослушивает речь пользователя
# Принимает аудио-источник в качестве параметра
r.listen(source)
Таким образом происходит работа с распознаванием речи в Python. Разобравшись с основами этого модуля, можно переходить к следующему.
2. Python Text-To-Speech (pyttsx3)
Это библиотека Text-to-Speech (TTS) для Python 2 и Python 3, которая работает без обращения к интернету и каких-либо задержек.
Поскольку это сторонний модуль, сначала его нужно также установить:
pip install pyttsx3
Теперь с помощью этого модуля ваш помощник обретет дар речи.
Секрет: здесь мы просто преобразуем текст в речь.
Все остальное будет очень легко. Сначала нужно инициализировать модуль pyttsx3 с помощью метода init() и создать его объект. Затем можно использовать его функции для преобразования текста в речь:
engine = pyttsx3.init() engine.say(«Text to Speak Here») engine.runAndWait()
Здесь say() выполняет основную работу по преобразованию текста в речь, а runAndWait() ожидает, пока модуль закончит проговаривать конкретное предложение, после чего переходит к следующей задаче.
Разобравшись и с этим модулем, пора переходить к самому интересному.
Самое интересное
Как создать голос Алисы из Яндекса
- Смартфон на базе андроид
- Специальная программа
- Google Drive (диск)
- Ваш текст
Итак: Чтобы создать голос той самой помощницы Алисы из Яндекса, вам нужно скачать вот эту программу из Google Play market, затем зайти в приложение, и написать наш текст
Не забываем внизу в настройках выбрать голос: Алиса, а эмоциональный окрас ставим на доброжелательный далее жмем кнопку поделиться и сохраняем аудиофайл в любое доступное место, это может быть к примеру Google Drive (диск) либо локальное хранилище смартфона.
Не забываем: Если вы захотите экспортировать аудиофайл из смартфона на ваш компьютер,то вы должны знать данное приложение сохраняет файл в формате .ogg, и прослушать его обычным Windows media player не получиться, вам понадобиться VLC media Player либо просто переконвертируйте формат .ogg в нужный вам формат аудио.
Надеюсь я вам помог, поделись с другом =)
Источник: zpmirov.ru