Код программы распознавания речи

Содержание

This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.

Switch branches/tags
Branches Tags
Could not load branches
Nothing to show
Could not load tags

Nothing to show

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Cancel Create

Local
Codespaces

HTTPS GitHub CLI
Use Git or checkout with SVN using the web URL.
Work fast with our official CLI. Learn more about the CLI.

Please sign in to use Codespaces.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

САМОЕ БЫСТРОЕ РАСПОЗНАВАНИЕ РЕЧИ БЕЗ ИНТЕРНЕТА НА PYTHON

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

f922eb0 Feb 17, 2021

Git stats

Files

Failed to load latest commit information.

Latest commit message
Commit time
September 22, 2019 18:04
May 4, 2020 15:14
September 6, 2020 00:29
September 28, 2019 11:58

September 14, 2019 12:13
February 17, 2021 17:13
February 17, 2021 17:13
September 14, 2019 12:13
February 6, 2020 16:52

May 11, 2020 14:52

README.md

Проект для распознавания речи на русском языке на основе pykaldi.

Установить kaldi:

Установить необходимые Python-библиотеки:

$ pip install -r requirements.txt

Установить pykaldi:

С помощью conda (с поддержкой GPU):

$ conda install -c pykaldi pykaldi

С помощью conda (без поддержки GPU):

$ conda install -c pykaldi pykaldi-cpu

Собрать из исходников (раздел From Source):

Добавить в PATH пути к компонентам kaldi:

Склонировать репозиторий проекта:

$ git clone https://github.com/SergeyShk/Speech-to-Text-Russian.git

Отредактировать файл model/conf/ivector_extractor.conf, указав в нем корректные директории

Собрать docker-образ:

$ docker build -t speech_recognition:latest .

$ docker pull ghcr.io/sergeyshk/stt-ru:0.2.0

Создать docker-том для работы с внешними данными:

$ docker volume create -d local -o type=none -o o=bind -o device=[DIR] asr_volume

Запустить docker-контейнер:

$ docker run -it —rm -p 9000:9000 -p 5000:5000 -v asr_volume:/archive speech_recognition

Файлы проекта расположены в директории /speech_recognition:

start_recognition.py — скрипт запуска процедуры распознавания;
/tools — набор инструментов для распознавания:

data_preparator.py — скрипт подготовки данных для распознавания;
recognizer.py — скрипт распознавания речи;
segmenter.py — скрипт сегментации речи;
transcriptins_parser.py — скрипт парсинга результатов распознавания;

В качестве акустической и языковой модели используется русскоязычная модель от alphacep:

Голосовой ассистент на Python | Голосовое управление компьютером | Распознавание речи Python

При необходимости использования собственной модели, необходимо заменить соответствующие файлы в директории /model.

Внимание! Размер файла HCLG.fst составляет более 500МБ, поэтому для корректного клонирования репозитория необходимо установить на свой компьютер GitHub LFS. Также можно скачать данный файл вручную с соответствующей страницы проекта.

Подготовить директорию для размещения WAV-файлов;
Для запуска процедуры распознавания речи выполнить команду:

$ ./start_recognition.py /archive/wav /archive/output -dw -l

Для запуска режима мониторинга директории выполнить команду:

$ ./start_recognition.py /archive/wav /archive/output -l -t 60 -d 1

Описание параметров запуска доступно по команде:

usage: start_recognition.py [-h] [-rm REC_MODEL] [-rg REC_GRAPH] [-rw REC_WORDS] [-rc REC_CONF] [-ri REC_ICONF] [-sm SEGM_MODEL] [-sc SEGM_CONF] [-sp SEGM_POST] [-p PROCESSES] [-l] [-dw] [-t TIME] [-d DELTA] WAV OUT Запуск процедуры распознавания речи positional arguments: WAV Путь к .WAV файлам аудио OUT Путь к директории с результатами распознавания optional arguments: -h, —help show this help message and exit -rm REC_MODEL, —rec_model REC_MODEL Путь к .MDL файлу модели распознавания -rg REC_GRAPH, —rec_graph REC_GRAPH Путь к .FST файлу общего графа распознавания -rw REC_WORDS, —rec_words REC_WORDS Путь к .TXT файлу текстового корпуса -rc REC_CONF, —rec_conf REC_CONF Путь к .CONF конфигурационному файлу распознавания -ri REC_ICONF, —rec_iconf REC_ICONF Путь к .CONF конфигурационному файлу векторного экстрактора -sm SEGM_MODEL, —segm_model SEGM_MODEL Путь к .RAW файлу модели сегментации -sc SEGM_CONF, —segm_conf SEGM_CONF Путь к .CONF конфигурационному файлу сегментации -sp SEGM_POST, —segm_post SEGM_POST Путь к .VEC файлу апостериорных вероятностей сегментации -p PROCESSES, —processes PROCESSES Количество процессов для обработки файлов -l, —log Логировать результат распознавания -dw, —delete_wav Удалять .WAV файлы после распознавания -t TIME, —time TIME Пауза перед очередным сканированием директории в секундах -d DELTA, —delta DELTA Дельта, выдерживаемая до чтения файла в минутах

Запустить веб-сервер:

Перейти по адресу:

Запустить сервис:

Распознавание и анализ речи с помощью библиотеки SPEECH RECOGNITION, PYAUDIO и LIBROSA

В основе систем распознавания речи стоит скрытая марковская модель, суть модели заключается в том, что при рассмотрении сигнала в промежутке небольшой длительности (от пяти до 10 миллисекунд), возможна его аппроксимация как при стационарном процессе.

Если простыми словами скрытую марковскую модель можно объяснить на примере.

Допустим, есть два человека, которые каждый вечер созваниваются и обсуждают свои действия в течение дня. Выбор одного из друзей: ходил за покупками; гулял в парке; занимался домашними делами. При выборе активности, он полагался лишь на погоду. Второй же знал о погоде, которая была на тот момент в месте первого и, основываясь на выборе первого, мог догадаться, какая погода была в какой-то момент.

То есть, допустим, мы делим сигнал на фрагменты скажем в 10 миллисекунд и выделяем кепстральные коэффициенты, которые, по сути, являются графиком зависимости мощности от частоты сигнала отображающегося на векторе действительных чисел. Результатом скрытой марковской модели является последовательность этих векторов.

В последствии мы сопоставляем фонемы и эти векторы, а так как звук фонемы изменяется от источника к источнику, то процесс сопоставления требует обучения.

Для python существует несколько пакетов которые используются в данной сфере речи, такие как apiai, assemblyai и другие, но Speech Recognition выделяется среди них довольно высокой простотой использования.

Библиотека Speech Recognition — это, инструмент для передачи речевых API от компаний (google, microsoft, sound hound, ibm, а также pocketsphinx), который в отличие от остальных имеет возможность работы офлайн.

Для демонстрации работы в данной статье я буду использовать дефолтный Google Speech API.

Также для работы с инструментами потребуется библиотека pyAudio.

Установим библиотеку для распознавания речи:

pip install SpeechRecognition

Для работы с инструментами звукозаписи

pip install pyAudio

Бываю некие сложности с установкой pyaudio через pip, поэтому альтернативный вариант — установка pipwin или conda

Для анализа звуковых данных

pip install librosa

Для работы с wave файлами

pip install wave

и импортируем в код

import speech_recognition as speech_r import pyaudio import wave

Для начала нужно выставить параметры записи звука:

CHUNK = 1024 # определяет форму ауди сигнала FRT = pyaudio.paInt16 # шестнадцатибитный формат задает значение амплитуды CHAN = 1 # канал записи звука RT = 44100 # частота REC_SEC = 5 #длина записи OUTPUT = «output.wav»

Далее нужно создать объект для обращения к устройству звукозаписи:

Name already in use

Sign In Required

Launching GitHub Desktop

Launching GitHub Desktop

Launching Xcode

Launching Visual Studio Code

Latest commit

Git stats

Files

README.md

Распознавание и анализ речи с помощью библиотеки SPEECH RECOGNITION, PYAUDIO и LIBROSA

Составьте блок схему и программу вычисления значения функции вариант 3

Напиши программу которая в последовательности натуральных чисел определяет количество чисел кратных

Как записать музыку на сд диск в формате сд программа

Какая нужна программа на телефон чтобы скачивать музыку на телефон

Если не хватает места на диске с для установки программы

Задачи по ознакомлению с формой и геометрическими фигурами в программе радуга

Как расширение имени файла связано с форматом файла и программой обработки

Что программа 12111 переводит число 50 в число 20 определите значение b