Rhvoice что это за программа

This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.

Switch branches/tags
Branches Tags
Could not load branches
Nothing to show
Could not load tags

Nothing to show

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

Cancel Create

  • Local
  • Codespaces

HTTPS GitHub CLI
Use Git or checkout with SVN using the web URL.
Work fast with our official CLI. Learn more about the CLI.

Sign In Required

Please sign in to use Codespaces.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

Скачать синтезатор RHVoice для Windows

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

Git stats

Files

Failed to load latest commit information.

Latest commit message
Commit time

README.md

RHVoice is a free and open-source speech synthesizer.

Speech synthesis method

RHVoice uses statistical parametric synthesis. It relies on existing open-source speech technologies (mainly HTS and related software).

Voices are built from recordings of natural speech. They have small footprints, because only statistical models are stored on users’ computers. And though the voices lack the naturalness of the synthesizers which generate speech by combining segments of the recordings themselves, they are still very intelligible and resemble the speakers who recorded the source material.

Initially, RHVoice could speak only Russian. Now it also supports:

  • American and Scottish English
  • Brazilian Portuguese
  • Esperanto
  • Georgian
  • Ukrainian
  • Kyrgyz
  • Tatar
  • Macedonian
  • Albanian
  • Polish

In theory, it is possible to implement support for other languages, if all the necessary resources can be found or created.

If you want to listen to an example of speech synthesis, You can use the TTS service on this page.

RHVoice supports the following platforms:

  • Windows (prebuilt binaries is available in documentation)
  • GNU/Linux (building instructions and packaging status can be found in «Compiling instructions» section of documentation.
  • Android (can be installed thru F-Droid or Google Play

It is compatible with standard text-to-speech interfaces on these platforms: SAPI5 on Windows, Speech Dispatcher on GNU/Linux and Android’s text-to-speech APIs. It can also be used by the NVDA screen reader directly (the driver is provided by RHVoice itself).

RHVoice — синтезатор речи для Linux или болтливый компьютер

All prebuild binaries packages, main and legal information and more are available in three languages:

  • GitHub Discussions
  • Mailing list (Russian)

Источник: github.com

RHVoice Lab: как незрячие разработчики создают голоса для синтезатора речи

Год назад команда лаборатории решила синтезировать голос Артемия Лебедева для озвучки навигации незрячих людей в интернете. Сейчас в каталоге RHVoice восемь голосов, в том числе блогеров, стендап-комиков и театральных звезд.

841 просмотров

Представьте на секунду, что этот текст вы не пробегаете глазами, пока допиваете кофе, а слушаете в выбранной озвучке, лишь примерно представляя, как выглядит верстка страницы. Тем не менее, именно так статью «прочитают» незрячие люди, в том числе энтузиасты RHVoice Lab.

RHVoice Lab – это некоммерческая лаборатория по созданию новых голосов для одноименного отечественного синтезатора речи. Его особенность в том, что он создан специально для слабовидящих и незрячих людей, для бытового использования. За год существования RHVoice Lab создала до десяти новых голосов, в том числе для английского и украинского языков. Благодаря команде проекта незрячие люди могут выбирать голос подходящего им тембра и звучания или «озвучивать» навигацию по интернету голосами известных людей.

Руководитель проекта Артём Плаксин рассказал, как появилась идея RHVoice Lab, как воссоздать голос Артемия Лебедева при помощи сервера от Selectel и можно ли быть программистом, если ты не видишь код.

Об RHVoice

Об отечественном синтезаторе речи и его создательнице — Ольге Яковлевой — на Хабре писали год назад. Если вы лишь примерно представляете, как работают синтезаторы речи, рекомендуем обратиться к этой статье.

Читайте также:
Спсс программа что это

RHVoice (ссылка на международный сайт) существует уже более 10 лет, облегчая жизнь незрячих и слабовидящих людей. С развитием искусственного интеллекта и голосовых помощников синтезаторами речи никого не удивишь — по запросу Алиса или Siri зачитают вам прогноз погоды или статью из «Википедии». Но RHVoice вместе с первым голосом — Александром — появился задолго до рождения Алисы.

Кроме того, сравнивать синтезаторы речи от Yandex или «Сбера» некорректно. RHVoice использует статистический параметрический синтез, основанный на скрытой Марковской модели. Это устаревший метод синтеза, который предварял нейронные сети. При таком виде синтеза сложнее добиться естественного звучания голоса — многое зависит от мастерства его создателей. Зато он позволяет использовать голоса из каталога RHVoice без подключения к интернету и на слабом устройстве.

RHVoice дает возможность полностью озвучить любое взаимодействие незрячего человека с компьютером: ввод системного пароля при входе в учетную запись и завершение сеанса работы, серфинг в интернете, общение в соцсетях, чтение книг, редакторская работа и остальное. Большая часть операций с компьютером, которые совершает человек, доступна, частично доступна или в перспективе доступна незрячему человеку. Ролики с котиками на YouTube не посмотреть, зато более информативный контент — те же интервью Дудя или новости Лебедева — можно и посмотреть, и лайкнуть, и прокомментировать. Во всем этом поможет синтезатор речи, встроенный в скринридер.

Скринридер (Screen reader) — это программа экранного доступа. Он по кусочкам разбирает интерфейсы программ, сайтов, текст и прочее и в специализированном виде подает на брайлевский дисплей или синтезатор речи. К таким программам относятся NVDA, Jaws, Talkback, VoiceOver.

Скринридер во многом работает как поисковые системы — парсит информацию по HTML-разметке. Люди обычно не задумываются, что стоит за заголовком, кнопками, текстом и хедером на сайте — они охватывают все визуально. Для незрячих людей правильная разметка, добавление лейблов очень важны, так как это позволяет скринридеру работать эффективнее, а синтезатору речи — озвучивать так, чтобы незрячий человек мог взаимодействовать с сайтом.

RHVoice продолжает развиваться: в июле вышел релиз версии 1.4.2 (подробнее об изменениях можно прочесть по ссылке). Одно из главных новшеств — замена библиотеки Sonic для ускорения голоса на собственное решение RHVoice. Незрячему человеку важно иметь гибкость в настройке синтеза речи: изменять тон, громкость, скорость воспроизведения без ущерба качеству и четкости речи. Поэтому большая часть улучшений направлена на достижение этой гибкости, замены устаревших решений на более современные.

Как появилась RHVoice Lab

Лаборатория RHVoice Lab появилась в 2020 года. До этого в каталоге RHVoice было четыре русскоязычных голоса, каждый из которых создала основательница проекта Ольга Яковлева.

Последние три года руководитель RHVoice Lab Артём Плаксин занимается некоммерческими социальными проектами для слабовидящих и незрячих людей. Будучи незрячим, он со школьных лет реализовывает полезные сервисы, онлайн-решения и прочее. Помимо RHVoice Lab, Артём руководит еще несколькими проектами. В их числе — сервис «Данные в данные», помогающий незрячим людям конвертировать изображения в текст, текст в речь и так далее; облачный сервис Tiflo Cloud — это альтернатива «Яндекс.Диску», которая доступна для незрячих людей; «Тифло Хост» – некоммерческая организация, занимающаяся развитием рунета для слепых.

Как отмечает Артём, изначально плана создавать целую библиотеку голосов не было. Начали с одного.

В апреле 2020 года я начал смотреть “Самые честные новости” на YouTube-канале Артемия Лебедева. И через некоторое время задался вопросом, а как бы он звучал в синтезированном варианте. Артемию 45 лет, но у него живой, ровный голос без хрипотцы и лишних призвуков. Говорит он быстро, четко, тембр приятный.

Артём Плаксин, Руководитель RHVoice Lab

На тот момент команды, которая могла бы реализовать идею, не было. Понимания, как выстроить процесс, тоже. Зато была дружба с Бекой Гозалишвили, незрячим разработчиком, который занимался языковым модулем для грузинского языка в рамках проекта RHVoice. Он рассказал, как можно реализовать задумку, и в итоге вошел в команду лаборатории в качестве технического специалиста.

Вся команда RHVoice Lab состоит из четырех человек. Это Артём Плаксин в роли тимлида, инженер монтажа Сергей Паршаков, инженер звукозаписи Денис Шишкин и уже упомянутый программист из Грузии Бека Гозалишвили. О всех членах команды можно почитать в Instagram лаборатории.

Как синтезировали голос Артемия Лебедева

Сначала Артём Плаксин написал потенциальному диктору и предложил поучаствовать в проекте. Артемий согласился.

Языковой модуль для русского языка у RHVoice Lab уже был. Он — база для создания любого голоса для синтезатора речи. Русскоязычный модуль был собран еще в самом начале существования проекта RHVoice, на нем Ольга Яковлева создала первый голос в RHVoice — Александр.

Языковой модуль – это то, на основе чего формируется голос, — некий свод правил, инструкция. Он определяет, как будет звучать та или иная графема, или буква, в определенной позиции. По сути, это просто много описаний в текстовых файлах, специального формата, в специальном синтаксисе.

Читайте также:
Smartcontrol что это за программа

Языковой модуль — результат сложной коллаборации программистов и лингвистов. Но его достаточно разработать один раз и создавать голоса уже на базе готового модуля. Естественно, языковая модель одного языка не подойдет для другого: на модели для русского языка не запишешь голос для украинского языка.

За более десятилетнее существование RHVoice были созданы языковые модули для американского английского, украинского, киргизского, грузинского, эсперанто. В последнем релизе добавился македонский язык.

Добавление новых языков – трудная задача. Помимо программистов, нужны языковеды, лингвисты, специализирующиеся на фонетике определенного языка. Поэтому новые языки добавляются не так часто, как хотелось бы, и не те, что обычно нужны людям. Одним из факторов создания языка является грант от какой-либо организации (например, United Nations Development Programme) или запрос от коммерческой компании. Так как разработка языкового модуля — трудоемкая задача, которая может занимать до полутора лет, добавлять язык без финансовой или грантовой поддержки непросто.

Этап 1. Запись речевой базы

Что обычно делает диктор? Он должен записать от 600 до 2 500 предложений в зависимости от подобранной речевой базы. Это отдельные предложения, сформулированные так, чтобы содержать в себе все фонетическое богатство языка. В дальнейшем каждое отдельное предложение является единицей для тренировки.

Артемий Лебедев постепенно начал присылать фрагменты записей — всего он записал 1 160 предложений. Так сформировалась речевая база, пока что в сыром виде.

Время, которое уходит на запись речевой базы, зависит от диктора. Артемий Лебедев записал весь материал за 1 час 40 минут суммарно, а фактического текста вышло на 1,5 часа. То есть на монтаже лишними оказались лишь 10 минут. Обычно дикторы присылают от 1,5 до 3 часов готового материала. На запись у них уходит от 2 до 6 часов.

Этап 2. Монтаж

Далее запись в WAV-формате переходит в руки инженера монтажа — материал нужно порезать. В случае с Артемием были длинные куски по 10 минут, обычно в таких отрезках содержится порядка 200 предложений. Чтобы работать дальше, аудиофайлы нужно порезать на отдельные предложения так, чтобы один аудиофайл был равен одному предложению и длился 3-6 секунд. Количество аудиофайлов должно совпадать с количеством строк в текстово-речевой базе. Также на этом этапе убираются какие-то речевые огрехи.

Этап монтажа, в целом, не слишком длинный. Он занимает несколько суток, иногда неделю, если инженер монтажа занят. RHVoice Lab – некоммерческий проект, поэтому участники занимаются им в свободное время, когда есть время и силы.

Этап 3. Звукорежиссура

После c очищенной базой начинает работать звукорежиссер, специалист RHVoice использует REAPER. Он корректирует амплитудно-частотные, а также спектральные характеристики записи, подбирает индивидуальное звучание диктора на основе его речевых особенностей. Это кропотливая работа: для создания качественного голоса каждый лишний звук должен быть убран, чтобы добиться стандартов дикторской речи без каких-либо шумов и посторонних звуков. Мастерство звукорежиссера важно, но также важно качество записи. Поэтому перед дикторами устанавливают достаточно высокую планку качества записи.

При записи аналогового звука в цифровой файл звук кодируется не слоями, а единым потоком. Это значит, что все звуки как бы вплетаются в полезный сигнал голоса диктора. Когда звукорежиссер вычитает какой-либо фрейм спектра из файла, страдает и полезный сигнал.

Допустим, диктор говорит слово «яблоко», а на букве Б нечаянно ударяет ногой по столу. Звук удара — это тоже звук, и если он находится прямо на какой-то букве, в синтезаторе речи эта модель будет распознаваться как буква с таким звуком.

Этап 4. Тренировка

После рендеринга аудиофайлы отправляются в комплекс программ, среди которых HTS (HMM-based speech synthesis system). Здесь звуки сопоставляются буквам.

Затем самая важная и сложная часть — тренировка речевой базы. Технический специалист извлекает фундаментальную частоту диктора и преобразовывает аудиоматериал в готовый голос.

На этом этапе специалист RHVoice Lab проверяет, как модель справляется с озвучиванием текста. Эта работа связана с тонкой настройкой. Важно подобрать идеальное звучание, чтобы не было коробочного звука или «деревянного» голоса, чтобы буквы читались четко. Если частоты подобраны некорректно, какие-то буквы — например, «п» и «т» — могут звучать одинаково.

Тренировка – это длительный процесс. Вкупе он может занимать от 6 до 15 часов в зависимости от размера речевой базы. Влияет и количество вычислительных мощностей: на старом сервере процесс мог занимать до 30 часов, но благодаря инфраструктуре от Selectel скорость увеличилась в разы.

Голос Юрий

Специалисты RHVoice Lab могут воссоздать голос не только ныне живущего человека. Так, команда сделала голос Юрий. Этот модуль воспроизводит текст с интонацией и характером актера и чтеца аудиокниг Юрия Николаевича Заборовского.

Читайте также:
Программа оптима для социальных работников что это такое

Получив согласие на создание голоса от вдовы, команда RHVoice Lab начала работу. Записать новую речевую было невозможно, поэтому они работали с тем, что было. В распоряжении энтузиастов было около 1 000 аудиокниг, которые озвучил легендарный чтец за последний 40 лет.

«Может показаться, что такое количество материала сильно облегчает нам работу, — говорит Артём Плаксин. — Но это совсем не так. Материал не подготовлен для обработки: диктор читал не однотонно, а экспрессивно, как художественную литературу. Нужно было вычленить наименее эмоциональные предложения, чтобы удовлетворить требования, которые мы предъявляем к записям от дикторов».

В итоге удалось вычленить 1 500 предложений для дальнейшей тренировки. Теперь Юрий есть в каталоге голосов RHVoice Lab. И все, кто «вырос» на голосе Юрия Заборовского, могут продолжать слушать тексты в его озвучке.

Это, конечно, уникальный случай. Голос удалось синтезировать только благодаря тому, что диктор оставил после себя много аудиофайлов со «слепками» своего голоса. Если речь идет о покойных певцах или актерах кино, задача невыполнима: слишком много лишних звуков будет на фоне.

Об аудитории

Точно сказать, сколько человек пользуются в RHVoice, сложно. Суммарно голоса из каталога скачали около 15 000 раз. Но на эту цифру ориентироваться неправильно: многие голоса можно скачать напрямую из GitHub-репозитория RHVoice, какие-то распространяются по ссылкам через файлообменники.

Порог входа для использования инструмента невысокий: человеку достаточно уметь пользоваться скринридером. Подобные программы сейчас разработаны для всех популярных операционных систем: для MacOS, Android, Windows, даже Linux. С сайта RHVoice Lab можно скачать аддоны, которые достаточно легко установить в программы экранного доступа, — они представлены в форматах для NVDA и SAPI 5.

Технологический стек проекта
Инфраструктура

Сейчас RHVoice Lab работает на двух серверах. Один — «бывалый» сервер 2009 года — был подарен команде сервисом servero.ru. В нем четырехъядерный процессор, 32 Гб оперативной памяти и диск на 1 Тб. Этот сервер, где хранятся бэкапы тренировок и размещено рабочее облако проекта, поместили на colocation в один из дата-центров Selectel.

Второй сервер необходим для оперативной деятельности проекта. Раньше RHVoice Lab использовала мощности виртуальной машины с довольно скромными характеристиками: 4 ядра, 8 Гб RAM и SSD на 100 Гб. Пропускная способность — 100 Мбит/c.

Для разработчиков этот показатель был узким горлышком: только звукорежиссеру нужны были минимум 200 Мбит/с. И это без учета требований к синхронизации удаленно работающей команды. Конечно, канал не выдерживал, памяти не хватало, все было очень медленно. Маломощную «виртуалку» заменил сервер от Selectel, который компания предоставила RHVoice безвозмездно.

«Selectel предоставил нам выделенный сервер с процессором Intel Core i7-8700 (частота 3,2 ГГц, 6 ядер), 64 Гб оперативной памяти, два HDD-диска на 2 000 Гб. Один записанный голос может “отъесть” до 5 Гб оперативной памяти. Для оптимизации тренировки нового голоса мы запускаем сразу несколько его версий параллельно. Чтобы через день мы могли сравнить, что лучше сработало, а что хуже.

На старом сервере мы себе такое позволить не могли — не хватало оперативки. Сейчас же мы можем хоть пять версий запускать одновременно», — делится руководитель RHVoice Lab.

По словам разработчиков, на старом сервере этап тренировки голоса занимал до 30 часов, на новом — около 10 часов. Конвертация исходных данных на первом этапе раньше занимала 55 минут, на новом сервере — 6 минут. Разница колоссальная.

«Сейчас мы не используем всю оперативную память, но мы намеренно взяли ресурсы с запасом. Так как наш план на будущее потребует больших вычислительных мощностей», — уточнил Артём.

Источник: vc.ru

RHVoice

RHVoice — это свободно распространяемый многоязычный синтезатор речи с открытым исходным кодом.

Его разработчики надеятся дать большему количеству людей с нарушениями зрения возможность использовать хороший бесплатный синтезированный голос, читающий на их родном языке, с их программой экранного доступа. Нас особенно интересует поддержка языков, для которых сейчас нет хороших голосов, которые можно было бы использовать с программами экранного доступа.

Создатель RHVoice, Ольга Яковлева, сама незрячая. И многие из людей, которые внесли и вносят вклад в проект RHVoice, как программисты, так и непрограммисты, либо незрячие, либо слабовидящие.

Где можно использовать RHVoice?

  • В Windows с NVDA и любой программой, совместимой с SAPI 5.
  • На Android с TalkBack и другими приложениями, использующими речевой вывод.
  • В Linux с Orca.

Какие языки поддерживаются?

Все поддерживаемые сейчас языки перечислены наэтой странице.

Мы работаем над новыми голосами

  • LouderPages — Языки с недостаточной поддержкой синтезаторами речи.
  • RHVoice Lab — Русский и другие языки.

Источник: rhvoice.org

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru