Для чего в программе whisper exe предназначена функция generate

Автоматическое распознавание речи остается одним из самых востребованных и при этом сложных направлений в области искусственного интеллекта и машинного обучения.

1679 просмотров

Американская компания OpenAI, известная разработкой крупнейшей на сегодняшний день языковой модели GPT-3, представила новую систему автоматического распознавания речи Whisper. Она способна транскрибировать речь на нескольких языках, а также выполнять перевод речи с этих языков на английский.

Image credit: OpenAI

По информации, представленной разработчиками, Whisper обучалась на 680 000 часов “многоязычных и многозадачных данных” из Интернета. Тренировка на таком разнообразии данных позволила системе научиться распознавать не только чистую речь, но и с высокой долей точности понимать уникальные акценты, разговоры при фоновом шуме и технические термины. Примерно ⅓ набора аудиоданных была не на английском языке, и перед моделью попеременно ставились задачи расшифровки речи на языке оригинала и перевода на английский.

FREE & OFFLINE Audio to Text | Whisper: Install Guide | OpenAI Whisper | ASR

Компания сделала открытый доступ к исходному коду модели на GitHub, оттуда можно загрузить несколько версий системы. В сопроводительном письме представители OpenAI написали, что в первую очередь Whisper направлена на “исследователей в области ИИ, изучающих надежность, возможности, ошибки и ограничения языковых моделей”, но также может быть полезна для разработчиков различных платформ в качестве решения для интеграции функции автоматического распознавания речи.

Image credit: OpenAI

На данный момент, по словам разработчиков, система показывает хорошие результаты в транскрибировании и переводе примерно на 10 языках. Также при выставлении дополнительных настроек модель может выполнять такие задачи, как “обнаружение голосовой активности, классификация говорящих или диаризация (разделение аудио на сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему)”, но она ещё не до конца обучена этим функциям и эффективность их выполнения недостаточно оценена.

Разработчики не скрывают, что Whisper имеет свои ограничения — в частности, в области предиктивной расшифровки текста. Так, компания предупреждает, что в расшифрованном системой тексте могут оказываться слова, которые на самом деле не были произнесены — это может происходить из-за того, что модель пыталась одновременно предсказать следующее слово в аудио и при этом расшифровать сам звук. Более того, Whisper не одинаково хорошо работает на всех языках, которым обучена, поскольку количество обучающих данных на разных языках было распределено неравномерно.

Несмотря на наличие этих несовершенств, компания OpenAI считает модель хорошим инструментом для улучшения существующих систем распознавания речи. По словам разработчиков, на основе Whisper можно создавать приложения, которые смогут расшифровывать и переводить речь “практически в режиме реального времени”. Создатели модели также выразили надежду, что разработанная ими технология будет использоваться в полезных целях и в целом сделает автоматическое распознавание речи более доступным.

Читайте также:
Программа для диагностики авто Айфон

Auto-generating subtitles using Whisper

Если вам понравилась статья, поделитесь ею в своем блоге или поставьте нам оценку, чтобы о проекте узнало как можно больше читателей!

Источник: vc.ru

Заводим у себя нейронку OpenAI для локального распознавания звонков и подкастов

ChatGPT сейчас на хайпе, но я тут решил немного поиграть в другой продукт от Open AI — Whisper — который умеет распознавать голос на куче языков и превращать их в текст.

Сначала я просто потрогал через curl их API, потом я моргнул, и через два дня у меня появился инструмент, который может локально прямо на макбуке распознать аудиозапись звонка и разметить в нем разных спикеров. Хочу в этом посте рассказать как самому сделать так же.

Картинка с финальным результатом для привлечения внимания.

Чтобы получить такую же, нужно выполнить следующие шаги. Все выполнялось на MacBook Pro M1 Pro 32 Gb c macOS Ventura 13.2.1.

0. Настройка окружения

Для работы понадобятся Python3.10, git и clang.

Python3.10 уже есть в поставке вместе с macOS. Чтобы установить git и clang (если у вас их еще нет), выполните команду xcode-select —install .

Теперь нужно настроить виртуальное окружение для Python, куда будем ставить все пакеты и библиотеки. Для этого выполните следующие команды:

python3.10 -m venv whisper cd whisper source bin/activate

1. Установка whisper.cpp

whisper.cpp — реализация Whisper на C++. Стоит использовать именно ее, а не оригинальный Whisper от OpenAI, так как она значительно быстрее работает.

При этом сами модели нейронных сетей используются те же, что и у OpenAI.

Скачиваем репозиторий с whisper.cpp, собираем программу и скачиваем самую большую (large) модель от OpenAI:

git clone https://github.com/ggerganov/whisper.cpp.git cd whisper.cpp make ./models/download-ggml-model.sh large

Уже на этом шаге можно попробовать расшифровать аудиозапись в текст, выполнив следующую команду

./main -m models/ggml-large.bin -l ru —no-timestamps -f ~/output.wav -of output -o txt

Параметры означают следующее:

  • -m — путь до файла с моделью
  • -l — язык
  • —no-timestamps — не выводить временные метки в расшифровки (оставить только текст)
  • -f — путь до аудиофайла в формате wav
  • -of — имя файла с расшифровкой (без расширения!)
  • -o — формат вывода, txt — текстовый файл

Если ваш аудиофайл не в формате wav, то его можно сконвертировать при помощи утилиты ffmpeg:

ffmpeg -i audio1470766962.m4a -ar 16000 output.wav

2. Устанавливаем библиотеки для распознавания спикеров

Чтобы разметить аудиофайл на сегменты с речью каждого спикера в отдельности, понадобятся следующие:

  • pywhispercpp — Python-бингдинги к whispercpp, чтобы можно было использовать быстрое применение моделей на плюсах прямо из питона.
  • pyannote-audio — набор библиотек для разделения аудио-потока на сегменты и для распознавания в нем отдельных спикеров.
  • pyannote-whisper — обвязка вокруг pyannote-audio, чтобы использовать обученные языковые модели от Whisper.
Читайте также:
Программа чтобы скачивать музыку с ВК и ютуба

Чтобы все это установить, выполняем следующие команды:

pip3 install openai-whisper pywhispercpp pyannote-audio

Скорее всего установка pyannote-audio упадет с ошибкой при сборке пакета hmmlearn примерно со следующим текстом

note: This error originates from a subprocess, and is likely not a problem with pip. error: legacy-install-failure × Encountered error while trying to install package. ╰─> hmmlearn note: This is an issue with the package mentioned above, not pip. hint: See above for output from the failure.

Поэтому дальше зависимости придется доустанавливать вручную при помощи следующих команд:

pip3 install pytorch_lightning==1.6 torch-audiomentations==0.11.0 asteroid-filterbanks==0.4 pyannote.metrics==3.2 pyannote.pipeline==2.3 speechbrain torchaudio==2.0.0 torch==2.0.0 hmmlearn==0.2.6 pip3 install pyannote.audio —no-deps

Наконец скачиваем pyannote-whisper:

git clone https://github.com/yinruiqing/pyannote-whisper.git cd pyannote-whisper

3. Настраиваем модель для сегментации аудиофайла

Теперь нужно скачать модель от pyannote-audio, которая будет разбирать аудиофайл на сегменты и файл конфигурации модели. Для этого выполните следующие шаги:

  1. Зарегистрируйтесь на сайте HuggingFace
  2. Скачайте файл с моделью segmentation/pytorch_model.bin
  3. Скачайте файл конфигурации conifig.yaml
  4. Сохраните оба файла в директорию pyannote-whisper
  5. Отредактируйте в файле conifig.yaml следующие поля
  • pipeline.params.embedding_batch_size установите в 1
  • pipeline.params.segmentation укажите имя файла pytorch_model.bin

В результате файл config.yaml должен выглядеть следующим образом:

pipeline: name: pyannote.audio.pipelines.SpeakerDiarization params: clustering: AgglomerativeClustering embedding: speechbrain/spkrec-ecapa-voxceleb embedding_batch_size: 1 # уменьшение с 32 до 1 внезапно значительно ускоряет процесс, подсказка найдена в issues на гитхабе embedding_exclude_overlap: true segmentation: pytorch_model.bin # имя файла с моделью segmentation_batch_size: 32 params: clustering: method: centroid min_cluster_size: 15 threshold: 0.7153814381597874 segmentation: min_duration_off: 0.5817029604921046 threshold: 0.4442333667381752

4. Выполняем код для расшифровки и разметки аудио

После этого, имея на руках все библиотеки, модели и конфиг, останется только выполнить Python код, который обработает аудиофайл.

Сохраните в директории pyannote-whisper в файл diarize.py следующий код.

from pyannote.audio import Pipeline from pyannote_whisper.utils import diarize_text from pywhispercpp.model import Model # Указываем путь до файла с конфигом, он должен быть в той же директории, как сказано на шаге 3. pipeline = Pipeline.from_pretrained(«config.yaml») # Указываем название модели large и путь до директории с whisper-моделями из шага 1. model = Model(‘large’, ‘/Users/guschin/whisper.cpp/models’, n_threads=6) # Указываем путь до аудио-файл, кторый будем расшифровывать в текст. Путь обязательно абсолютный. asr_result = model.transcribe(«/Users/guschin/audio1470766962.wav», language=»ru») # Конвертация результата в формат, который понимает pyannote-whisper. result = for item in asr_result: result[‘segments’].append( < ‘start’: item.t0 / 100, ‘end’: item.t1 / 100, ‘text’: item.text >) # Сегментация аудио-файла на реплики спикеров. Путь обязательно абсолютный. diarization_result = pipeline(«/Users/guschin/audio1470766962.wav») # Пересечение расшифровки и сегментаци. final_result = diarize_text(result, diarization_result) # Вывод результата. for seg, spk, sent in final_result: line = f’ ‘ print(line)

Запустите код следующей командой

python3 diarize.py

В результате работы на экран выведутся сегменты исходного аудиофайла: время начала и конца сегмента в секундах, идентификатор спикера и текст сегмента.

Читайте также:
Что напечатается в результате выполнения программы

В целом, получившаяся связка позволяет локально расшифровывать звонки и подкасты, что заменяет такие платные сервисы как otter.ai (17 долоров в месяц или 100 за год).

Если кто-то попробует повторить такое у себя и столкнется с проблемами — пишите в комментарии, возможно, я забыл указать какие-то еще мелкие особенности.

Источник: vas3k.club

Что такое » whisper.exe » ?

В нашей базе содержится 3 разных файлов с именем whisper.exe . You can also check most distributed file variants with name whisper.exe. Чаще всего эти файлы принадлежат продукту WHISPER Application. Наиболее частый разработчик — компания Shaun Ivory. Самое частое описание этих файлов — Whisper 32. Это исполняемый файл.

Вы можете найти его выполняющимся в диспетчере задач как процесс whisper.exe.

Подробности о наиболее часто используемом файле с именем «whisper.exe»

Продукт: WHISPER Application Компания: Shaun Ivory Описание: Whisper 32 Версия: 1.16.0.1 MD5: f6120f94dde2897910a5145eac180a5c SHA1: 320fb8eede1c313ea96454e74d4502831855565c SHA256: 2bcdb7a1ab56546588c9df5f823537579c91083cdb398c8a34488b5c2391213e Размер: 577536 Папка: %PROGRAMFILES%Whisper ОС: Windows 7 Частота: Низкая

Проверьте свой ПК с помощью нашей бесплатной программы

Icon

System Explorer это наша бесплатная, удостоенная наград программа для быстрой проверки всех работающих процессов с помощью нашей базы данных. Эта программа поможет вам держать систему под контролем.

Процесс «whisper.exe» безопасный или опасный?

Последний новый вариант файла «whisper.exe» был обнаружен 3932 дн. назад. В нашей базе содержится 3 шт. вариантов файла «whisper.exe» с окончательной оценкой Безопасный и ноль вариантов с окончательной оценкой Опасный . Окончательные оценки основаны на комментариях, дате обнаружения, частоте инцидентов и результатах антивирусных проверок.

Процесс с именем «whisper.exe» может быть безопасным или опасным. Чтобы дать правильную оценку, вы должны определить больше атрибутов файла. Самый простой способ это сделать — воспользоваться нашей бесплатной утилитой для проверки файлов посредством нашей базы данных. Эта утилита содержит множество функций для контролирования вашего ПК и потребляет минимум системных ресурсов.
Щёлкните здесь, чтобы загрузить System Explorer.

Комментарии пользователей для «whisper.exe»

У нас пока нет комментариев пользователей к файлам с именем «whisper.exe».

Добавить комментарий для «whisper.exe»

Для добавления комментария требуется дополнительная информация об этом файле. Если вам известны размер, контрольные суммы md5/sha1/sha256 или другие атрибуты файла, который вы хотите прокомментировать, то вы можете воспользоваться расширенным поиском на главной странице .

Если подробности о файле вам неизвестны, вы можете быстро проверить этот файл с помощью нашей бесплатной утилиты. Загрузить System Explorer.

Проверьте свой ПК с помощью нашей бесплатной программы

System Explorer это наша бесплатная, удостоенная наград программа для быстрой проверки всех работающих процессов с помощью нашей базы данных. Эта программа поможет вам держать систему под контролем. Программа действительно бесплатная, без рекламы и дополнительных включений, она доступна в виде установщика и как переносное приложение. Её рекомендуют много пользователей.

Источник: systemexplorer.net

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru