Для чего в программе whisper exe предназначена функция generate

Содержание

Автоматическое распознавание речи остается одним из самых востребованных и при этом сложных направлений в области искусственного интеллекта и машинного обучения.

1679 просмотров

Американская компания OpenAI, известная разработкой крупнейшей на сегодняшний день языковой модели GPT-3, представила новую систему автоматического распознавания речи Whisper. Она способна транскрибировать речь на нескольких языках, а также выполнять перевод речи с этих языков на английский.

Image credit: OpenAI

По информации, представленной разработчиками, Whisper обучалась на 680 000 часов “многоязычных и многозадачных данных” из Интернета. Тренировка на таком разнообразии данных позволила системе научиться распознавать не только чистую речь, но и с высокой долей точности понимать уникальные акценты, разговоры при фоновом шуме и технические термины. Примерно ⅓ набора аудиоданных была не на английском языке, и перед моделью попеременно ставились задачи расшифровки речи на языке оригинала и перевода на английский.

FREE & OFFLINE Audio to Text | Whisper: Install Guide | OpenAI Whisper | ASR

Компания сделала открытый доступ к исходному коду модели на GitHub, оттуда можно загрузить несколько версий системы. В сопроводительном письме представители OpenAI написали, что в первую очередь Whisper направлена на “исследователей в области ИИ, изучающих надежность, возможности, ошибки и ограничения языковых моделей”, но также может быть полезна для разработчиков различных платформ в качестве решения для интеграции функции автоматического распознавания речи.

Image credit: OpenAI

На данный момент, по словам разработчиков, система показывает хорошие результаты в транскрибировании и переводе примерно на 10 языках. Также при выставлении дополнительных настроек модель может выполнять такие задачи, как “обнаружение голосовой активности, классификация говорящих или диаризация (разделение аудио на сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему)”, но она ещё не до конца обучена этим функциям и эффективность их выполнения недостаточно оценена.

Разработчики не скрывают, что Whisper имеет свои ограничения — в частности, в области предиктивной расшифровки текста. Так, компания предупреждает, что в расшифрованном системой тексте могут оказываться слова, которые на самом деле не были произнесены — это может происходить из-за того, что модель пыталась одновременно предсказать следующее слово в аудио и при этом расшифровать сам звук. Более того, Whisper не одинаково хорошо работает на всех языках, которым обучена, поскольку количество обучающих данных на разных языках было распределено неравномерно.

Несмотря на наличие этих несовершенств, компания OpenAI считает модель хорошим инструментом для улучшения существующих систем распознавания речи. По словам разработчиков, на основе Whisper можно создавать приложения, которые смогут расшифровывать и переводить речь “практически в режиме реального времени”. Создатели модели также выразили надежду, что разработанная ими технология будет использоваться в полезных целях и в целом сделает автоматическое распознавание речи более доступным.

Заводим у себя нейронку OpenAI для локального распознавания звонков и подкастов

ChatGPT сейчас на хайпе, но я тут решил немного поиграть в другой продукт от Open AI — Whisper — который умеет распознавать голос на куче языков и превращать их в текст.

Сначала я просто потрогал через curl их API, потом я моргнул, и через два дня у меня появился инструмент, который может локально прямо на макбуке распознать аудиозапись звонка и разметить в нем разных спикеров. Хочу в этом посте рассказать как самому сделать так же.

Картинка с финальным результатом для привлечения внимания.

Чтобы получить такую же, нужно выполнить следующие шаги. Все выполнялось на MacBook Pro M1 Pro 32 Gb c macOS Ventura 13.2.1.

0. Настройка окружения

Для работы понадобятся Python3.10, git и clang.

Python3.10 уже есть в поставке вместе с macOS. Чтобы установить git и clang (если у вас их еще нет), выполните команду xcode-select —install .

Теперь нужно настроить виртуальное окружение для Python, куда будем ставить все пакеты и библиотеки. Для этого выполните следующие команды:

python3.10 -m venv whisper cd whisper source bin/activate

1. Установка whisper.cpp

whisper.cpp — реализация Whisper на C++. Стоит использовать именно ее, а не оригинальный Whisper от OpenAI, так как она значительно быстрее работает.

При этом сами модели нейронных сетей используются те же, что и у OpenAI.

Скачиваем репозиторий с whisper.cpp, собираем программу и скачиваем самую большую (large) модель от OpenAI:

git clone https://github.com/ggerganov/whisper.cpp.git cd whisper.cpp make ./models/download-ggml-model.sh large

Уже на этом шаге можно попробовать расшифровать аудиозапись в текст, выполнив следующую команду

./main -m models/ggml-large.bin -l ru —no-timestamps -f ~/output.wav -of output -o txt

Параметры означают следующее:

-m — путь до файла с моделью
-l — язык
—no-timestamps — не выводить временные метки в расшифровки (оставить только текст)
-f — путь до аудиофайла в формате wav
-of — имя файла с расшифровкой (без расширения!)
-o — формат вывода, txt — текстовый файл

Если ваш аудиофайл не в формате wav, то его можно сконвертировать при помощи утилиты ffmpeg:

ffmpeg -i audio1470766962.m4a -ar 16000 output.wav

2. Устанавливаем библиотеки для распознавания спикеров

Чтобы разметить аудиофайл на сегменты с речью каждого спикера в отдельности, понадобятся следующие:

pywhispercpp — Python-бингдинги к whispercpp, чтобы можно было использовать быстрое применение моделей на плюсах прямо из питона.
pyannote-audio — набор библиотек для разделения аудио-потока на сегменты и для распознавания в нем отдельных спикеров.
pyannote-whisper — обвязка вокруг pyannote-audio, чтобы использовать обученные языковые модели от Whisper.

3. Настраиваем модель для сегментации аудиофайла

Теперь нужно скачать модель от pyannote-audio, которая будет разбирать аудиофайл на сегменты и файл конфигурации модели. Для этого выполните следующие шаги:

Зарегистрируйтесь на сайте HuggingFace
Скачайте файл с моделью segmentation/pytorch_model.bin
Скачайте файл конфигурации conifig.yaml
Сохраните оба файла в директорию pyannote-whisper
Отредактируйте в файле conifig.yaml следующие поля

pipeline.params.embedding_batch_size установите в 1
pipeline.params.segmentation укажите имя файла pytorch_model.bin

В результате файл config.yaml должен выглядеть следующим образом:

pipeline: name: pyannote.audio.pipelines.SpeakerDiarization params: clustering: AgglomerativeClustering embedding: speechbrain/spkrec-ecapa-voxceleb embedding_batch_size: 1 # уменьшение с 32 до 1 внезапно значительно ускоряет процесс, подсказка найдена в issues на гитхабе embedding_exclude_overlap: true segmentation: pytorch_model.bin # имя файла с моделью segmentation_batch_size: 32 params: clustering: method: centroid min_cluster_size: 15 threshold: 0.7153814381597874 segmentation: min_duration_off: 0.5817029604921046 threshold: 0.4442333667381752

4. Выполняем код для расшифровки и разметки аудио

После этого, имея на руках все библиотеки, модели и конфиг, останется только выполнить Python код, который обработает аудиофайл.

Сохраните в директории pyannote-whisper в файл diarize.py следующий код.

from pyannote.audio import Pipeline from pyannote_whisper.utils import diarize_text from pywhispercpp.model import Model # Указываем путь до файла с конфигом, он должен быть в той же директории, как сказано на шаге 3. pipeline = Pipeline.from_pretrained(«config.yaml») # Указываем название модели large и путь до директории с whisper-моделями из шага 1. model = Model(‘large’, ‘/Users/guschin/whisper.cpp/models’, n_threads=6) # Указываем путь до аудио-файл, кторый будем расшифровывать в текст. Путь обязательно абсолютный. asr_result = model.transcribe(«/Users/guschin/audio1470766962.wav», language=»ru») # Конвертация результата в формат, который понимает pyannote-whisper. result = for item in asr_result: result[‘segments’].append( < ‘start’: item.t0 / 100, ‘end’: item.t1 / 100, ‘text’: item.text >) # Сегментация аудио-файла на реплики спикеров. Путь обязательно абсолютный. diarization_result = pipeline(«/Users/guschin/audio1470766962.wav») # Пересечение расшифровки и сегментаци. final_result = diarize_text(result, diarization_result) # Вывод результата. for seg, spk, sent in final_result: line = f’ ‘ print(line)

Запустите код следующей командой

python3 diarize.py

В результате работы на экран выведутся сегменты исходного аудиофайла: время начала и конца сегмента в секундах, идентификатор спикера и текст сегмента.

Что такое » whisper.exe » ?

В нашей базе содержится 3 разных файлов с именем whisper.exe . You can also check most distributed file variants with name whisper.exe. Чаще всего эти файлы принадлежат продукту WHISPER Application. Наиболее частый разработчик — компания Shaun Ivory. Самое частое описание этих файлов — Whisper 32. Это исполняемый файл.

Вы можете найти его выполняющимся в диспетчере задач как процесс whisper.exe.

Подробности о наиболее часто используемом файле с именем «whisper.exe»

Продукт: WHISPER Application Компания: Shaun Ivory Описание: Whisper 32 Версия: 1.16.0.1 MD5: f6120f94dde2897910a5145eac180a5c SHA1: 320fb8eede1c313ea96454e74d4502831855565c SHA256: 2bcdb7a1ab56546588c9df5f823537579c91083cdb398c8a34488b5c2391213e Размер: 577536 Папка: %PROGRAMFILES%Whisper ОС: Windows 7 Частота: Низкая

Проверьте свой ПК с помощью нашей бесплатной программы

Icon

Процесс «whisper.exe» безопасный или опасный?

Последний новый вариант файла «whisper.exe» был обнаружен 3932 дн. назад. В нашей базе содержится 3 шт. вариантов файла «whisper.exe» с окончательной оценкой Безопасный и ноль вариантов с окончательной оценкой Опасный . Окончательные оценки основаны на комментариях, дате обнаружения, частоте инцидентов и результатах антивирусных проверок.

Процесс с именем «whisper.exe» может быть безопасным или опасным. Чтобы дать правильную оценку, вы должны определить больше атрибутов файла. Самый простой способ это сделать — воспользоваться нашей бесплатной утилитой для проверки файлов посредством нашей базы данных. Эта утилита содержит множество функций для контролирования вашего ПК и потребляет минимум системных ресурсов.
Щёлкните здесь, чтобы загрузить System Explorer.

Комментарии пользователей для «whisper.exe»

У нас пока нет комментариев пользователей к файлам с именем «whisper.exe».

Добавить комментарий для «whisper.exe»

Для добавления комментария требуется дополнительная информация об этом файле. Если вам известны размер, контрольные суммы md5/sha1/sha256 или другие атрибуты файла, который вы хотите прокомментировать, то вы можете воспользоваться расширенным поиском на главной странице .

Если подробности о файле вам неизвестны, вы можете быстро проверить этот файл с помощью нашей бесплатной утилиты. Загрузить System Explorer.

Проверьте свой ПК с помощью нашей бесплатной программы

System Explorer это наша бесплатная, удостоенная наград программа для быстрой проверки всех работающих процессов с помощью нашей базы данных. Эта программа поможет вам держать систему под контролем. Программа действительно бесплатная, без рекламы и дополнительных включений, она доступна в виде установщика и как переносное приложение. Её рекомендуют много пользователей.

Источник: systemexplorer.net

Заводим у себя нейронку OpenAI для локального распознавания звонков и подкастов

0. Настройка окружения

1. Установка whisper.cpp

2. Устанавливаем библиотеки для распознавания спикеров

3. Настраиваем модель для сегментации аудиофайла

4. Выполняем код для расшифровки и разметки аудио

Что такое » whisper.exe » ?

Подробности о наиболее часто используемом файле с именем «whisper.exe»

Процесс «whisper.exe» безопасный или опасный?

Комментарии пользователей для «whisper.exe»

Добавить комментарий для «whisper.exe»

Проверьте свой ПК с помощью нашей бесплатной программы

Составьте блок схему и программу вычисления значения функции вариант 3

Напиши программу которая в последовательности натуральных чисел определяет количество чисел кратных

Как записать музыку на сд диск в формате сд программа

Какая нужна программа на телефон чтобы скачивать музыку на телефон

Если не хватает места на диске с для установки программы

Задачи по ознакомлению с формой и геометрическими фигурами в программе радуга

Как расширение имени файла связано с форматом файла и программой обработки

Что программа 12111 переводит число 50 в число 20 определите значение b