Программа для расшифровки звука

Эксперты заказывают транскрибацию, когда хотят переупаковать контент. Например, взять запись собственной лекции, преобразовать в текст, и потом на основе этого материала сделать цикл статей. С помощью текстовых расшифровок можно отслеживать качество работы колл-центров или отдела продаж. Также они нужны для создания субтитров к видео. В общем, заказчики довольно часто приходят на Workzilla за расшифровкой аудио.

Ручная транскрибация, выполненная живым человеком, даёт наилучшее качество, но это довольно трудоёмкое занятие. Расшифровка одного часа аудио занимает 3-3,5 часа времени исполнителя, если качество звука хорошее. Стоит эта услуга от 20₽ за 10 минут исходной записи.

В этой статье представлена подборка сервисов для расшифровки аудио и видео в текст. Мы не нашли ни одной бесплатной программы, в которую можно было бы загрузить запись, а на выходе получить готовый текст, вообще не требующий ручной коррекции. Но есть некоторые существенно облегчат работу фрилансера.

Транскрибация аудио и видео в текст онлайн бесплатно. Как транскрибировать видео и аудио в текст

Голосовой ввод

Вы можете приспособить для своих целей функцию голосового ввода привычных сервисов. Например, в Google Docs можно включить микрофон, чтобы перевести речь в письменный формат. Для этого нажмите Ctrl+Shift+S или выберите опцию «Голосовой набор» в разделе «Инструменты».

Так же можно использовать онлайн-переводчики. Они довольно хорошо заточены под устную речь и натасканы на разных диалектах. При этом начисто игнорируют знаки препинания, не ставят даже точки. Просто шпарит сплошным полотном.

Скормить запись напрямую скорее всего не получится. Наиболее приемлемая схема работы выглядит так: вы включаете запись, прослушиваете одно-два предложения и затем членораздельно повторяете его, используя голосовой ввод. После редактируете полученный текст. Получается быстрее, чем если расшифровывать самостоятельно, особенно если у вас средняя скорость набора текста.

Программы для удобной расшифровки

Есть программы, которые предназначены для профессиональных транскрибаторов. Они объединяет в одном интерфейсе аудиодорожку и простой текстовый редактор. Горячими клавишами можно менять скорость аудио, отматывать запись туда и обратно, редактировать текст, расставлять теги. Это делает работу немного удобнее, но не автоматизирует процесс.

Программы: oTranscribe*, Lossplay*, Transcriber Pro, Express Scribe, Voco*, Speechpad*. Звёздочками отмечены бесплатные или имеющие бесплатный пробный период.

Программы автоматической расшифровки

Обзор не будет полным, если мы не упомянем сервисы автоматической расшифровки аудио в текст. Все эти программы платные, но некоторые имеют пробный период или дают расшифровать несколько минут после регистрации. Ещё одна досадная особенность: сервисы придирчивы к качеству аудио и теряются, когда спикеров несколько. Если есть шумы на фоне, голос звучит неразборчиво, то живой человек справится с такой записью гораздо лучше, чем программа.

новая НЕЙРОСЕТЬ перевод АУДИО И ВИДЕО в ТЕКСТ. Транскрибация

Программы: Transcription Panda, GoTranscript, Rev, Dragon Dictation, Transcribe by Wreally, Temi

Несколько секретов для новичков

Обычно эта работа происходит так: транскрибатор прослушивает запись небольшими фрагментами, которые может запомнить, и переносит на бумагу. Прослушал одно-два предложения. Поставил на паузу. Напечатал. Иногда приходится возвращаться на несколько секунд назад и слушать повторно.

Это довольно кропотливая и монотонная работа, но с неё легко стартовать во фрилансе. Вот несколько советов, которые помогут работать быстрее:

— Попросите образец записи. Так вы сможете оценить качество аудио, а значит сможете обозначить сроки и соотнести предложенный гонорар с объёмом работы.

— Спросите, как будет использоваться запись. В зависимости от этого будет отличаться стиль работы с файлом. Простой пример: расшифровка для статьи подразумевает лёгкую редактуру. Вы убираете слова паразиты, повторы, можете переформулировать фразу, если она странно построена или не закончена. А если вы делаете расшифровку для суда, то здесь, напротив, нужно транскрибировать дословно и ничего нельзя менять.

— Сделайте скорость воспроизведения меньше стандартной, и работа пойдёт легче. Используйте наушники, чтобы сосредоточиться и чётче слышать неразборчивые фрагменты.

Читайте также:
С помощью какой программы можно сделать фотоальбом

— Используйте горячие клавиши и автозамену. Если какие-то сложные термины в тексте повторяются часто, используйте клавишу вместо того, чтобы заново набирать каждый раз. В некоторых текстовых редакторах есть функция «автозамена», которая работает по принципу T9, подставляя наиболее вероятное написание. Вы вводите “здр”, а редактор подставляет “здравствуйте”. Это тоже экономит время при наборе.

— Аккуратное оформление итогового файла — залог повторных заказов. Заказчики обожают транскрибаторов, которые отдают файл, разбитый на смысловые абзацы, где выделены диалоги с выделенными диалогами, отредактированный под задачу.

Источник: blog.work-zilla.com

13 инструментов транскрибирования для профессиональных расшифровщиков аудио

Онлайн-транскрибирование — это необычная карьера. Расшифровщики придают письменный вид множеству вещей, от расследований убийств до знойных интервью и мотивационных подкастов, вдохновляющих на новые свершения. В каждом деле есть инструменты, позволяющие добиться максимальной производительности труда. И мы расскажем о 13 инструментах профессиональных расшифровщиков.

1. Express Scribe

Express Scribe — известный инструмент транскрибирования. Это аудиоплеер, специально созданный для расшифровки аудиозаписей. В нем реализована поддержка горячих клавиш, то есть им можно управлять при помощи клавиатуры.

Например, в Express Scribe можно использовать следующие горячие клавиши по умолчанию: F4 – стоп, F8 – перемотка вперед, F9 – пуск, F7 – перемотка назад.

Приложение также работает с ножной педалью, но в бесплатной версии поддерживается только ножная педаль AltoEdge.

У программы есть платная и бесплатная версия. Для бесплатной версии можно выделить четыре характеристики: лицензия для домашнего использования и малого бизнеса, поддержка ножной педали, диктофон DCT и поддержка всех основных форматов аудиофайлов.

В платной версии имеются дополнительные функции; среди них поддержка формата звукозаписи Sony, лицензия для крупных предприятий и госсектора, техническая поддержка, работа с дополнительными форматами файлов, такими как AVI, WMV и MOV.

Есть и другие аналогичные приложения, например, Inqscribe и FTW.

2. Ножная педаль

Ножная педаль, которую еще называют педаль WAV, — это именно то, что приходит на ум, когда слышишь это словосочетание. С ее помощью можно ногой перематывать, приостанавливать или воспроизводить аудио- и видеофайлы, высвободив руки исключительно для набора текста.

Этим инструментом активно пользуются профессиональные расшифровщики, тем самым повышая скорость работы.

Ножные педали бывают двух типов: с подключением через USB-интерфейс и с последовательным подключением. То есть они различаются разъемом для подключения к компьютеру. Однако USB-модели удобнее использовать, а последовательные порты постепенно выходят из употребления.

Известная модель ножной педали, пользующаяся заслуженным доверием расшифровщиков, это Infinity USB Digital Foot Control with Computer plug (IN-USB2).

3. Конвертер аудио Freemake.

Это бесплатное приложение для преобразования аудиофайлов из одного формата в другой.

Как вы уже, наверное, знаете, некоторые аудиофайлы работают на тех или иных устройствах и отказываются работать на других. Это удивительное приложение конвертирует аудиофайл в 50 форматов! Например, можно переделать MP3 в WAV, а M4A в MP3.

Так, в этом приложении поддерживается работа с основными форматами аудио (MP3, WAV, OGG, FLAC, AC3, M4R и AAC), а также со многими другими.

4. Конвертер видео Freemake

Это чудесное приложение обязательно должно быть в арсенале профессионального расшифровщика.

С его помощью можно конвертировать один видеоформат в другой. А еще можно преобразовывать видео в звуковые файлы.

После этой процедуры можно загрузить полученный звуковой файл в бесплатное программное обеспечение Express Scribe. На всякий случай напоминаем, что в бесплатной версии ES не поддерживается работа с видеофайлами.

Эту программу также можно использовать для извлечения (загрузки) видео из Интернета. Удивительное дело, она поддерживает более 500 форматов и при этом за нее не нужно платить!

5. Наушники

Еще один часто используемый рабочий инструмент профессионального расшифровщика, который особенно пригодится для совершенствования навыков аудирования.

Качественные наушники — это разумное вложение капитала. В этой статье рассказывается о некоторых факторах, которые следует учесть при выборе наушников.

Также советуем прочитать «Лучшие наушники не дороже 50 долларов».

6. Эргономичный стул

Возможно, вы испытываете не все радости профессионального расшифровщика на вольных хлебах, просто потому что еще не обзавелись этим жизненно необходимым рабочим инструментом.

Чтобы дни напролет печатать, с комфортом устроившись за компьютером, обязательно нужен эргономичный стул!

Хороший эргономичный стул:

  • обеспечивает поддержку для поясницы
  • не портит осанку
  • предотвращает мышечное утомление
  • обеспечивает правильную циркуляцию крови

Из-за неудобного рабочего места начинает болеть спина и возрастает риск возникновения сердечно-сосудистых осложнений!

Характеристики эргономичного стула:

  • Спинка стула принимает форму спины сидящего
  • Регулируемая высота позволяет выбрать наиболее удобное положение
  • благодаря удобным подлокотникам руки не висят в воздухе и, как следствие, не устают
  • Сиденье должно быть в меру мягким и не слишком жестким – это позволяет избежать онемения тела
  • Спинка стула достает до шеи сидящего
Читайте также:
Топ программ для велосипедистов

Надеюсь, вы уже готовы в скором времени потратиться на эргономичный стул.

7. DFX Audio

DFX Audio Enhancer — это инструмент улучшения качества аудиозаписей. Установите это приложение, и вы сможете уменьшать фоновый шум, увеличивать громкость записи, четкость звучания и корректировать аудиофайл с помощью разных настроек. Вот как пользоваться приложением DFX.

Другое полезное приложение — это Adobe Audition.

8. WavePad

Да, это тоже приложение для транскрибирования. С его помощью можно резать аудиофайлы на части!

Если вы работаете в команде, и нужно разослать нескольким исполнителям их порции двухчасовой аудиозаписи, чтобы быстро получить от них выполненную работу, этот инструмент окажется как нельзя кстати.

Графическое представление звука намного облегчает вашу работу. Можно копировать, вырезать, изменять нужные вам участки.

Можно разбивать аудиофайл на несколько сегментов, скажем, на два или три, или на одинаковые части, например, разделить файл на сегменты продолжительностью 20 минут.

Опять же, если файл содержит продолжительные периоды записи без слов, программа может выявить и вырезать их, что повышает скорость работы.

9. Audacity

Audacity — это еще одна бесплатная программа для редактирования и записи аудио.

Ее можно использовать, чтобы записывать аудио «в прямом эфире», преобразовывать записи в цифровые форматы, а также чтобы приводить в порядок аудиозаписи. Я использую эту программу для «склеивания» в один файл несколько аудиозаписей.

Пользуйтесь ей, как вам удобно.

10. Dragon NaturallySpeaking Premium 13.0 (с поддержкой английского языка)

Время от времени в жизни расшифровщика наступает момент, когда он не может выполнить транскрибирование файлов из-за простуды или апатии, вызванной профессиональным выгоранием. Если как раз в это время вам прислали для транскрибирования короткие файлы, пригодится Dragon Naturally Speaking.

Программа Dragon Naturally Speaking распознает речь и автоматически преобразует ее в текст.

В среднем, DNS ускоряет работу по транскрибированию в шесть раз.После транскрибирования можно пройтись по созданному документу Word и подправить небольшие ошибки или при необходимости изменить форматирование. Конечно, результат работы программы не сравнится с транскрибированием, выполненным человеком, поэтому я предлагаю использовать возможности Dragon Naturally Speaking для транскрибирования коротких файлов – ведь после работы программы все-таки придется заняться редактированием.

В этом видео рассказывается, как выполнять транскрибирование при помощи программы Dragon Naturally Speaking.

Другой очень похожий инструмент это VoiceBase, приложение для автоматического транскрибирования. Его я тоже иногда использую для транскрибирования коротких файлов.

11. Internet Download Manager

Если вы работаете в Интернете не первый день, то вы уже почувствовали, как раздражают низкая скорость соединения и утомительное ожидание окончания загрузки!

Поднимите руки все те, кто хоть раз скачивал файл, и когда дело уже близилось к завершению, вдруг отключали свет.

С программой IDM скорость скачивания можно увеличить практически в пять раз; еще один плюс заключается в том, что программа умеет продолжать скачивание, которое не было закончено ранее по какой-то причине.

Эта программка подскажет вам, где скачивать аудио, видеофайлы или документы с открытых веб-страниц.

Если клиент выслал вам большой аудио- или видеофайл, как только вы откроете страницу с файлом для скачивания, появится всплывающее окно IDM с предложением скачать файл.

Огромным преимуществом приложения IDM является высокая скорость загрузки! По окончании 30-дневного пробного периода вам будет предложено купить IDM.

12. WinZip

WinZip – небольшая программка, которой совершенно необходимо обзавестись. Она сжимает файлы. Например, можно положить в папку пять файлов MP3, сжать их при помощи WinZip и разместить их в одной папке.

Может быть, вам не понадобится сжимать файлы, но WinZip точно пригодится для извлечения файлов из архивов Zip. Если клиент отправляет вам архив Zip с десятью аудиофайлами, для доступа к сжатым файлам понадобится WinZip.

Если клиент отправляет вам архив Zip с десятью аудиофайлами, для доступа к сжатым файлам вам понадобится WinZip. По окончании 30-дневного пробного периода вам будет предложено купить программу.

13. Grammarly

Ну и наконец, Grammarly.

Grammarly — одна из лучших в мире программ для проверки правописания и грамматики.

Это приложение используют журналисты, редакторы, расшифровщики и даже преподаватели для выявления и исправления в тексте грамматических ошибок. Приложение можно установить как дополнение браузера Chrome.

Читайте также:
Как включить программу ножницы

После установки оно выделяет красным ошибки в тексте. А еще выводит подсказки. В идеале, его можно использовать при работе со стенограммами или при написании заметок к подкасту для клиентов.

Приложение особенно полезно, если для преобразования звукозаписи в текст вы прибегли к помощи программного обеспечения.

Помните, что отсутствие грамматических ошибок важно, когда сдаешь клиенту чистовую работу.

В заключение

Транскрибирование похоже на кирпичную кладку. Вы можете быть отличным мастером, но без молотка, тачки, бетономешалки, строительного уровня и крана вы не добьетесь блестящих результатов.

Обзаведитесь этими 13 инструментами для транскрибирования — и получайте удовольствие от работы на полную катушку.

Источник: swan-swan.ru

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

Команда SberDevices запустила бесплатный бот в Telegram, который конвертирует русскоязычные голосовые сообщения и аудиофайлы в текстовый формат. Бот работает на основе технологии распознавания речи SmartSpeech и станет удобным инструментом для журналистов, копирайтеров, переводчиков и представителей других профессий, которые работают с текстами.

Он позволит сэкономить часы работы, сократить рутину и значительно повысит эффективность при производстве контента. Также бот незаменим в ситуациях, когда у пользователя нет возможности прослушать голосовое сообщение: на встрече или в общественном транспорте. Бот можно использовать как в личной переписке, так и добавлять в групповые чаты. Он обеспечивает расшифровку голосовых сообщений и загруженных одноканальных аудиофайлов до 20 Мб в кодировках MP3, WAV (8-96 кГц), FLAC и OggOpus.

Что под капотом

При создании Telegram-бота мы использовали особую модель распознавания речи. Она очень похожа на ту, которая используется в работе виртуальных ассистентов Салют — как по архитектуре, так и по количеству параметров. Однако у этой модели есть существенное отличие — оно в обучающих данных.

Главной задачей наших моделей, используемых виртуальными ассистентами, является распознавание запроса: команды или вопроса (“Салют, включи спокойную музыку”, “Джой, сколько сейчас градусов”). Обычно это очень короткие фразы. Кроме того, важная особенность таких моделей — игнорирование фоновой речи и речи, не обращённой непосредственно к виртуальному ассистенту.

Когда мы попробовали использовать существующие модели для распознавания аудиосообщений, очевидно, не получили необходимого качества: аудиосообщения зачастую длинные, а распознавать нужно весь запрос, не пропуская ни одного слова.

Отлично. Проблема найдена, переходим к решению.

Сначала мы собрали из различных открытых источников длинные монологи, от нескольких десятков секунд до нескольких часов, порезали на короткие куски длиной не более 25 секунд и с помощью краудсорсинга получили для них транскрипции. А также перестали игнорировать фоновую речь.

Основная проблема такого подхода — трата большого количества времени на получение транскрипций. Процесс это долгий, и достаточное количество данных быстро таким образом не собрать. Пришлось прибегнуть к трюку.

На самом деле, модель, обученная не пропускать фоновую речь, у нас уже была – это модель, которая используется для распознавания телефонных разговоров. Однако для её обучения использовался принципиально другой звук: частота дискретизации 8кГц, а для голосовых сообщений мы взяли за основу 16кГц.

Напрямую, без потери информации, использовать её было нельзя, но с её помощью нам удалось расширить обучающую выборку. Мы взяли короткие куски монологов, для которых у нас ещё не было транскрипций, понизили их частоту до 8 кГц и сделали псевдоразметку: распознали записи с помощью модели для телефонии. Дальше просто привязали полученные транскрипции к исходному звуку с качеством 16 кГц.

Кроме того, для формирования обучающей выборки мы использовали полученные ранее аудиозаписи с транскрипциями, на которых обучалась модель телефонии, повысив частоту дискретизации.

Таким образом, нам удалось значительно увеличить обучающую выборку, перестать игнорировать фоновую речь, и, как следствие, улучшить качество распознавания аудиосообщений в нашем Telegram-боте.

Пунктуация

Бот способен расставлять знаки пунктуации и делить текст на предложения. Это довольно простая seq2seq-модель 4-классовой классификации (пустота, точка, запятая, знак вопроса), обученная на открытых данных общения из интернета. В отличие от большинства моделей, наша не анализирует текст полностью, а учитывает паузы между словами для разбиения текста на значимые части, которые анализируются независимо. Это позволяет распознавать быстрее. А ещё мы не ставим точку в конце единичного предложения — так же, как и вы при общении в мессенджере.

Источник: habr.com

Рейтинг
( Пока оценок нет )
Загрузка ...
EFT-Soft.ru