Я недавно подготовил список из четырех программ для транскрибации. Можете посмотреть для сравнения возможностей.
Если все-так говорить конкретно о программе на русском языке, то я бы посоветовал LossPlay. Есть все необходимые функции, русский язык и бесплатная версия.
Журналист, фрилансер, копирайтер. Фанат хорошего кино. · 8 сент 2020
Процесс транскрибации аудио в текст занимает время и требует усилий. Существует ряд программ, использующих технологии распознавания голоса, которые позволят вам транскрибировать аудио в текст автоматически. Если ваши файлы на английском языке, то все просто. Достаточно одного запроса в Yandex или Google вида «transcribe audio to text» и найдёте кучу неплохих вариантов. Читать далее
Источник: yandex.ru
Транскрибация: три метода, 10+ инструментов
Транскрибация аудио и видео в текст онлайн. Программа для транскрибации бесплатно
Рассказываем, как можно ускорить и упростить перевод аудио/видео в текст.
1. Автоматизировать транскрибацию
Конечно, в эпоху нейросетей не обошлось без решений для автоматического перевода звука в текст.
Google Docs
В Гугл Документах есть встроенный инструмент для расшифровки аудио с микрофона (файлы не транскрибирует). Можно вызвать его через Ctrl+Shift+S, далее выбрать язык и нажать на значок микрофона.
Очень плохо справляется с тихой и шумной диктофонной записью, достаточно хорошо — с диктовкой в микрофон.
Главный недостаток — работает только в активном окне Google Docs, то есть наговорить что-то с другой вкладки (или включить запись на компьютере) не получится.
Чтобы добавить в текст пунктуацию, нужно надиктовывать знаки голосом: точка, запятая, вопросительный/восклицательный знак, новая строка, новый абзац, кавычки. Это работает в большинстве приложений для диктовки (иногда для этого нужно найти нужную галку в настройках).
Пример работы голосового ввода Google Docs
Speechpad
Расшифровывает только звук с микрофона, поэтому тот должен быть хорошего качества. Поддерживается Google Chrome, но есть еще приложения для iOS и Android.
Плюс возможна интеграция с Windows, Mac и Linux — чтобы обеспечить голосовой ввод в любом текстовом поле. Хороший звук понимает достаточно хорошо, плохой — очень плохо.
Фрагмент YouTube-ролика хорошо перевел в текст, в общем и целом, редактуры не очень много
RealSpeaker
Платный онлайн-расшифровщик. Работает только с готовыми файлами, что-то наговорить с микрофона здесь нельзя. Переводит аудио в текст бесплатно, но только если запись длится до 1,5 мин. Далее стоимость — 8 руб. за минуту, максимальная продолжительность аудио — 180 мин. Поддерживается почти 40 языков, включая русский и украинский.
Интересно, что в разделе «Мои медиа» доступны транскрибированные тексты других пользователей.
Транскрибация аудио и видео в текст онлайн за 5 минут. Преобразование видео и аудио в текст
Можно приблизительно оценить качество расшифровки, подумать, стоит ли платить за нее деньги. Это же удобство — пугает. Никакой приватности, можно даже редактировать и удалять чужие тексты.
Оплаченный текст будет доступен только вам. Интересно, что при загрузке видео результат можно скачать сразу в формате субтитров (*.srt).
Сервис сейчас в бета-версии, многие функции вызывают вопросы. Например, нельзя удалить загруженный файл из облака, но со временем файлы удаляются автоматически.
Пример транскрипта другого пользователя, текст доступен абсолютно всем
Dictation
Тоже онлайн-сервис для распознавания речи. Бесплатный. Работает только со звуком с микрофона, готовые записи загрузить нельзя. Понимает не только русские слова, но и десятки команд («тире», «новая строка» и др.).
Включает простейший встроенный редактор — сразу меняйте форматирование, оформляйте списки и др. Не переключаясь, можно отправить текст на e-mail и в соцсети, сохранить на компьютер.
Четкую речь блогера, подготовленную профессионально и в тишине, распознал почти идеально. Речь героя интервью из того же YouTube-ролика, которая была записана без петлички и с фоновым шумом, уже понял только наполовину. С диктофонной записью все печально.
Пример того, как работает Dictation (1 — качественная запись, 2 — посредственная)
Voco
Это платная десктопная Windows-программа для расшифровки речи, не требующая доступ к интернету. Работает как с микрофоном, так и с готовыми аудиозаписями — поддерживаются все популярные форматы (wav, mp3, wma). Правда, последнее возможно только на дорогих тарифах.
Важный момент — программа обучается на ваших документах, начинает лучше понимать лексику и стиль, расширяет базовый словарный запас. Алгоритм версии 2.0 дообучен на звуковых данных, записанных на расстоянии 1 м от микрофона — для улучшенного распознавания со встроенных устройств и диктофонов.
Базовый тариф стоит 1867 руб. в год, профессиональный — 15 500 руб. (дальше продлевать будет дешевле в разы). Разница между ними — в функциональности (например, транскрибация аудиозаписей и встраивание в Word есть только у Voco.Professional). Необязательно платить сразу — есть триал на 2 недели.
Так Voco расшифровал озвученную статью Дурова о Долине. Не особо впечатляет, хотя это результат сразу после установки программы, без обучения
Экзотика: субтитры YouTube
Наверняка вы замечали, что YouTube достаточно хорошо автоматически расшифровывает, что говорят герои в видеороликах. Можно использовать эту технологию и в личных целях. Метод экстремальный, но вполне доступный при отсутствии других возможностей для расшифровки.
Загружаете с ограниченным доступом любое видео, открываете его в «Творческой студии», переходите в раздел «Субтитры». Далее выбираете язык, подтверждаете и — готово. Субтитры можно скачать в формате .sbv, файл легко откроется в стандартном Блокноте.
Проблема в том, что выгружаются именно субтитры — с таймкодами и постоянным разрывом текста. Довольно сложно собрать нормальный материал, если видео длинное. И еще сложнее, если качество звука оставляет желать лучшего. А если у вас не видеозапись, а чистое аудио — придется еще и превращать его в видео в каком-нибудь редакторе для такого способа расшифровки.
Используя автозамены и макросы в редакторе, такой текст несложно вычистить от таймкодов. А вот собирать в связные абзацы придется вручную.
Так выглядит файл с субтитрами, который скачивается из «Творческой студии» YouTube
2. Усовершенствовать ручную расшифровку
Можно пойти другим путем — не автоматизировать, но упростить работу и транскрибировать без кошмара, описанного в самом начале статьи. Вам все равно придется слушать и записывать, но это будет удобно делать внутри хорошо обустроенного сервиса.
oTranscribe
Бесплатный веб-сервис для ручной транскрибации текста. Работает как с аудио, так и с видео, в том числе YouTube-роликами. Открывает десятки форматов: wav, mp3, mpeg, webm и др.
Можно назначить горячие клавиши для управления воспроизведением. Есть автосохранение, простой текстовый редактор, интерактивные метки, упрощающие навигацию.
Интерфейс oTranscribeИнтерфейс oTranscribe
Express Scribe
Условно-бесплатное десктопное ПО для Windows/Mac. Позволяет загружать аудио и видеофайлы с самых разных источников: дисков, FTP-серверов, электронных писем и др. Поддержка форматов зависит от версии: например, mp3 и wav открываются в любом случае, а wmv, mp4 или 3gp — только в Pro.
Гибкие настройки воспроизведения: управляйте горячими клавишами, меняйте скорость, переключайтесь на определенный таймкод. Можно добавлять заметки к файлам, подключать к работе ножную педаль — специальное устройство, USB-переключатель для геймеров и транскрибаторов.
Удобно, что все записи добавляются в список и между ними легко переключаться — не нужно каждый раз заново их загружать. Неудобно, что нет текстового редактора (зато есть интеграция с MS Word, Corel Wordperfect, Lotus Wordpro и другими текстовыми процессорами под Windows).
Неограниченная лицензия PRO стоит от 25 $, но для личного использования вполне хватит бесплатной версии.
Так выглядит окно Express Scribe
Transcriber Pro
Тоже десктопный инструмент для ускорения ручной расшифровки (правда, только аудио в текст и только для Windows).
Функциональность похожа на аналогичные решения: есть управление горячими клавишами, создание заметок (тегов), автозамена текста, настройка «прыжка» после паузы и др.
В числе преимуществ Transcriber Pro также указали командную работу — возможность разбивать проект на подзадачи, выгружать их и пересылать, потом объединять результаты в один файл. Участники команды будут работать в офлайне, но результат потом соберется в одно целое.
Платная лицензия стоит 640 руб. в год, но ее нет смысла покупать ради такой функции, как экспорт в интерактивные стенограммы. Этот формат похож на обычные субтитры, которые, например, выгружаются с YouTube.
LossPlay
Это десктопный плеер для Windows в помощь расшифровщикам аудио/видео. Открывает mp3, wav, mp4 и др. (разработчики отмечают, что есть также «интеллектуальная поддержка недокументированных форматов», что бы это ни значило). Парит поверх всех окон, поэтому позволяет работать в любом текстовом редакторе.
Hot keys настраиваются не только для управления воспроизведением, но и для вставки шаблонных текстовых фрагментов. Если не нравится стандартный дизайн, в настройках можно задать элементам другие цвета.
Придется по душе тем, кто ностальгирует или до сих пор пользуется Winamp.
Такой вот внешний вид у LossPlay
Универсальное решение: wreally.com
Альтернатива всем вышеперечисленным инструментам — Transcribe (wreally.com). Этот онлайн-сервис позволяет транскрибировать текст обоими способами: вручную (как в oTranscribe) и автоматически (создатели указывают точность 90%). Открывает десятки видов файлов: webm, mp3, mp4, 3gp, wmv и др. Есть автосохранение, работа без доступа к интернету, интеграция ножной педали, настройка горячих клавиш, экспорт видеосубтитров. В отличие от RealSpeaker, гарантируется безопасность и приватность.
Бесплатно можно получить только 1 минуту автоматической расшифровки. Далее — 6$ в час. Ручная транскрибация тоже стоит денег, но совсем небольших — 20$ в год.
Так выглядит инструмент для ручной транскрибации
Пример работы авторасшифровщика
3. Просто делегировать эту работу
Наконец, необязательно заниматься транскрибацией самому, неважно, автоматически или вручную. Можно делегировать это сторонним исполнителям.
Например:
- Zapisano — служба расшифровки аудиозаписей, которая готова «освободить творческих людей от рутинной работы».
- QUASA — проект для поиска заказчиков и исполнителей.
- FL — крупнейшая русскоязычная фриланс-биржа.
- Kwork — онлайн-магазин фриланс-услуг.
- Advego — биржа контента.
Из всего списка только Zapisano специализируется именно на расшифровке (и это хороший повод выбрать именно их).
Работают в сервисе живые стенографисты — они предлагают тексты без слов-паразитов и оговорок, в удобном формате.
У заказчика есть личный кабинет, куда загружаются записи, где видны статусы и можно скачать результат. Оплатить можно банковскими картами, электронными деньгами или по безналичному расчету.
Стандартный тариф — около 30 руб. за минуту. Придется платить больше при пониженном качестве записи, наличии специальной терминологии или повышенной срочности.
Коротко о главном
— Высококачественное аудио можно попробовать расшифровать автоматически — тогда потребуется минимум правок. Чем хуже качество, чем больше шумов, чем тише голос — тем дольше нужно будет возиться с текстом после автотранскрибации. Примеры инструментов: Google Docs, RealSpeaker, Dictation, Voco.
— Если аудио неважного качества и с обилием посторонних звуков, а у говорящего тихая речь, много слов-паразитов и отвлечений не по теме — пожалуй, стоит выбрать ручную расшифровку. Главное, облегчить ее с помощью специальных решений: oTranscribe, Express Scribe, Transcriber Pro, LossPlay или Transcribe (wreally.com). У последнего также есть платный автотранскрибатор.
— Можно просто делегировать это дело фрилансерам — они сами разберутся, какой способ расшифровки аудио им выбрать и использовать. Как правило, стоимость часа работы опытного автора/редактора/журналиста в разы выше, чем цена на транскрибацию текста. Выгоднее заплатить сторонним исполнителям, а не тратить часы на рутину. Специалистов можно найти на Zapisano, YouDo, FL, Kwork и других площадках.
Источник: quasa.io
Обзор программ для транскрибации
Транскрибация представляет собой перевод аудиозаписи в печатный текст. Эта услуга довольно востребована и пользуется спросом во многих структурах. К примеру, постоянно требуются расшифровки лекций, семинаров. Транскрибация необходима при создании скриптов продаж, субтитров к видеозаписи и так далее.
Это не совсем просто занятие, как может показаться на первый взгляд. Здесь нужна усидчивость. Человек должен располагать временем, достаточной базой знания языка. Специалисты подсчитали, что для транскрибации минуты записи потребуется 7 минут, чтобы человек мог напечатать текст. Это при условии, что пользователь имеет навыки и приличную скорость в перепечатывании.
Разновидности транскрибации
Даже сервисы голосового ввода значительно уступают транскрибаторам, так как могут преобразовывать в текст только речь, произносимую в микрофон в реальном времени.
Большое количество фрилансеров используют специальные сервисы, зарабатывая на этом приличные деньги.
Транскрибация аудио/видео в текстовой формат
Есть масса сервисов, которые выполняют транскрибацию. Некоторые программы требуют обязательной регистрации, иными можно пользоваться свободно. Есть программы, которые работают только с телефона. Есть помощники, которые нужно установить на компьютер. Рассмотрим разные варианты.
Онлайн-сервисы. Это программы, которые не нужно специально устанавливать. Ими можно пользоваться только при стабильном подключении к интернету.
Гугл Keep | бесплатно | постоянно | — распознавать текст/картинки; — вставлять заголовки; — добавлять соавторов; — разрешать совместно редактирование получаемого документа |
не подойдет для работы над большими записями. |
Speechpad | от 150 р | 15 минут | — расшифровывать видео с Ютуб; — открыть доступ к редакции текста во время транскрибации; — устанавливать заглавные буквы автоматически; — хранить результаты в личном кабинете. |
плохо разбирает запись низкого качества. |
Transcribe | — час расшифровки – 5$; — ежемесячная оплата – 13$; — год – 100$. |
15 минут | — вставлять временные коды; — создавать субтитры к видео; — определять акронимы популярных словоформ, переводить их в полную форму. |
Нужна регистрация. |
RealSpeaker | 8 рублей одна минута. | полторы минуты бесплатно. | — распознавать текст с записи, которая будет длиться не дольше 180 минут; — открыть редактирование результата. |
— нет возможности надиктовки текста; — готовый файл доступен иным пользователям в течении суток. |
Десктоп-версии. Такие программы требуют установки на компьютер, поэтому могут активно работать без интернета. Профессиональные транскрибаторы предпочитают именно этот вариант, так как:
- доступ к сервису круглосуточный;
- многообразие функций;
- понятный интерфейс.
К примеру, LossPlay. Программой можно пользоваться бесплатно. Установочные файлы в свободном доступе. Программа может работать без переключения между плеером и редактором. Управление осуществляется посредством горячих клавиш. Сервис может добавлять временные коды.
Чтобы активно пользоваться программой необходимо установить дополнительные кодеки.
Нужен ли фрилансер
Благодаря сервисам и специальным программам можно заметно облегчить процесс транскрибации. Но корректировку готового результата нужно проводить в любом случае. Ни одна программа не дает 100% гарантии того, что весь текст будет напечатан в идеальном соответствии с записью.
Что сделает фрилансер:
- расшифрует видео/аудио, переведет все в текстовой формат;
- отредактирует полученный результат, вставит знаки препинания;
- придаст тексту гармоничную структуру;
- распределит реплики, если запись содержит диалог;
- зафиксирует временные коды.
такие специалисты берут отдельную плату за работу. Если ваш бизнес требует привлечения транскрибаторов, то лучше обращаться к универсальным специалистам. Если вы хотите самостоятельно заниматься этим, то учтите, что для этого понадобится много времени.
Специалист в совокупности с грамотной программой способен сделать из аудио/видео структурированный текст, которые можно сразу размещать на требуемой платформе, показывать заказчику и так далее.
Найти специалистов можно на специальных биржах. Такие платформы отбирают компетентных фрилансеров, которые зарекомендовали себя в качестве ответственных и грамотных исполнителей. Более того, биржи представляют собой платформу, которая дает гарантии обеим сторонам. Заказчик уверен в том, что заплатит только за выполненное задание. А исполнитель уверен в том, что получит денежные средства, если сдаст работу в срок.
Голосовой ввод текста
Еще один вариант перевода записи в текст. К такому способу прибегают журналисты, преподаватели, маркетологи и так далее. То есть все те специалисты, которые ежедневно взаимодействуют с текстом. Они должны постоянно записывать цели/задачи, составлять планы, структуру занятий и так далее.
Голосовой ввод облегчает эти процессы. Благодаря таким сервисам можно мгновенно записать нужную информацию, если под рукой не оказалось ручки или ситуация не располагает к этому.
Кроме этого, голосовой ввод значительно упрощает процесс набора текста, если человек не может быстро печатать.
В заключении
Рассмотренные варианты хороши по-своему. Здесь нет четкой рекомендации о том, какой именно сервис выбрать. Чтобы пользователь мог выбрать наиболее подходящий вариант, 99% разработчиков программ создают бесплатные периоды. То есть, каждый новый пользователь имеет ограниченное количество времени, чтобы попробовать в действии ту или иную программу. Если все функции и качество результата удовлетворят пользователя, он может приобрести платную версию.
Есть абсолютно бесплатные программы. Но здесь стоит отметить, что функционал таких платформ может уступать разнообразию инструментов платных сервисов.
Кроме этого, если человек прибегает к транскрибации не часто, то приобретать платные программы нецелесообразно. Как правило, функционала бесплатных сервисов вполне достаточно.
Еще один момент, если первоначальная запись будет иметь плохое качество, то результат или совсем не получится, или будет плохим. От характеристик самого звука зависит конечный результат. Даже самые новейшие инструменты не способны справиться с плохим аудио/видео.
Источник: resize-web.ru