Возможности синтезаторов речи и актуальность их использования
Преобразование текста в звук необходимо во многих сферах деятельности, начиная от программирования и заканчивая озвучиванием книг. Самостоятельно записывать звук, читая его с текста – слишком затратный по времени процесс. В таких ситуациях на помощь приходит синтезатор речи, который преобразует текстовую информацию в звуковую.
Актуальность синтеза речи
Современные машинные технологии способны буквально за секунду распознать сказанное человеком и упростить тем самым жизнь пользователям. Широкий выбор позволяет подобрать наилучший вариант голоса для своих нужд и использовать его для создания приложений, озвучивания новостей или книг, а также применять при ответах на телефонные звонки.
Речевые синтезаторы помогают решать не только серьезные проблемы в сфере бизнеса, но и упрощают решение повседневных дел. С их помощью невозможно пропустить важное сообщение, которое воспроизведется автоматически, если у человека не будет возможности его прочитать. Для того чтобы понять, как правильно звучит слово на другом языке, достаточно ввести его в специальное поле в программе и прослушать верный вариант.
СРОЧНО ОТКЛЮЧИ ЭТУ НАСТРОЙКУ НА СВОЕМ СМАРТФОНЕ! ХИТРОСТЬ РАЗРАБОТЧИКОВ ПРО СБОР ЛИЧНЫХ ДАННЫХ 2
На заметку!Многие сервисы предлагают пробный период, который на бесплатных условиях позволяет разобраться с интерфейсом и понять, подходит ли программа для реализации поставленных целей.
Возможности программ
Искусственный интеллект в настоящее время умеет выполнять множество полезных для человека функций. Он самостоятельно способен написать книгу, создать рисунок и озвучить текст реалистичным голосом. Примеров подобных программ существует достаточное количество для того, чтобы можно было выбрать наиболее подходящий и удобный вариант.
Например, сервис VoiceBot позволяет создавать из любого текста аудиодорожки. Пользователь может использовать программу в бесплатном и платном варианте. В начальной версии позволено озвучивать текст длиной до 500 символов. Подробная инструкция к боту поможет изучить интерфейс и быстро выполнить необходимую работу с информацией.
Большинство браузеров предлагает свои варианты синтезаторов. Примерами служат голосовые помощники, такие как «Алиса» от «Яндекса» или « Гугл Ассистент» Они позволяют преобразовывать человеческую речь в текст и отвечают на запросы пользователей удобным способом.
На заметку!Сервисы для синтеза способны читать написанное с правильной интонацией, не совершают ошибок, обучают пользователей новому и значительно упрощают жизнь людям.
Проблемой большинства бесплатных сервисов является отсутствие выбора голоса для озвучивания. Роботизированный голос звучит неприятно для слуха и хуже воспринимается слушателем, чем вариант, приближенный к оригинальному живому человеческому голосу. Перед работой с программами для озвучки важно изучить правила пользования и уделить внимание всем аспектам, которые могут повлиять на результат.
Источник: news.myseldon.com
Распознавание и синтез речи: как ИИ анализирует наши разговоры
Технический прогресс привел к появлению машин, которые могут понимать, что говорит человек и, более того, в состоянии поддерживать диалог. Некоторые системы говорят так хорошо, что человек в первые пару минут общения с машиной может и не понять, кто его собеседник. Технологии распознавания и синтеза речи — не игрушка и не научный эксперимент. Это инструмент бизнеса, который внедряется все более активно.
Немного истории
Первое устройство, которое «понимало» речь человека, появилось в 1926 году. Это был робот Televox. В нем было три камертона, каждый реагировал на определенную тональность и включал одно из трех реле, отвечающих за разные функции. Но, конечно, это было не распознавание речи в современном понимании.
Ровно через полвека, в 1976 году была разработана полноценная система распознавания, которая понимала уже около 1000 слов. Но и это только отдельные слова, а не полноценный разговор.
https://youtu.be/32KKg3aP3Vw
Лишь в 1996 году появилась первая программа, способная различать непрерывную речь человека, а не команды. Создателем этой технологии стала компания IBM.
В 2016 году системы распознавания речи уже были достаточно широко распространены, хотя точность их работы не превышала 70-80%. То есть из 100 произнесенных слов от 20 до 30 машина не понимала. Сейчас точность некоторых систем превышает 90%, а это значит что, с такой программой можно вести полноценный разговор — она «поймет» текст, и более того, сможет оценить его эмоциональную окраску.
Достигнуть таких результатов удалось при помощи нейросетей — специализированных ИИ-систем, принцип работы которых похож на принцип работы мозга человека. Нейросети также умеют обучаться. Конечно, это не полноценный искусственный интеллект, но все же самообучающаяся система.
Как работает распознавание речи?
Нейросеть анализирует аудиопоток речи человека, разделяя его на отдельные фрагменты. Они называются фонемами. Каждый фрагмент анализируется путем сверки с базой эталонных звуков обученной нейросети и сопоставляется букве, слогу или целому слову. После многократного анализа фонем они расшифровываются в текст.
Получившаяся текстовая запись затем снова сравнивается с базой слов нейросети. После выполнения всех действий нейросеть выдает готовый текст.
Чем дольше обучать систему, тем точнее она сможет различать отдельные фонемы, правильнее расшифровывая речь человека. Пол или возраст говорящего, кстати, не имеет особого значения. Для каждого языка приходится обучать отдельную нейросеть: так, система, научившись распознавать английский, не будет понимать французский.
Кроме речи, роботы уже способны распознавать и эмоции человека — по голосу или в тексте. Проще всего распознавать три базовые эмоции: позитивная, нейтральная, негативная — чем их больше, тем сложнее различать. Например, робот почти не видит разницу между обеспокоенностью и раздражением, поэтому вероятность ошибки высокая. Точность распознавания 3-х эмоций составляет около 93%.
В настоящее время уже довольно точно определяется пол человека по голосу — примерно со 2 секунды разговора робот практически на 100% знает, что общается с мужчиной или женщиной.
Как работает синтез речи?
Науке, бизнесу и медицине интересны роботы и машины, которые не просто озвучивают текстовые фрагменты, но и синтезируют собственные кусочки текста. С этим, хотя и не очень хорошо, справляются даже электронные книги. Речь идет о полноценном общении, когда человек что-то спрашивает у машины, та понимает и дает адекватный ответ. И здесь все еще сложнее, чем в случае с распознаванием речи.
В этом случае на сцену выходят нейросети. Для создания полноценной системы синтеза речи обычно требуется большая команда специалистов из разных областей, причем не только IT-экспертов, но и лингвистов, специалистов по фонетике, акустике, просодике и другим специальностям. Так, программа, которая синтезирует речь, должна уметь правильно расставлять ударения, различать слова-омографы вроде «замОк» и «зАмок», правильно расставлять и выдерживать паузы, корректно формировать интонацию и даже понимать эмоции. Все это очень сложно, особенно если учесть, что для разных языков нужны по-разному обученные системы.
Зачем нам распознавать или синтезировать речь?
Распознавание речи используется различными отраслями бизнеса, науки, медицины. Например, посредством этой технологии, люди с ограничениями здоровья могут управлять своим домом при помощи речи, или же надиктовывать тексты статей, электронных сообщений, sms. Также не стоит забывать и о голосовых помощниках, которые есть сейчас почти в каждом смартфоне, колонке вроде Алисы или ПК под управлением Windows и Mac.
Бизнесу распознавание речи тоже необходимо для разных целей, но одна из главных — это коммуникация с клиентами при помощи телефонных роботов, ботов. Это очень востребованная технология, которая позволяет сэкономить деньги, используя для выполнения рутинных задач машины, а не людей.
Как роботы (не) заменяют операторов колл-центров
Одно из направлений бизнеса, где есть потребность в голосовых роботах — колл-центры. К слову, объем рынка коммуникаций в одной только России оценивается в 150 млрд рублей, значительную часть этого рынка занимают колл-центры, их доля оценивается в 12-15 млрд. Роботов ставят на выполнение задач, которые можно без труда автоматизировать, а люди в это время выполняют более сложные, с которыми машины пока справиться не в состоянии.
Однако операторы колл-центров могут не переживать о том, что их работу отнимут голосовые боты. Как и сказано выше — просто потому, что у людей и роботов разные функции. Показательный пример — сотрудничество с колл-центром компании-партнера TWIN. Проект стартовал, когда в колл-центре работало 500 человек. Сейчас, спустя два года, в нем же работает уже 600 сотрудников.
При этом также расширился и спектр задач, выполняемых голосовым роботом. Этот кейс может служить доказательством того, что в ближайшие 7-10 лет роботы окажут самое незначительное влияние на рынок труда операторов колл-центра.
Пример использования робота № 1. С 2016 кода TWIN активно сотрудничает с финтех-компаниями в России. Роботы помогают отвечать на однотипные вопросы, заданные клиентами. Кроме того, если возникает нестандартная ситуация, то робот способен оперативно переключить звонящего на оператора-человека. Например, мужчина заказал у транспортной компании вазу для своей жены на 8 марта.
Ваза по какой-то причине не доставлена, и недовольный клиент звонит в компанию. Робот сразу же определяет эмоциональное состояние человека и не задает обычные вопросы, а переводит на оператора, который и решает возникшую проблему.
Пример использования робота № 2. Несколько лет назад в России появился проект робота-эйчара. Робота назвали «Вера», и работает она очень эффективно. Роботу дают задачу — например, найти IT-специалиста с определенными компетенциями. Вера сначала ищет походящих кандидатов на сайтах вроде hh.ru, собирает данные специалистов с нужными характеристиками, а затем начинает им звонить.
Бот спрашивает, заинтересован ли соискатель в вакансии, и если тот отвечает положительно, то робот и человек назначают дату созвона с HR-менеджером. Если же ответ со стороны соискателя отрицательный, то робот просит прощения и кладет трубку.
И в первом, и во втором случае голосовые боты могут одновременно разговаривать с сотнями и тысячами абонентов. Это значительно превышает возможности оператора-человека и повышает эффективность компании. Но и задачи здесь, как видим, относительно простые, так что операторы-люди включаются в дело тогда, когда у робота возникает проблема.
В целом технологии как распознавания, так и синтеза речи совершенствуются, становятся все более функциональными. Отличить в простом диалоге по телефону робота от человека бывает крайне сложно. Вероятно, в недалеком будущем голосовые боты полностью возьмут на себя рутинные задачи колл-центров. Кроме того, сейчас активно развивается и направление электронных помощников — через лет пять они станут гораздо более функциональными, чем Siri, Алиса или Маруся. Роботы, способные понимать человеческую речь, различать эмоции и адекватно отрабатывать любые эмоциональные состояния человека, сделают жизнь людей проще, а бизнес — эффективнее.
Источник: spark.ru
От хрипов до естественного звучания. Как развиваются технологии синтеза речи и откуда голоса у Сбера, Джой и Афины
Изобретатели пытались синтезировать человеческую речь ещё несколько веков назад. Сегодня виртуальные ассистенты живут в наших гаджетах, заменяют операторов в колл-центрах, помогают нам справляться с повседневными задачами и становятся персонажами фильмов. Рассказываем, как развивались технологии синтеза речи и как работает это направление в SberDevices.
1343 просмотров
Гриша Стерлинг
учит виртуальных ассистентов Салют разговаривать
Голос — одна из главных составляющих виртуального ассистента как продукта. Если ассистент плохо выговаривает слова, не умеет задавать вопросы или игнорирует знаки препинания, его речь будет звучать странно (и это лишь несколько из возможных проблем). А значит, пользователи не захотят с ним общаться. Поэтому компании, в том числе Сбер, развивают технологии синтеза и ищут способы повысить качество.
Сделать это не так просто. На мировом уровне технологии синтеза речи развиты хорошо, и исследователи выкладывают статьи о своих разработках в открытый доступ. Но если просто использовать чужие методы и архитектуры нейросетей, хорошего качества не будет: даже самую лучшую технологию нужно адаптировать под свои нужды и бесконечно дорабатывать. В SberDevices мы не только используем лучшие на рынке практики, но и создаём свои силами целой команды Rhttps://vc.ru/ml/335300-ot-hripov-do-estestvennogo-zvuchaniya-kak-razvivayutsya-tehnologii-sinteza-rechi-i-otkuda-golosa-u-sbera-dzhoy-i-afiny» target=»_blank»]vc.ru[/mask_link]
Как работает синтезатор речи от Сбера – тест возможностей
Сервис SaluteSpeech способен озвучивать введенный текст и распознавать речь пользователя. Но для хорошего результата надо быть грамотным.
Дата публикации: 30 ноября 2022
Редактор TexTerra
Время чтения: 5 минут
Александр Хлынов Редакция «Текстерры»
Платформа синтеза и распознавания речи SaluteSpeech появилась в открытом доступе, и им теперь могут воспользоваться все желающие, а не только купившие доступ юрлица, как было раньше. Но, как подчеркивает Сбер, все это исключительно в некоммерческих целях. Поэтому если вы захотите записать с помощью SaluteSpeech корпоративный автоответчик, это будет незаконно.
Сервис Сбера – отличная игрушка! Можно записать липовые голосовые сообщения и потом устраивать пранки с близкими и друзьями, можно услышать от «мужчины» или «женщины» то, что всегда мечтал услышать… Но давайте разберем, чем полезен новый сервис, как его можно использовать для дела и проверим особенности его работы.
Представьте себе ситуацию: вам нужно сделать доклад, но у вас убаюкивающий, тихий или невыразительный голос. Тогда вы можете озвучить доклад или презентацию с помощью SaluteSpeech.
И наоборот – вам надо получить распечатанную версию устного доклада или законспектировать совещание. При этом вы либо медленно печатаете, и на это потребуется много времени, либо у вас просто нет времени. Включаем аудиозапись сервису, и он быстро наберет текст.
Но есть ограничения – Сбер выложил SaluteSpeech в открытый доступ не просто так, а для рекламы сервиса и получения новых клиентов, которые его испытают, проникнутся и купят. Отличный ход для продвижения в интернете!
На пробу же дается 100 минут в месяц для распознавания речи (не более 20 секунд за раз) и 200 тысяч символов в месяц для синтезирования речи (не более 200 символов за раз). Но этого вполне достаточно, чтобы провести тесты.
Синтезатор речи SaluteSpeech
Выбор голосов достаточно велик: есть Александра, Наталья, Марфа, Сергей, Борис, Тарас и Kira, но она не понимает русский язык и не говорит на нем – только на английском.
Для корректной интонации нужно правильно расставлять знаки препинания в предложениях. Сервис четко реагирует на «!», «?», «…», меняя интонацию говорящего персонажа, которого выбрал пользователь. Также голос выделяет паузами и интонацией запятые и «:» с «–».
Сервис даже может произнести «калохомидирнада»! Нет, мы не знаем, что это такое – абракадабра. Но нейросеть не только «говорит» это без запинки, но и ставит ударение в самом правильном с точки зрения фонетики месте – на предпоследнем слоге. И делает менее выраженное ударение на первом слоге (по принципу произношения слова «тЕлекоммуникАций»).
Также пользователю не стоит путать «ь» и «ъ», а еще стоит вспомнить правила написания «тся» и «ться» в глаголах. Дело в том, что после трансформации букв в текст сделанные ошибки слышатся вполне отчетливо – они похожи на акцент.
Прокололась программа только на букве «ё»!
Фразу «Все тлен!» нейросеть произнесла как «Всё тлен!». Хм! Умная и знакома с фразеологизмами! Но после замены слова «тлен» на «закончили» программа выдала «Всё, закончили!». Почему не «Все закончили» (имеется в виду, например, все работники закончили трудиться)?
Принудительно заставить программу произнести «ё» можно, но сделать так, чтобы вместо возможного «ё» голос произнес «е» – нет.
Резюме по функции синтеза речи очень хорошее: работает она практически безупречно. Минус только один, и тот касается только пишущего тексты человека – теперь некоторые из нас могут не только увидеть свои ошибки, но и услышать их.
Продвинем ваш бизнес
В Google и «Яндексе», соцсетях, рассылках, на видеоплатформах, у блогеров
Распознавание речи SaluteSpeech
Здесь все уже не так радужно. Да и задача гораздо сложнее – понять, что говорит человек со всеми особенностями его дикции и интонации, и перевести в печатный текст.
Вот как программа написала прочитанное с выражением стихотворение Владимира Орлова «Я узнал, что у меня есть огромная семья»:
«Я узнал, что у меня есть огромная семья, и тропинка, и лесок в поле, каждый колосок, речка, небо голубое это все моё родное, это родина моя. Всех люблю на свете я».
Лесок оказался в поле, перед «это» нет тире, Родина с маленькой буквы и нет «!» в конце, хотя в интонации их было даже три. В таком тексте после легкой редактуры все будет в порядке. Но оплошность «лесок в поле», если бы речь шла о техническом тексте, может перевернуть все с ног на голову.
А вот что выдала программа человеку с невнятной дикцией, как у двоечника, вызванного к доске:
«Я не узнал, что у меня здесь огромная зимия, и травинка, и лесок в поле, каждый колосок лишнего голубое это уже моё родное, это жена моя, всех рубленая, связи я».
Смешно, да. Но главное – лесок так и торчит в поле.
Зато нейросеть прекрасно распознает и удаляет шепелявость – программа выдала первый вариант текста (но лесок и здесь остался торчать в поле). Картавость для нее тоже не проблема, как и многочисленные «эээмммм», «уууу» и прочие излишества в речи говорящего.
В общем переживать по поводу дефектов речи, пользуясь SaluteSpeech, не нужно, а вот артикулировать надо тщательнее – выговаривать слова, а не мямлить, обрубая и проглатывая окончания. Представьте, что вы преподаватель или актер – как и им, вам теперь очень важно, чтобы вас понимали.
Источник: texterra.ru