SaluteSpeech — это сервис для синтеза и распознавания речи, используя который, вы можете:
- преобразовывать речь в текст и наоборот в режиме реального времени,
- выполнять глубокий анализ архивов записей,
- применять все функции сервиса в телефонии.
Технологии SaluteSpeech применяются в работе виртуальных ассистентов семейства Салют.
Примеры использования сервиса:
- Синтез речи в чатах, инструкциях и описании продуктов. Пользователи приложения или сайта не только видят, но и слышат контент. Используйте синтез речи в чатах, инструкциях и описании продукта.
- Голосовой ввод текста. Клиенты используют голосовой ввод, когда писать неудобно. Интегрируйте распознавание речи в чаты, поиск или навигацию.
- Интерактивное меню и автоответчик. Вы можете использовать синтез и распознавание речи для создания IVR (интерактивного голосового меню) и автоответчика — это оптимизирует работу колл-центра.
- Телемаркетинг. Технологии SaluteSpeech позволяют отказаться от услуг операторов — вы можете сделать телемаркетинг эффективнее.
Вы можете проверить нашу технологию распознавания речи в Telegram — подключите SaluteSpeech Bot и отправляйте в него голосовые сообщения.
Рынок интим-услуг: как он устроен и как ломает жизни / Редакция
Также в Telegram вы можете попробовать нашу экспериментальную разработку — функцию устранения шумов и лишних пауз в аудиозаписях. Для этого подключите SaluteVoiceBot.
Как начать работать с сервисом, читайте в разделе Подключение.
Для использования сервисов необходимо являться юридическим лицом или индивидуальным предпринимателем.
Синтез
- API для синтеза речи
- Разметка синтеза речи
Распознавание
- Cинхронное распознавание (HTTP)
- Потоковое распознавание (gRPC)
- Асинхронное распознавание (HTTP и gRPC)
Для решения вопросов по авторизации и использованию сервиса, а также услугам Cloud обратитесь в техническую поддержку .
Сертификат Минцифры
В связи с планируемой заменой TLS-сертификата на сертификаты Удостоверяющего Центра Минцифры , чтобы сохранить работоспособность сервиса SaluteSpeech, необходимо выбрать один из следующих вариантов:
- отключить проверку валидности сертификата в вашем коде;
- установить публичный сертификат УЦ Минцифры в качестве доверенного в вашем коде;
- установить публичный сертификат УЦ Минцифры в качестве доверенного на уровне операционной системы.
Источник: sbercloud.ru
Почему сообщения в Телеграмме на Андроид приходят без звука
По умолчанию в мессенджере Telegram все уведомления включены, чтобы пользователь не пропустил ни одного важного сообщения. Но иногда происходит системный сбой, после чего SMS приходит без звукового сопровождения. В этой статье разберемся, как можно исправить данную проблему и вернуть стандартные настройки.
В этой статье:
- Как включить оповещения в Телеграмме?
- Android
- iOS
- Почему не приходят оповещения?
Как включить оповещения в Телеграмме?
В программе предусмотрены инструменты, с помощью которых легко подобрать оптимальные параметры оповещений в соответствии с вашими личными потребностями. Но в каждой системе есть свои особенности при выборе этих функций. После того, как настройки будут сохранены на смартфоне, все изменения автоматически дублируются в десктопную версию мессенджера.
Android
Чтобы установить индивидуальные параметры чата с вашими контактами:
- Откройте Телеграмм.
- Выберите диалог с нужным собеседником.
- Кликните на его имя.
- Перейдите к разделу «Уведомления».
- Выставьте переключатель в позицию «Вкл».
iOS
Владельцы телефонов на платформе iOS могут изменить настройки уведомлений как для конкретной переписки, так и через общее меню.
Для отдельного диалога:
- Запустите Telegram.
- Перейдите к необходимой беседе.
- Кликните на название чата. На экране появится иконка «Mute».
- Нажмите на аватар собеседника и выберите панель уведомлений. После этого вы можете задать сигнал оповещения и, при необходимости, заблокировать контакт.
Через меню iPhone:
- Перейдите к настройкам.
- Выберите пункт «Уведомления и звуки».
- Подстройте параметры под свои требования.
Почему не приходят оповещения?
Трудно найти приложение, которое имело бы безупречный функционал без каких-либо сбоев. Несмотря на то, что над обновлениями Telegram работали хорошие специалисты, даже им не удалось решить все проблемы.
Иногда причина неполадки может заключаться не в самой программе, а в доступе к Интернету. В этом случае необходимо проверить подключение и перезагрузить смартфон. Также бывают ситуации, когда на переписке с тем или иным человеком выставлена опция «Тихий чат».
Если же вы перепробовали все методы, но звукового сигнала по-прежнему нет, выполните полный сброс Telegram. Делается это через штатное меню приложений.
Однако помните, что при обнулении вы рискуете потерять сохраненные контакты и важную информацию. Обязательно воспользуйтесь резервной копией во избежание сложностей с их дальнейшим восстановлением.
Источник: www-genshin.ru
От контакт-центра компании до умного девайса: как речевые технологии решают задачи бизнеса
Робот контактного центра Сбера и виртуальные ассистенты семейства Салют разговаривают с людьми с помощью речевых технологий. Нейросетевые модели, на которых они работают, мы создали с нуля — так, чтобы система идеально понимала пользователей и давала качественные «человечные» ответы на русском языке. Теперь эти разработки может использовать бизнес — с помощью платформы SmartSpeech, созданной в SberDevices. Рассказываем, на что она способна, что в ней особенного и как научить машину общаться с клиентами.
980 просмотров
Как работает SmartSpeech — и чем наша платформа отличается от других
Возможно, вы помните, как плохо звучали первые голосовые помощники. Siri, живущая в айфонах, не угадывала с интонациями, плохо расставляла паузы и ударения. С пониманием человеческой речи тоже были проблемы: иногда приходилось повторять запрос несколько раз.
Сейчас разработчики по всему миру совершенствуют речевые технологии и создают новые нейросетевые модели, чтобы сделать общение с виртуальными ассистентами максимально естественным. И не зря: компании всё чаще используют такие технологии для решения своих бизнес-задач, и от того, понравится ли клиенту опыт взаимодействия с голосовым помощником, зависит многое. Речевыми технологиями занимаются крупнейшие IT-компании, например Apple, Amazon, Google. А в последние годы — и Сбер.
Распознавание речи (ASR, automatic speech recognition) — «слух» голосовых помощников. Технология превращает сказанное человеком в текст: запрос появляется на экране как если бы пользователь его напечатал.
Чтобы точно понимать человека, нейросети SmartSpeech распознают шум и игнорируют его: разговоры других людей или бормотание телевизора — не помеха. Ещё наши модели определяют, когда пользователь закончил реплику — и ассистенты не перебивают его. Кстати, разработчики могут регулировать период ожидания конца высказывания. Например, если от пользователя ждут короткий ответ (да или нет), время можно сократить — и говорящему не придётся долго ждать ответа от виртуального ассистента.
Кроме того, мы внедрили хинты — подсказки для системы распознавания, которые помогают ей справляться с нестандартными кейсами. Благодаря им нейросеть корректно понимает даже «несуществующие» слова, с которыми она никогда раньше не сталкивалась, например уникальные названия продуктов компании.
Или, допустим, слово вполне обычное, но существуют созвучные ему слова с другими значениями – например, название игры на английском языке и блюдо на русском. В этом случае можно подсказать модели, что сейчас речь идёт именно о блюде (передать в хинты список блюд) и получить правильное распознавание.
Так распозналось название игры
А так — блюдо. Платформа использовала хинт
Общаясь с потенциальными заказчиками, мы поняли, что бизнес хотел бы распознавать эмоции клиентов. Сейчас наши технологии позволяют по голосу определить три эмоции: положительную, отрицательную и нейтральную. Допустим, клиент остался недоволен разговором и говорил раздражённо — платформа предоставит информацию об этом.
Ещё одной важной задачей стала работа с пунктуацией. Человеческую речь, переведённую в текст, гораздо проще воспринимать, если расставлены знаки препинания. Мы научили алгоритмы ставить «?» в конце вопросительных предложений, чтобы диалог с ассистентом получился естественным. Например, для генеративных моделей важно понимать, какое предложение произнёс пользователь — утвердительное или вопросительное.
Синтез речи (TTS, text to speech) — «голос» виртуальных ассистентов. Теперь нет необходимости заранее записывать фразы. Чтобы получить озвученную реплику, достаточно отдать текст нейросети — и робот прочтёт его вслух.
Чтобы добиться качественного синтеза, мы работали с хорошо зарекомендовавшими себя нейросетевыми архитектурами, такими как Tacotron 2. Однако просто взять архитектуру было недостаточно: всех проблем это, разумеется, не решило. Например, система по-прежнему неестественно озвучивала вопросительные предложения. Чтобы решить проблему, мы добавили языковую модель BERT, которую предварительно обучили русскому языку на большом количестве текстов. Теперь архитектура считывает не только слова, но и смысл написанного — и задает вопросы с органичной интонацией.
За корректные паузы в предложениях и выделение нужных слов отвечают отдельные модели. Также благодаря им мы научили нейросети распознавать букву «ё». Если вы загрузите на платформу текст «Николай все решил и отправился в дом, где живут его сестры», система поймёт, что «все» в этом случае читается как «всё», а вместо слова «сестры» надо произнести «сёстры». С помощью другой модели мы решили проблему расстановки ударений: во фразе «Замок на двери был сломан» нейросеть синтезирует правильно — «замóк».
Отдельный комплекс алгоритмов отвечает за нормализацию текста, чтобы виртуальные ассистенты грамотно произносили цифры, названия и адреса. Без нормализации возникла бы путаница. Так, нейросети не понимали бы, что «Кутузовский пр-т» — это Кутузовский проспект.
Так распознаётся номер телефона: сразу в правильном формате
Во многих случаях синтезированная с помощью SmartSpeech речь неотличима от человеческой. Один из потенциальных заказчиков, с которым команда общалась ещё до запуска платформы, сказал, что наш синтез звучит «слишком естественно»: для него было важно, чтобы клиенты сразу же понимали, что говорят с роботом. При этом в большинстве случаев компании всё-таки хотят получить естественное звучание.
Сейчас на платформе четыре голоса, но в ближайшее время мы хотим расширить библиотеку, чтобы клиенты смогли выбрать понравившийся синтез, отталкиваясь от своих потребностей.
В отдельных случаях можно будет выйти за рамки библиотеки: если компания захочет уникальный синтез, мы организуем кастинг дикторов, поможем выбрать подходящего и обучим нейросеть на его голосе. Если вам не хватило технических деталей в рассказе о синтезе — добро пожаловать в наш блог на «Хабре», здесь мы рассказали о технологии подробнее.
Зачем речевые технологии бизнесу — и как испытать SmartSpeech в деле
Чтобы воспользоваться платформой, нужно отправить заявку, а мы предоставим вашим разработчикам доступ к API. Наши речевые технологии «из коробки» можно интегрировать на сайт компании, в приложение, в хардверное устройство или использовать для ответов на звонки в контактный центр, чтобы снизить нагрузку на операторов.
Как протестировать SmartSpeech
1. Перейти по ссылке.
2. Войти в SmartMarket Studio — платформу для разработчиков.
3. Выбрать личное пространство и создать проект SmartService.
4. Заполнить заявку на подключение к SmartSpeech и отправить её на модерацию (в среднем на проверку уходит до трёх рабочих дней).
Многие компании автоматизируют работу со звонками, записывая готовые реплики, но процесс можно упростить. Представим, что магазин нанял диктора для записи фраз со списком товаров. Через месяц ассортимент изменился — и нужно снова привлекать диктора. А это дополнительные траты и риски: диктор может уйти в отпуск, простудиться или просто не найти времени на сотрудничество.
Синтез речи упрощает процесс: достаточно передать в API список новых товаров и услуг в виде текста, а потом сохранить получившийся звуковой поток аудиофайлом. По этому же принципу с помощью SmartSpeech компании могут озвучивать тексты сайтов и приложений: информацию можно не только читать, но и слушать. В некоторых случаях это гораздо удобнее. Например, когда человек за рулём или готовит ужин.
Также SmartSpeech помогает быстрее решить вопрос, с которым обращается клиент. Звонящий говорит, какая услуга ему нужна — и либо сразу попадает на нужного оператора («Хочу оформить кредит»), либо получает ответ от робота («Сколько денег на счёте?»). Кнопочное меню в духе «Чтобы узнать баланс, нажмите один» теперь в прошлом — подобная коммуникация малоинформативна и отнимает у людей слишком много времени. Однако некоторые компании до сих пор её используют, и для такого кейса наша платформа тоже подойдёт.
Есть и менее распространённые бизнес-задачи, которые решает SmartSpeech. Например, расшифровка подкастов: алгоритмы превращают речь в текст. Или распознавание поисковых запросов: пользователь говорит, что именно ищет («Смартфон с хорошей камерой до 30 000 ₽»), и видит подобранные варианты в приложении или на сайте компании.
С базовыми кейсами платформа уже справляется без проблем: небольшой магазин подарков может отдать нейросетям список ассортимента — и они распознают названия товаров. Но если сервисом захочет воспользоваться крупная фармацевтическая компания, мы предложим дообучить имеющуюся модель или даже обучим новую, чтобы она точно понимала специфическую медицинскую лексику и ориентировалась в сотнях тысяч названий препаратов.
Сейчас мы хотим понять, как улучшить SmartSpeech и какие ещё бизнес-задачи может решать платформа, поэтому с каждым запросом команда будет работать отдельно. Оставьте заявку, и мы обсудим, как именно ваш бизнес может использовать наши речевые технологии, чтобы автоматизировать процессы, улучшить обслуживание и в конечном счёте увеличить выручку.
Источник: vc.ru
Как сменить голос в синтезаторе Google на Android смартфоне
Синтезатор речи Google поставляется со всеми смартфонами на базе ОС Android. Это обуславливается не только выбором разработчика, но и качеством данного приложения TTS . Но не все догадываются, что в последних обновлениях синтезатор обзавёлся перечнем новых русских голосов наряду с уже известным женским тембром.
Выбор доступных русских голосов от Google
Для того чтобы ознакомиться с новинками голосов, следует перейти в настройки синтеза речи. У меня на смартфоне ( Android 5.x ) этот пункт доступен в разделе «Язык и ввод». Пользователи же сервиса « Talkback” могут найти его в списке «глобального контекстного меню».
- Здесь находим строку «Синтезатор речи Google » и тапаем по иконки настроек напротив.
- Далее выбираем пункт «Установка голосовых данных» и тапаем по варианту «Русский (Россия)».
- Видим «Набор голосов 1», где и скрыты несколько новых голосов, включая женские и мужские тембры.
- По нажатию на каждый, мы можем установить или прослушать звучание, и решить какой останется в системе — по умолчанию.
Примечание! Незрячие пользователи « Talkback » также могут установить отличный от стандартного голос. Только все манипуляции по настройке выполняются в соответствии с возможностями программы экранного доступа.
Вместо послесловия
Надеемся,что данная информация поможет разнообразить голосовые ответы вашего смартфона. А любители почитать смогут по достоинству оценить новые голоса в приложении FbReader, которое предоставляет чтение книг вслух.
Источник: wd-x.ru