Виртуальные помощники отвечают на телефонные звонки человеческим голосом, могут поддержать беседу или избавить от спамеров, записывают звонки и присылают расшифровку бесед в Telegram.
15 709 просмотров
Никогда такого не было, и вот опять.
Умные автоответчики появились благодаря интровертам и спамерам. Они снимают проблему непредвиденных входящих звонков, спам-звонков и попыток мошенничества. Кроме того, боту можно доверить общение с курьером и другими сервисами. Умные автоответчики решают все эти задачи, а некоторые из них способны даже на большее.
Маша — секретарь
Как говорится, себя не похвалишь, никто не похвалит. Маша была одним из первых автоответчиков, который появился на российском рынке. В США такие помощники используются повсеместно, но ни один из них не может работать с российскими сим-картами. Вдохновившись функцией call screening от Google, которая есть на телефонах Nexus в Америке, создатели проекта решили перестать бороться с импотенцией и олигополией мобильных операторов, нелюбовью к нежданным входящим и собственной интроверсией и придумали Машу.
ШКОЛЬНЫЕ ВОПРОСЫ. Вопросы из школьной программы
Главная идея сервиса принимать звонки с незнакомых номеров, выясняя, откуда звонят. Для этого разработчики сделали регулярно обновляемую базу юридических лиц; номера физических лиц Маша проверяет в интернете. Чтобы заблокировать спам, нужно нажать на соответствующую кнопку после того, как Маша прислала отчет от звонке.
Как подключить
Подключение Маши занимает пару минут. Скачивать приложение не нужно, настроить автоответчик можно в Telegram. Туда же приходит сообщение с аудиофайлом и текстовой расшифровкой разговора.
Как звучит
Голос Маши приятный. Иногда чересчур. Парни иногда жалуются на Машу, потому что их вторые половины порой недоумевают какая такая Маша, почему она берет трубку, чем таким условный Василий занят в то время когда ему звонит его любимая. Сплошная драма.
Особенности
- Маша работает на номере 8-800. Не важно, сколько стоит переадресация у вашего мобильного оператора, звонки Маше будут бесплатными.
- Машу можно научить распознавать имена из ваших контактов. Вообще боты в Telegram не имеют доступ к контактам пользователя, поэтому они показывают только номера, что не очень удобно. Можно интегрировать «Google.Контакты».
- Она помогает элегантно избежать нежелательного общения. Добавьте неприятных людей и компании в избранное, и в следующий раз вместо Маши абонент услышит короткие гудки. Нажмите кнопку «Спам», и вместо гудков будет воспроизводиться сообщение «набранный номер не существует или набран неправильно».
- Маша — не только автоответчик, но планировщик встреч. Причем бесплатный. Ей можно доверить назначение любых встреч, напоминание о них, создание встреч в Zoom. Можно подключить только «Календарь», не подключая автоответчик.
- Бесплатный пакет с базовыми функциями, есть платные тарифы 249 и 399 рублей за расширенный функционал, есть годовой и персональный тариф с живым секретарем.
Олег от банка «Тинькофф»
БЛОНДИНКИ ОТВЕЧАЮТ НА ВОПРОСЫ ШКОЛЬНОЙ ПРОГРАММЫ / 10 глупых вопросов блондинке
Привет, Олег! Точнее, «Защитник Олег», как позиционируют автоответчик создатели, «спасает клиентов от опасных, нежелательных и назойливых звонков». Помимо базовых функций, он дает советы о том, как не стать жертвой мошенников и неплохо шутит.
Как подключить
Подключить Олега можно можно тремя способами:
- через мобильное приложение «Тинькофф», написав в чат «секретарь» — для клиентов банка;
- через Telegram (запустите бота OlegOtvetBot) и «ВКонтакте» (напишите сообществу «Олег — телефонный секретарь»);
- через приложение оператора «Тинькофф Мобайл», включая версию Pro с расширенными голосовыми настройками «Олега». (Pro автоматически подключается всем, у кого появляется сим-карта банка).
Как звучит
На любителя, прямо скажем. Ну а что вы от меня хотели, я максимально предвзята. Действительно умеет шутить, ну и как большой плюс нет обмана, что это человек, то, что это робот понятно с первой секунды.
Особенности
- Телефонный секретарь Олег работает бесплатно на номерах любых мобильных операторов России. Использует 8-800 для переадресации.
- Смешно шутит. Похоже, искусственный интеллект Олега действительно обучался на 110 млн звонков (об этом разработчик рассказывал в СМИ). Стоит ему услышать ключевые фразы, например, «назовите данные вашей карты» или «пароль из SMS», и шуточки становятся язвительнее. Говорят, что диалоги Олегу пишут известные сценаристы.
- Расшифровку разговора можно получить не только в Telegram, но и через мобильное приложение или VK.
- Функция Screen Call: во время разговора или если вы не хотите поднимать трубку можно написать Олегу, что сказать, и он озвучит текст звонящему.
- Функция Call Back — Олег перезванивает и узнает, кто и зачем звонил.
- Учитывает предыдущие транзакции пользователя и на их основе может угадывать, что приехала доставка или звонит друг.
Ева от «МегаФона»
Ева появилась в июле 2021 года. Имеет базовый функционал, работает через Telegram, записывает звонки и высылает расшифровку разговора, кажется делает это чуть быстрее Олега.
Как подключить
Нажать кнопку «Включить бесплатно» на сайте оператора, перейти в Telegram-чат и настроить автоответчик.
Источник: vc.ru
Нейросеть ответит на все твои вопросы — даже те, которых ты не задавал
Нейросеть отвечает на вопросы! Теперь вы можете задать свой вопрос нейросети, и получить быстрый ответ онлайн. Нейросеть знает ответы на вопросы на любую тему — от искусственного интеллекта до кулинарии. Просто задайте любой вопрос, и наша нейросеть ответит вам мгновенно. Независимо от вашего запроса, с помощью нейросети найти нужные ответы на вопросы будет быстро и легко!
Попробовать нейросеть в деле онлайн бесплатно:
Ошибка!
Примеры работ нейросети из раздела дай ответ
Как выучить английский хорошо, чтобы его и понимать на отлично и говорить понятно для иностранца?
Есть несколько способов, которые могут помочь вам выучить английский хорошо:1. Практикуйте свои разговорные навыки. Занимайтесь разговорной практикой с носителями языка, смотрите.
3 нед. 3 д. 6 ч. 44 мин. 43 сек.
Как стать самым умным
AI: К сожалению, нет одного конкретного способа стать самым умным, потому что умный человек — это не только знания и умения в определенной области, но и широкий кругозор и способно.
3 нед. 5 д. 21 ч. 13 мин. 49 сек.
Как делают мороженное
Мороженное делается путем смешивания молока, сахара, яиц и добавок (например, фруктов или шоколада), затем смесь замораживается. В процессе замораживания мороженное перемешивается.
3 нед. 5 д. 3 ч. 1 мин. 28 сек.
Сколько лет живут люди
Средняя продолжительность жизни людей зависит от многих факторов, таких как генетика, образ жизни, питание, медицинская помощь и т. д. В настоящее время средняя продолжительность.
1 мес. 3 нед. 3 ч. 44 мин. 25 сек.
Что такое халтура
Халтура — это работа либо изделие низкого качества, сделанное неряшливо или не профессионально. Это может быть что угодно от некачественных материалов до недостатка мастерства у р.
1 мес. 4 нед. 23 ч. 53 мин. 35 сек.
Сколько человек всего в мире и сколько из них пользуется интернетом
По данным ООН, на 2021 год в мире проживает около 7,9 миллиарда человек. Согласно исследованию компании Statista на 2021 год, число пользователей интернета в мире составляет более.
2 мес. 1 д. 9 ч. 26 мин. 50 сек.
Как продвинуть сайт в топ 3 Яндекс
1. Оптимизация сайта под поисковые системы: Убедитесь, что сайт имеет оптимальную скорость загрузки, хорошую структуру URL-адресов, правильную структуру заголовков и метаописаний.
2 мес. 1 д. 23 ч. 30 мин. 56 сек.
Как продвинуть сайт в топ 3 Гугл
Продвижение сайта в топ-3 Гугла требует комплексного и длительного подхода, который включает в себя следующие шаги:1. Анализ конкурентов и ключевых слов — определение стратегии пр.
2 мес. 1 д. 23 ч. 30 мин. 45 сек.
Какой процент отказов на сайте считается нормальным
К сожалению, я не могу дать точный ответ на этот вопрос, так как процент отказов на сайте может быть разным в зависимости от множества факторов, таких как тип сайта, тип трафика, в.
2 мес. 3 д. 9 ч. 32 мин. 22 сек.
Выберите верные утверждения: Датафреймы в PySpark состоят из отказоустойчивых распределённых наборов данных, где каждый столбец — это RDD. Функция getOrCreate() создаст объект SparkSession, если его ещё нет. SparkContext даёт доступ к RDD, а объект SparkSession — к датафреймам.
Верными утверждениями являются:- Функция getOrCreate() создаст объект SparkSession, если его ещё нет. — SparkContext даёт доступ к RDD, а объект SparkSession — к датафреймам.
2 мес. 6 д. 13 мин. 51 сек.
Как сделать мягкую игрушку зайчик на шарике
1. Необходимые материалы:- Шарик для создания тела зайчика- Белый, розовый и черный флис для создания ушей, ног, глаз и носа- Ножницы- Прищепки для бумаги- Шприц для насоса шарико.
2 мес. 1 нед. 1 д. 3 ч. 17 мин. 9 сек.
Самые популярные фильмы за все время
Точный ответ на этот вопрос зависит от разных факторов, включая жанр, страну производства, год выхода и метод подсчета популярности. Однако, если говорить о самых кассовых фильмах.
2 мес. 1 нед. 1 д. 21 ч. 13 мин. 51 сек.
Расположи в хронологической последовательности исторические события. Запишите цифры, которыми обозначены исторические события в правильной последовательности. 1) Крестьянская война Степана Разина 2) Восстание Ивана Болотникова 3) Восстание Уота Тайлера
1) Крестьянская война Степана Разина (1667 год)2) Восстание Ивана Болотникова (1606-1607 годы)3) Восстание Уота Тайлера (1381 год)
2 мес. 1 нед. 2 д. 6 ч. 25 мин. 26 сек.
Установите соответствие между событиями и годами: к каждой позиции столбца события подберите соответствующую позицию из столбца годы. СОБЫТИЯ А) Полтавский бой Б) штурм Перекопа войсками под командованием М. В. Фрунзе В) Мукденское сражение Г) битва на реке Шелони ГОДЫ 1) 1471 г. 2) 1551 г. 3) 1709 г. 4) 1905 г. 5) 1916 г. 6) 1920 г.
А — 1709 г. Б — 1920 г. В — 1905 г. Г — 1551 г.
2 мес. 1 нед. 2 д. 6 ч. 26 мин. 52 сек.
Два пассажирских поезда, оба длиной по 250 м, идут навстречу друг другу с одинаковой скоростью — 45 км/ч. Сколько секунд пройдет после того, как встретились машинисты, до того, как встретятся кондукторы последних вагонов?
Общая длина двух поездов составляет 500 метров (250 метров каждый). Скорость каждого поезда — 45 км/ч. Переведем скорость в метры в секунду: 45 км/ч = 12,5 м/с. Встреча происходит.
2 мес. 1 нед. 3 д. 12 ч. 33 мин. 19 сек.
Продолжите последовательность: 5, 11, 23, 47, 95.
Следующее число в последовательности будет 191. Пояснение: Числа в последовательности вычисляются по формуле: текущее число = предыдущее число * 2 — 15 * 2 — 1 = 99 * 2 — 1 = 1919.
2 мес. 1 нед. 3 д. 12 ч. 34 мин. 40 сек.
За одним начальником, живущим на своей даче, по утрам приезжала машина и отвозила его на работу к определенному времени. Однажды этот начальник, решив прогуляться, вышел за 1 час до приезда авто и пошел пешком ему навстречу. По дороге он встретил машину и прибыл на работу за 20 минут до ее начала. Сколько времени продолжалась прогулка?
Продолжительность прогулки составила 40 минут. Важно заметить, что начальник смог добраться на работу на 20 минут раньше, чем обычно. Это значит, что он встретил машину не точно.
2 мес. 1 нед. 3 д. 12 ч. 37 мин. 25 сек.
В одной африканской деревне живет 800 женщин. 3% из них носят по одной серьге, половина жительниц, составляющих остальные 97%, носит по две серьги, а другая половина вообще не носит серег. Сколько серег можно насчитать в ушах у всего женского населения деревни?
Первый шаг — найти количество жительниц, носящих по одной серьге:3% от 800 = (3/100) * 800 = 24 женщиныЗатем найдем количество жительниц, носящих по две серьги:Половина жительниц.
2 мес. 1 нед. 3 д. 12 ч. 39 мин. 8 сек.
Centos 7 установить и настроить сервер входящей почты для домена
Для установки и настройки сервера входящей почты на CentOS 7 необходимо выполнить следующие шаги:1. Установить почтовый сервер Postfix командой:sudo yum install postfix2. Настрои.
2 мес. 1 нед. 4 д. 1 ч. 30 мин. 22 сек.
Как работать с синдромом самозванца?
Как и с любым другим синдромом, синдромом самозванца нужно работать устранением его причин и симптомов. В данном случае, необходимо обратиться к психологу или психиатру для прохож.
2 мес. 1 нед. 4 д. 4 ч. 46 мин. 57 сек.
Каково различие между переменной и аргументом?
Переменная — это имя, которое используется для хранения значения, которое может быть изменено в ходе выполнения программы. Аргумент — это значение, передаваемое в функцию или мето.
2 мес. 1 нед. 5 д. 7 ч. 20 мин. 57 сек.
Как проще всего открыть кокос
Самый простой способ открыть кокос:1. Сверху кокоса найдите мягкое «глазко». 2. Проткните его отверткой или другим острым предметом. 3. Вылейте жидкость внутри кокоса (кокосовую.
2 мес. 1 нед. 5 д. 20 ч. 44 мин. 10 сек.
Чем заняться на выходных
Как именно провести свои выходные зависит от личных интересов и желаний. Вот несколько возможных вариантов:1. Провести время со своей семьей или друзьями — пойти на прогулку, пос.
2 мес. 1 нед. 6 д. 22 ч. 52 мин. 40 сек.
Xiaomi как подключить пульт
Чтобы подключить пульт к устройству Xiaomi, вам нужно сделать следующее: 1. Откройте приложение «Mi Home» на своем устройстве Xiaomi. 2. Нажмите на значок «Добавить устройство».
2 мес. 2 нед. 28 мин. 54 сек.
Что такое chat gpt вкратце
Chat GPT — это модель генерации текста на основе искусственного интеллекта, которая используется для создания ботов и персональных помощников. Она может обмениваться сообщениями с.
2 мес. 2 нед. 1 ч. 39 мин. 8 сек.
Какие животные живут в Африке?
В Африке обитают многие виды животных, в том числе:- африканский слон;- лев;- жираф;- буйвол;- носорог;- гепард;- зебра;- антилопа;- горилла;- шимпанзе;- лемур;- змеи;- крокодилы;-.
2 мес. 2 нед. 4 ч. 27 мин. 9 сек.
Почему наступает зима
Наступление зимы связано с изменением земной оси в направлении к параллели, называемой зимним солнцестоянием. Это приводит к тому, что в зимний период солнечные лучи падают на пов.
2 мес. 2 нед. 5 ч. 58 мин. 9 сек.
Самый прочный материал на земле
Самым прочным материалом на земле считается графен. Графен — это однослойный кристаллический материал, состоящий из атомов углерода, связанных в шестиугольную решетку. Он обладае.
2 мес. 2 нед. 6 ч. 4 мин. 38 сек.
Ответы на вопросы с помощью нейросети — быстро и точно
AI Search — нейросеть, которая ответит на любой вопрос. Нейронная сеть включает в себя более 100 миллионов параметров. Она работает на основе метода глубокого обучения и способна выявлять закономерности в больших массивах данных. Благодаря этому нейросеть может обрабатывать информацию из различных источников и находить ответы на широкий спектр вопросов.
Нейросеть отвечает на вопросы, связанные с наукой, историей, географией, культурой и другими областями знаний. Например, нейросеть отвечает на тест по любой дисциплине онлайн за несколько минут. С помощью нейросети онлайн можно быстро найти ответ на вопросы, связанные с актуальными событиями, новостями и трендами.
Чтобы получить релевантный ответ нужно задать вопрос нейросети онлайн на естественном языке — это может быть фраза, предложение или даже целый текст. Нейросеть обработает запрос и выдаст несколько вариантов ответов, наиболее подходящих под заданные критерии. Нейросеть также может давать рекомендации по дополнительным источникам для дополнительного изучения темы. Нейросеть, которая знает ответ на любой вопрос, поможет решить тест или получить нужную информацию быстро.
Несмотря на свою современность и быстроту обработки, нейросеть все еще имеет некоторые ограничения. Нейросеть не всегда может понимать значения слов и фраз без контекста, и не всегда может понять различие между фактом и мнением. Также нейронные сети не могут обработать запросы, связанные с эмоциями или описанием сложных человеческих ситуаций.
Тем не менее, нейросеть онлайн — это мощный инструмент для поиска информации и получения ответов на различного рода вопросы. Искусственный интеллект может быть полезен для студентов, ученых, журналистов, а также для всех, кто интересуется изучением мира вокруг себя. Не исключено, что в будущем нейросеть Айсерч станет еще более совершенной и поможет людям в найти ответы на даже более сложные вопросы, которые возникают в нашей жизни.
Источник: aisearch.ru
Как Маруся отвечает на вопросы пользователей обо всём на свете
Привет, это команда ответов на вопросы Маруси. Мы все привыкли к тому, что голосовые помощники отвечают на любые вопросы. Не всегда правильно, но обычно вполне толково и с пользой. А вы когда‑нибудь задумывались, как это устроено? Сейчас расскажем на примере нашей Маруси.
Материал состоит из двух частей, это первая часть. В ней мы дадим поверхностный обзор того как устроена Маруся, локализуем место навыка «ответов на вопросы» и расскажем на концептуальном уровне, как можно решать эту задачу.
Почему вода мокрая?
Многие пользователи любознательны и ожидают, что Маруся сможет ответить на любые информационные вопросы. Например, «Сколько лет было Пушкину, когда он умер?», «Сколько кораблей было в экспедиции Магеллана?», «Почему унитаз так называется?» и множество других.
Очевидно, что писать ответы на все вопросы вручную бессмысленно, ведь количество вопросов бесконечно. Поэтому на помощь приходит машинное обучение в сочетании с поисковыми технологиями, сегодня это безальтернативный подход в любых голосовых помощниках. Благодаря ему Маруся может поддержать вас полезным ответом в любой жизненной ситуации, например: «Что такое стаксель?» или «Кто такой эндермен в майнкрафте?».
Что такое вопрос?
Прежде чем рассказывать про ответы, вкратце объясним, а как Маруся вообще понимает, что её спрашивают. Когда вы обращаетесь к ней, она это определяет, записывает вашу речь и отправляет на сервер. Там голос распознаётся и преобразуется в текст (ASR — Automatic Speech Recognition).
Теперь нужно классифицировать обращение: пользователь захотел просто поболтать с Марусей, дал ей команду или о чём‑то спросил? Этим занимается компонент «матчинг». Он выбирает подсистему, ответ из которой наилучшим образом соответствует запросу пользователя. Некоторые вопросы сильно похожи на фразы для других скиллов Маруси и от качества работы матчинга сильно зависит конечный результат (см. таблицу с примерами).
Запрос в навык фактов
Запрос в другой навык
При какой температуре отменяют занятия в Новосибирске?
Какая температура в Новосибирске?
→ (Погода)
Какой самый популярный фильм с Киану Ривзом?
Нравятся ли тебе фильмы с Киану Ривзом? → (Болталка)
Кто главный персонаж сказки Пушкина
«О рыбаке и рыбке»?
Сказку о рыбаке и рыбке. →
(Аудиокниги)
Самый новый Кадиллак это какой?
Давай это новый кадиллак. → (Музыка)
Как видите, даже небольшие различия в формулировке могут приводить к изменению скилла, а значит и другим результатам. В скилл ответов на вопросы отправляются самые разные запросы, как сформулированные в виде вопросов («В каком году построили Великую Китайскую стену?»), так и выглядящие как поисковый запрос («Китайская стена, год постройки»), и в обоих случаях Маруся должна понять, что это информационный запрос и ей нужно найти и сообщить некую объективную информацию. А вот фраза «Маруся, как дела?» — тоже вопрос, но он является не информационным запросом, а приглашением к общению, это не информационная потребность. Такие фразы обрабатываются «болталкой», как и фразы о субъективном отношении Маруси к каким‑либо явлениям. В некоторых случаях, таких как погода, информационный запрос передаётся отдельной подсистеме, предоставляющей более удобные и актуальные данные для удовлетворения запросов пользователя.
Кроме того, вопросы можно поделить на хорошиеи плохие. Хорошие — это ясно озвученные запросы, из текста которых полностью понятен смысл спрашиваемого. А плохие — это нечётко сказанные или обрывочные, которые для хорошего ответа требуется уточнить. Например, дети часто не могут внятно и чётко сформулировать вопрос к Марусе.
Или человек начинает о чём‑то спрашивать, но задумывается, как бы это сказать, ну, это… и, вот, короче… и алгоритмы Маруси уже решили, что человек закончил говорить, и пытаются как‑то обработать услышанные слова. Хорошие вопросы идут по стандартному процессу формирования ответов, а плохие — по отдельному, их мы тоже обрабатываем, но это уже другая тема.
Качество вопроса
Примеры
Хорошие
что такое цвет?
является ли пиэлектазия почечною недостаточностью?
почему собака часто пукает?
что обязана делать уборщица пятерочки?
Поисковые
синонимы к слову говорить
корейский плакат
страница двадцать один упражнение десять второй класс первая часть
площадь македонии,
императрица значение в картах таро
Плохие
что надо делать чтобы что нибудь оживить?
вот это угадай бравлера который у меня есть?
можешь рассказать больше о ксюше?
во сколько салют?
как это блин пылесосит как это называется
Ошибки матчинга
марусь номера номера, да расскажи, повтори пожалуйста,
определить кто на фото, выключи как я люблю
Отвечаем по-порядку
Итак, система определила, что фраза пользователя — это информационный запрос. Если смотреть на проблему высокоуровнево, то есть несколько способов ответить на него:
- Выбрать из отдельной базы готовых ответов на запросы. Такой подход оправдан по отношению к самым чувствительным темам, когда минимальные ошибки могут приводить к сильному негодованию пользователей. Эту базу заполняют наши редакторы.
- Найти ответ в графе знаний. Граф знаний — это хранилище, в котором хранятся знания об объектах окружающего мира и связях между ними. Объектами могут быть различные достопримечательности, важные исторические события и личности. Связями выступают различные отношения в духе «находится в», «автор произведения», «место рождения» и т. д. Если запрос пользователя не касается чувствительных тем, то система вычленяет из него объекты и их свойства и ищет их в графе знаний. Такая подсиcтема позволяет достаточно быстро и точно отвечать на простые запросы вида «Кто убил Пушкина?».
- Если же запрос не относится к первым двум категориям, то включается механизм поиска информации в сети и компилирования ответа. О нём подробно пойдёт речь во второй части этой статьи.
- Наконец, можно делегировать задачу генеративной модели и надеяться, что в ответе не будет галлюцинаций. До выхода в свет моделей типа ChatGPT ответы генеративных моделей оставляли желать лучшего из‑за маленьких неточностей, ломающих корректность ответа (хороший разбор ChatGPT здесь). Но, скорее всего, в ближайшем будущем мы можем ожидать позитивных сдвигов в этом направлении.
Важный нюанс: если пользователь спрашивает Марусю в фирменном приложении, то там она может ответить целым абзацем текста. А когда спрашивают о чём‑нибудь умную колонку, то не ожидают, что она в ответ разразится речью минуты на полторы, то есть при работе через колонку ответ должен быть короче, но с сохранением информативности. Именно о таких ответах мы и будем дальше рассказывать.
В самом начале Маруся могла отвечать только заранее заготовленными ответами или с помощью графа знаний. Это сильно ограничивало её возможности, ведь фактоиды — относительно простые вопросы, которые легко укладываются в граф знаний — составляют лишь небольшую долю от всего потока запросов к Марусе. Нам очень нужно было решение, позволяющее отвечать на остальную, львиную долю запросов людей.
Следующим шагом было использование результатов собственного поиска Mail.ru для нужд Маруси и демонстрация сниппета выдачи — текстового фрагмента с одной из найденных поисковиком страниц, идущего после заголовка. По идее, сниппет должен вам показать, что на этой странице есть то, что вы ищете.
Но это решение не помогло нам значительно увеличить количество хороших ответов из-за того, что система сниппетов изначально создавалась под сценарий веб-поиска, который значительно отличается от взаимодействия в режиме голосового помощника.
Генеративные модели
Логично, что в какой‑то момент мы обратились к модным генеративным моделям, таким как GPT и T5. Такие модели получают на вход некоторый текст (например, текст вопроса) и на его основе генерируют какой‑то ответ. Эта методика оказалась лучше сниппетов, но тоже не без недостатков.
Во‑первых, генеративные модели моложе 2023 года про окружающий мир знают только из текстов, которые они видели на этапе предварительного обучения, и, следовательно, пытаются писать похожий текст. Но мир меняется, и информация, которую «запомнила» нейросеть, устаревает. Например, где‑то выбрали другого президента, обновился мировой рекорд, Месси сменил клуб — и всё, модель отстала от жизни. То есть вам в любом случае нужно обеспечить себя достаточным количеством актуальных фактов о внешнем мире.
Во‑вторых, такие нейросети не всегда генерируют идеальный текст: даже при верно понятой теме они могут «уделять внимание» не тем деталям или давать несодержательный ответ.
Примеры проблемных ответов генеративных моделей середины 2022 года:
Вопрос
Генеративный ответ (пунктуация модели)
Что делать, чтобы хороший сон приснился?
Сон — это всего лишь игра воображения, и не более того. Если вы проснётесь в хорошем сне, то вам будет сопутствовать удача во всех сферах вашей жизни.
Дай определение слова вождь племени в древности?
Вождь племени — это тот, кто является вождём племени. В древнерусском языке слово вождь означает «властелин».
Кто такой лайт ягами?
Лайт это тот, кто не умеет играть на гитаре.
С этими недостатками можно бороться, увеличивая размер нейросети, количество и актуальность обучающих данных, а также усложняя процедуру обучения. Но вам в любом случае нужны примеры хороших ответов на задаваемые вопросы.
Поэтому главным локомотивом нашего решения являются дискриминативные модели, извлекающие ответы из текстов в интернете. Именно такие модели сейчас дают большую часть ответов на вопросы в Марусе.
Дискриминативные модели
Как же мы находим ответы в интернете? После первичного препроцессинга запроса система обращается к Поиску и получает от него десять первых найденных документов в виде заголовка и тела страницы, затем делит полученные тексты на отдельные предложения и решает, является ли каждое из них ответом на вопрос. Ранжирование выдачи для ассистента и выделение ответа из текста происходит с использованием трансформеров, таких как Roberta и Alberta.
Более подробно о технической стороне вопроса мы поговорим во второй части. Здесь же вкратце ограничимся перечислением некоторых требований, удовлетворение которым представляет определённые вызовы:
- Ответ должен быть получен достаточно быстро. Но последовательный вызов поиска и извлечение ответа с использованием больших трансформеров может занимать значительное время.
- Пользователю нужно показывать с одной стороны достаточно информативный кусок текста, а с другой стороны излишне длинные и/или избыточные ответы могут вызывать дискомфорт у слушателя колонки
Оценка качества и разметка данных. Повышение качества
Каждый день мы отслеживаем качество всего, что говорит Маруся пользователям, а не только качество ответов на информационные запросы. Конечно, это слишком большой объём информации, и для анализа качества всех ответов потребовался бы огромный штат людей, что слишком дорого даже для большой корпорации. Поэтому мы проверяем лишь контрольные срезы в разных категориях, в том числе и в ответах.
Но чтобы понять, что ответ был хорошим, нужно сначала обучить асессоров тому, что такое «хороший ответ». Для этого мы написали и развиваем инструкцию для службы оценки качества. Если коротко, то самая‑самая первая инструкция сводилась к следующему: асессоры классифицировали пары вопрос+ответ на 3 класса:
- 0 — если они не видели ответа на вопрос в предлагаемом тексте;
- 2 — если они видели, что ответ есть;
- 1 — если они чувствовали, что этот текст вроде бы, в тему, но как будто бы чего‑то в нём не хватает.
Промежуточный класс крайне важен, потому что при разметке он позволяет избегать ошибок, в которых не особо качественный ответ признаётся хорошим и получает метку 2. При обучении и подсчёте метрик качества такие пограничные ответы считались плохими.
Примеры разметки для вопроса «До скольки можно слушать громко музыку?»:
В любом случае громко слушать музыку не нужно.