Машинное обучение превратилось в модный термин, но при работе с большими объёмами данных оно уже много лет является жизненной необходимостью. Яндекс обрабатывает более 200 миллионов запросов ежедневно! Когда-то в интернете было так мало сайтов, что наилучшие из них помещались в каталог, а теперь за релевантность ссылок на страницы в выдаче отвечают сложные формулы, обучающиеся на новых и новых данных. Задача ложится на так называемые конвейеры, регулярные процессы, обучающие и контролирующие эти формулы.
Сегодня хотим поделиться с сообществом Хабра нашим опытом создания вычислительной платформы Нирвана, которая, среди прочего, применяется для задач машинного обучения.
Нирвана — неспециализированная облачная платформа для управления вычислительными процессами, где приложения запускаются в порядке, указанном пользователем. В Нирване хранятся нужные процессам описания, ссылки, блоки процессов и связанные с ними данные. Процессы оформлены в виде ациклических графов.
Что такое ЯНДЕКС.ТВ?
Нирваной для решения вычислительных задач пользуются разработчики, аналитики и менеджеры разных департаментов Яндекса — потому что далеко не всё можно посчитать на своем ноутбуке (а почему ещё — мы расскажем в конце статьи, когда перейдем к примерам применения Нирваны).
Здравствуйте, меня зовут Алиса: изучаем особенности работы искусственного интеллекта от Яндекса
Несмотря на то, что официально помощница была представлена в октябре 2017 года, её дебют состоялся ещё в мае того же года в поисковике Яндекса для мобильных платформ. Началом создания же считается конец 2016 г. Этому послужило развитие нейросетей и первых проблесков искусственного интеллекта во всём мире. Каждая крупная IT-компания уже имела на тот момент собственную разработку в этом направлении. Яндекс решил не отставать.
Зарубежный конкурент − Siri
Какие интернет-технологии использует голосовой помощник — Алиса
Важно понимать, что это не просто отдельное приложение, это целый комплекс систем и сервисов, которые взаимодействуют сообща. Пользователь видит всего лишь оболочку для удобного использования с понятным интерфейсом. Внутри же искусственного интеллекта находятся системы распознавания и синтезирования речи, поиска и геолокации и многие другие технологии.
На самом деле механизм распознавания куда сложнее, чем кажется
Как голосовой помощник распознаёт и синтезирует речь
Работает искусственный интеллект Алисы в режиме онлайн. И самый главный элемент при общении — это механизм распознавания речи. Такой у Яндекса уже есть, и называется он SpeechKit. Именно он позволяет улавливать человеческую речь, преобразовывать и понимать её смысл. В зависимости от полученного результата, помощник, обученный большому количеству текстов, фраз и выражений, составляет логически верный ответ или действие.
Алиса Сандра звонит в Яндекс Офис
Болтать и спрашивать можно всё что угодно И уже на финальной стадии процесса ответ передаётся в механизм формирования речи. Голос помощника неживой, он синтезирован на основе реального женского голоса актрисы озвучки Татьяны Шитовой. Именно она является голосом популярной голливудской актрисы Скарлетт Йоханссон в российском прокате.
На каких платформах работает голосовой помощник
Среда обитания помощника постоянно расширяется. В начале он появился в мобильных приложениях Яндекса и Яндекс.Браузера на платформах iOS и Android. Затем переехал и в Windows. В начале 2018 года приложение Яндекс.Навигатор было полностью переведено на управление с помощью голосового помощника. В дальнейшем компания Яндекс планирует расширить его сферу деятельности на различные устройства и гаджеты.
Погода и факты особенно популярны
Обзор стандартных и дополнительных функций
В функционал искусственного интеллекта входит обширный список сервисов и служб, с помощью которых Алиса может помочь в самых разных ситуациях. Найти объект на карте, узнать какой-либо факт, посмотреть расписание, скачать или послушать музыку, построить маршрут и многое другое.
Где и о чём можно поговорить с Алисой
Самый простой вариант использования − это болтовня. С ней можно просто разговаривать на самые разнообразные темы, просвещаться, задавая вопросы и получая ответы. Алгоритм распознавания и ответов постоянно совершенствуется, поэтому помощник становится умнее и изобретательнее, используя новые речевые обороты и выражения. Для того чтобы инициировать процесс разговора, нужно просто сказать: «Алиса, давай поболтаем».
Можно и анекдот рассказать Очень удобно спросить у программы, где находится тот или иной объект поблизости. Например, кинотеатр или отделение почты. Помощник с помощью Яндекс.Карты определит координаты и покажет, как добраться в нужную точку, позвонить туда или просто узнать график работы. У Алисы также можно поинтересоваться насчёт погоды на ближайшие дни. После запроса она почерпнёт информацию из Яндекс.Погоды и выдаст результат.
Как играть с голосовым помощником
Так как Алиса − это искусственный интеллект, она умеет играть в несколько простых, но захватывающих интерактивных игр. Чтобы начать игру, достаточно произнести фразу «Давай сыграем» и указать название игры. В репертуаре искусственного интеллекта есть такие игры, как «Виселица», «Угадай животное», «Число», «Загадки», «Верю не верю», «Угадай актёра», «Угадай песню», «Найди лишнее» и «Зоология». Весь формат игры представлен так же, как и общение с Алисой: то есть посредством голосовых команд и получения ответов помощника.
Беседа может обрести неожиданный поворот, ведь нейросеть постоянно учится
Как установить и пользоваться искусственным интеллектом от Яндекса
Так будет выглядеть интерфейс программы на iPhone Сейчас установить помощника можно на три основные платформы: Андроид, iOS, Windows. Для Android Алису можно найти в магазине приложений Google Play. Стоит учесть, что поддерживается версия Android выше 4.3. Для iPhone нужно использовать штатный магазин AppStore и версию от 9.
Так будет выглядеть интерфейс программы на Андроид Для Windows диапазон версий должен находиться в границах от 7 до 10. У Алисы есть собственная страничка в интернете − alice.yandex.ru, на которой можно скачать официальную Алису от Яндекса на свой ПК или смартфон и установить.
Так будет выглядеть интерфейс программы на ПК Сейчас Алиса встроена в браузер и приложение Яндекса. Достаточно установить приложение или браузер на компьютер или смартфон, и Алиса будет присутствовать в нём по умолчанию. Чтобы начать говорить с помощником, достаточно запустить приложение и сказать «Привет, Алиса» или нажать на кнопку с микрофоном.
Источник: gadgets-reviews.com
Яндекс
Яндекс является самой популярной поисковой системой в РФ. 1 Кроме поиска сервис может предложить массу доп. опций, которые будут полезны не только обычным пользователям, но и бизнесу, который все также активно стремится занять удачную нишу в Сети. Яндекс – это поисковая система, ориентированная на русскоязычный сегмент.
Она ежедневно обрабатывает десятки миллионов запросов, предлагая только релевантную информацию. В основе системы лежит искусственный интеллект на машинном обучении. Он ежедневно совершенствуется, а также оптимизирует поисковую выдачу. Достаточно сложные алгоритмы ранжирования веб-сайтов созданы, чтобы оградить пользователей от некачественного контента.
История создания поисковой системы Яндекс
Согласно Википедии, все началось еще в 1989 году. Тогда была разработана программа для обработки и поиска информации в больших текстовых файлах. Над ее созданием трудился Аркадией Борковский, Аркадий Волож, а немного позже и Илья Сегалович. Через 4 года после образования команда, осознав востребованность поисковых технологий, решила брендировать свою разработку.
Выбор пал на слово Yandex. Откуда взялось такое название? Это сокращение от Yet Another INDEXer. Осенью 1996 года Яндекс воплотился в поисковике AltaVista. Запуск ПС (поисковой системы) проводился совместно с внедрением поискового робота. В то время он проиндексировал 5 тысяч сайтов общим объемом в 4 гигабайта текстовой информации. Через год продукт стал доступен простым пользователям Интернета.
Яндекс распознавал запросы и в ответ выдавал наиболее релевантную информацию. Система могла различать уникальность контента и показывала всего 1 копию материала. В то же время был внедрен алгоритм ранжирования, определявший закономерность позиций страниц в выдаче.
Сервисы поисковой системы Яндекс
Яндекс включен в 5-ку наиболее популярных ресурсов в русскоязычном сегменте Сети. Увеличение объема контента и развитие Интернета требовало модернизации поискового робота, что и сделали разработчики проекта. Введение механизма тематического индекса цитирования (ТИЦ) помогало выводить в поиск веб-ресурсы с наибольшим уровнем популярности и значимости.
В этом году был запущен сервис Narod.ru. Благодаря ему пользователи могли быстро и просто создавать страницы в Интернете, что в свою очередь привело к развитию авторских тематических ресурсов и личных блогов.
Для оптимизации потоков информации ПС запустила следующие сервисы: «Яндкес.Почта», «Яндкес.Товары», «Яндкес.Маркет» и «Яндкес.Новости»
Тогда запустился сервис контекстной рекламы. Благодаря ему ресурс вышел на самоокупаемость и начал приносить хорошую прибыль. Размещение коммерческой информации над поисковой выдачей в самом верхнем блоке страницы стало хорошим каналом привлечения целевой аудитории. Также поисковая выдача опционно начала включать не только русскоязычный контент, но и зарубежный. Благодаря интегрированному в систему переводчику пользователи из РФ стали комфортно работать с новыми источниками на иностранном языке.
Поисковая система расширилась и вышла на территорию Украины, а также открыла представительство в Калифорнии, США. В результате этого Яндекс получил поддержку Sitemap, протоколов GOAF, GZIP и Media RSS. Чуть позже пользователи оценили все преимущества регионального поиска. Стоит отметить, что поисковая выдача при этом базировалась на ресурсах региона, из которого был сделан запрос. Максимальная выгода от такого поиска была у пользователей и владельцев интернет-магазинов.
В мае на бирже NASDAQ были размещены акции компании Яндекс. Объем привлеченных средств был равен 1,3 млрд долларов США. По количеству привлечения денежных средств Яндекс стал второй ПС после Google.
Яндекс выкатил свой одноименный браузер. Первой была российская версия программы, после – версии для Украины, Беларуси, Казахстана и Турции. Также стал доступен персональный поиск, учитывающий интересы пользователя. Яндекс выпустил аукцион для медийной рекламы – технологию
Real Time Bidding. Продавцы – рекламные площадки, покупатели – системы размещения рекламы, представляющие интересы рекламодателей. Также было открыто облачное хранилище данных –
«Яндекс.Диск». Им можно пользоваться на самых разных устройствах. Следующим событием стал запуск следующих приложений:
«Музыка», «Навигатор»,
«Директ», «Перевод» и «Яндекс.Shell» (системная оболочка).
Яндекс представил собственную технологию распознавания речи SpeechKit, а для работы с ней – удобную программу API. Позже эта технология стала использоваться в продуктах сторонних разработчиков, мобильных приложениях Яндекса. В этом же году поисковик стал членом CERN openlab и предоставил ученым-физикам свои вычислительные ресурсы, а также технологии обработки данных (в т. ч. технологию «Матрикснет»). Еще Яндекс запустил магазин приложений.
Тогда заработало направление по работе с «большими данными» – Yandex Data Factory. ЦА – компании, нуждающиеся в обработке огромных массивов информации. Эти задачи позволило решить машинное обучение, распознавание речи и образов, обработка естественного языка и нейронные сети.
В этом же году совместно с национальным исследовательским университетом «Высшая школа экономики» Яндекс открыл факультет компьютерных наук. На нем стали обучаться будущие специалисты по двум направлениям: «Программная инженерия» и «Прикладная математика и информатика». В этом же году был запуск новостного мобильного приложения, «Яндекс.Мастера» (поиск специалистов для решения бытовых задач) и «Яндекс.Города» (выбор подходящей организации).
Он был ознаменован разработкой собственной технологии прогноза погоды — «Метеум». Она используется сейчас на сервисе
«Яндекс.Погода». Также произошли 2 важных события в «Яндекс.Директе»: 1) был внедрен аукцион «Викри-Кларка-Гровса», 2) произошло изменение ранжирования объявлений внутри рекламных блоков. Новая модель аукциона увеличила цену клика пропорционально трафику, поэтому рекламодатели смогли получать максимальное количество кликов по оптимальной стоимости.
В этом же году появилось мобильное приложение для водителей «Яндекс.Парковка» и музыкальный сервис «Яндекс.Радио», создан «Яндекс.Транспорт» — мобильный сервис, который показывает, где сейчас находится нужный автобус, троллейбус или трамвай и когда он приедет на остановку. Начали работать сервисы для бизнеса:
«Яндекс.Доставка» и автоматическое информационное агентство, транслировавшее новости о погоде, пробках и поисковых интересах пользователей.
В этом году Яндекс разработал поисковый алгоритм, основанный на нейронных сетях, который искал подходящие по смыслу страницы. Алгоритм давал ответы на уникальные и очень редкие вопросы. Также стартовал образовательный проект
«Яндекс.Лицей» – очное обучение программированию школьников 8–9 классов.
В одноименном браузере и Yandex Launcher появилась лента персональных рекомендаций «Яндекс.Дзен». Она показывала видео, статьи, фотографии и прочие материалы, которые могли бы понравиться пользователю. В основе функционирования «Дзена» – глобальный поисковый индекс и технологии искусственного интеллекта.
В этом же году Яндекс открыл одноименную просветительскую программу, созданную для развития и поддержки образовательных интернет-проектов. Запущено приложение для записи к врачу
«Яндекс.Здоровье». Появились специальные сервисы для бизнеса: «Яндекс.Аудитории» (для обработки звонков и сообщений клиентов) и «Телефония» (для создания разнообразных аудиторных сегментов для показа рекламы).
Создание «Алисы» – голосового помощника. Презентация нового метода машинного обучения – CatBoost. Разработка и внедрение поискового алгоритма «Королев», основанного на нейронной сети. Он стал искать ответы не по ключам, а по смыслу, анализировать всю страницу целиком, учитывать смысл других запросов. Поиск Яндекса уже намного точнее дает ответы даже на самые сложные вопросы. Также в этом году проводились испытания беспилотных автомобилей, произошло объединение бизнесов
«Яндекс.Такси» и Uber в 6 странах: РФ, Армении, Азербайджане, Грузии, Беларуси, Казахстане.
В «Переводчике» появилась гибридная система перевода: к статистической модели добавилась технология перевода на нейронной сети. В «Дзене», поиске и «Новостях» стали доступны Турбо-страницы, которые ускоряли загрузку сайтов на мобильных устройствах. «Яндекс.Погода» стала показывать очень красивые погодные карты. Также Яндекс выкатил платформу
«Яндекс.Авто», объединившую в себе сервисы для водителей.
Выпуск «Яндекс.Станции» – первого устройства собственной разработки. Оно представляло собой умную колонку с голосовым помощником «Алисой». Также в этом году было открытие 2 тестовых зон, в которых можно было покататься на машине без водителя. Яндекс получил лицензию на тестирование беспилотных авто в Израиле и США (Неваде).
Также был запущен каршеринг «Яндекс.Драйв» и сервис по доставке еды. В этом же году произошло обновление формулы ранжирования, которая стала еще больше учитывать качество веб-ресурса. Новый поиск назывался «Андромеда». Яндекс и «Сбербанк» на базе «Яндекс.Маркета» создали маркетплейс «Беру». Осенью был открыт сервис для покупки товаров на зарубежных интернет-магазинах –
Bringly.
Летом открылся сервис экспресс-доставки продуктов и товаров для дома. Также Яндекс разработал систему умного дома, которым управляет «Алиса». Кроме этого произошло большое обновление поиска. Он стал быстрее отвечать на запросы, а еще учитывать сигналы от асессоров, использовать объяснения экспертов
«Яндекс.Кью». Люди стали получать возможность решать гиперлокальные задачи. В этом же году Яндекс выпустил робота для перевозки небольших грузов, а также приступил к тестированию лидаров. В конце года компания стала инвестировать в подготовку специалистов для IT-сферы (бюджет составил 5 млрд рублей). За 3 года было обучено 100 000 человек.
Этот год был охвачен пандемией коронавируса. Чтобы поддержать медицинских работников и людей, попавших в сложную ситуацию, Яндекс запустил проект «Помощь рядом». Благодаря ему были организованы поездки врачей к больным, доставка продуктов нуждающимся, бесплатное тестирование на коронавирус.
В самом начале пандемии компания ввела индекс самоизоляции, который показывал количество людей на улице и давал рекомендацию относительно того, стоит ли выходить из дома. Также Яндекс активно совершенствовал сервисы доставки. Вернулся «Маркет», вместе с которым появлялся маркетплейс и стал единой площадкой для выбора и приобретения самых разных товаров.
Принцип работы поисковой системы
За все время существования поисковика была внедрена масса фильтров и алгоритмов, способствующих более качественной выдаче. Система ранжирования включает несколько сотен факторов, позволяющих определить место конкретного сайта. По примерным подсчетам, имеется как минимум 800 критериев, влияющих на позиционирование веб-ресурсов. Сейчас разработчики создают новые алгоритмы, выводящие в топ наиболее полезные и релевантные поиску сайты.
Как же работает поисковая система? Робот находит и индексирует страницы веб-сайтов. Чтобы пользователь смог максимально быстро увидеть результаты поиска, вся информация подвергается кластерному анализу. Получив запрос на поиск какой-либо информации, система ищет ее в индексе и ранжирует в соответствии с определенными параметрами.
Чтобы оценить качество ресурса, привлекаются ассесоры – люди, вручную контролирующие корректность позиций определенных страниц. Также могут использоваться программы, работающие на основе машинного обучения.
Сайты, наполненные некорректной информацией либо продвигаемые при помощи нелегальных методов, исключаются из поисковой выдачи. Если нарушение было некритичным, то позиции просто понижаются. Яндекс может не только вводить санкции, но и полностью блокировать отображение ресурса в выдаче. Второй вариант наиболее опасен, так как разблокировка/возврат сайта в поиск требуют больших усилий, чем снятие санкций.
Что влияет на ранжирование в Яндексе
Сюда входит правильная настройка технической части ресурса, написание корректных метатегов, ускорение загрузки страниц, перелинковка.
• Уникальность и качество контента
Они дают существенный прирост в выдаче, ведь Яндекс отдает предпочтение сайтам, на которых размещены грамотно оптимизированные тексты: уникальные, без переспама, с четкой структурой и полезной информацией. У Яндекса есть фильтры, контролирующие качество контента, например «Баден-Баден».
• Ссылочная масса с релевантных веб-ресурсов
Постепенное и размеренное наращивание ссылочного профиля – залог успешного продвижения сайта. Делать это надо максимально аккуратно, ведь качество ссылочного профиля контролирует специальный алгоритм – «Минусинск».
Мобильный трафик существенно превышает десктопный, поэтому адаптивные страницы помогут не только завоевать расположение Яндекса, но и дадут возможность пользователю комфортно изучать контент на планшете или телефоне. Сегодня адаптивность сайта является одним из ключевых критериев ранжирования.
Это время, которое пользователь проводит за изучением контента, переходы внутри сайта, желание делиться информацией в соц. сетях или оставлять комментарии. Все это отражает отношение к ресурсу со стороны пользователей и учитывается поисковиком.
Сервисы Яндекса для веб-мастеров
«Яндекс.Метрика». Отображает поведенческие факторы, информирует о качестве/количестве трафика на ресурсе, позволяет контролировать эффективность РК.
«Яндекс.Вебмастер». С помощью него можно отслеживать индексацию. Благодаря ему поисковая система вовремя получает информацию об изменении числа страниц на ресурсе. «Вебмастер» дает данные о корректности работы сайта и наличию/отсутствию вредоносного кода.
«Яндекс.Директ». Сервис по настройке контекстной рекламы для привлечения целевого трафика. Предполагается, что рост позиций связан с улучшением поведенческих факторов.
«Яндекс.Маркет». Веб-мастера получают прирост трафика и продажи за счет размещения товаров/услуг в каталоге «Маректа».
Wordstat. Помогает грамотно составить семантическое ядро (СЯ) и корректно выделить ключевые слова. Можно выделить запросы по региону и частотности, что в свою очередь дает максимально полную картину интереса со стороны ЦА.
«Яндекс.Справочник». С помощью него можно добавить информацию об организации, которая автоматически будет занесена и в ПС, и в карты.
Основные сервисы Яндекса для пользователей
- «Яндекс.Карты»;
- «Яндекс.Пробки»;
- «Яндекс.Народная карта»;
- «Яндекс.Маркет»;
- «Яндекс.Почта»;
- Сервис подбора досуговых мероприятий «Яндекс.Афиша»;
- «Яндекс.Картинки»;
- «Яндекс.Браузер»;
- Сервис подбора статей и новостей «Яндекс.Дзен»;
- «Яндекс.Такси»;
- «Яндекс.Диск»;
- База знаний «Яндекс.Вики»;
- «Яндекс.Переводчик»;
- Виртуальный помощник «Алиса».
Яндекс сегодня
Яндекс преобразовывался из обычной поисковой системы в экосистему достаточно долго. Успешная интеграция дала возможность получать огромное количество информации по большей части популярных направлений. Что такое Яндекс сегодня? Это очень мощная структура, ориентированная на обеспечение максимального комфорта и удобства от использования Интернета. Это выражено и в алгоритмах ранжирования сайтов, и в защите от вредоносного ПО, и в поисковой выдаче, основанной на информации о посетителе (его местоположении и пр.).
Источник: www.sape.ru