Программа AlphaGo выиграла последнюю игру против Ли Седоля — одного из сильнейших в мире игроков в го. Таким образом, компьютер выиграл четыре из пяти игр. Ли Седоль играл черными камнями, AlphaGo — белыми. За игрой можно было следить в прямой трансляции.
В этот раз Ли Седоль так же, как и в четвертой игре, старался не давать инициативу AlphaGo и постоянно атаковал уже обозначенную территорию белых. Как и в прошлых играх, у корейского профессионала 9 дана основное время кончилось раньше, чем у алгоритма Google, поэтому игрок перешел на дополнительные 60-секундный интервалы — бёёми.
В ходе игры Ли Седоль помешал AlphaGo построить непрерывную территорию слева и внизу доски, затем вторгся в центр, однако через некоторое время AlphaGo удалось вернуть нижний левый угол. После четырех с половиной часов игры программа также перешла на бёёми. Ли Седоль и AlphaGo играли ёсэ (заключительная стадия игры) практически на равных и до последнего момента комментаторы отмечали, что не видно однозначной победы. После пяти часов игры Ли Седоль признал поражение, положив на гобан камень противника.
Краткий разбор первой партии АльфаГо с Седолем (Lee Sedol vs AlphaGo, game1) 09.03.2016
Если бы Ли Седоль победил в большинстве партий, то получил бы от Google один миллион долларов. Поскольку большинство партий выиграла AlphaGo, то сумма выигрыша будет пожертвована на благотворительность.
Программа AlphaGo, ранее успешно обыгравшая чемпиона Европы. разработана компанией DeepMind, которая принадлежит Google. Изначально алгоритм не учили играть и выигрывать в го — нейросеть самостоятельно обучалась игре на примере реальных партий. Всего AlphaGo за период обучения обработала 30 миллионов комбинаций, что позволило ей выработать аналог интуитивной игры у человека. Также программа использует и традиционный для компьютерных программ метод перебора наилучшего хода для разрешения локальных ситуаций на доске.
Кроме Google о намерении разработать алгоритм, обыгрывающий профессиональных игроков в го ранее сообщала Facebook. Их программа также играет «интуитивно» и способна оценивать позицию камней на гобане.
Источник: nplus1.ru
Ли Седол против AlphaGo: как машина Google A. I победила 18-кратного чемпиона мира по го
Прошло 5 лет с момента исторического матча между AlphaGo и 18-кратным чемпионом мира по го Ли Седолем. Человек против машины. Вот обзор события, которое изменило лицо ИИ. Мы рассказали о днях, предшествующих матчу, работе AlphaGo, самом матче и о том, что создатели AlphaGo, DeepMind, приготовили на будущее.
Первые дни
Демис Хассабис, соучредитель DeepMind, был гением с самого раннего возраста. Он ребенок матери китайско-сингапурского происхождения и отца-грека-киприота из Лондона. В какой-то момент своей жизни он был вторым по рейтингу шахматистом в возрасте до 14 лет в мире. Сказать, что у него была естественная тяга к настольным играм с детства, было бы преуменьшением. Демис отправился изучать вычислительную неврологию в Кембридж, и именно там началось его любопытство к пониманию человеческого разума.
Затем Демис вместе со своим другом по колледжу Дэвидом Сильвером основал компанию по производству видеоигр. Он часто играл в го с одним из своих коллег и присоединился к местным клубам го, играя против профессионалов. Примерно в то же время компьютер IBM победил тогдашнего чемпиона мира по шахматам Гарри Каспарова. Демис не мог не подумать, сможет ли машина победить человека и в го, и родилась идея DeepMind.
Демис основал DeepMInd со своим коллегой и другом Дэвидом Сильвером. Он связался с техническими инвесторами, такими как Питер Тиль и Илон Маск, и представил свою идею о компьютере, справляющемся с игрой в го. Весть об этом вскоре дошла до Сергея Брина, сооснователя Google. Брин купил DeepMind за 650 миллионов долларов.
При этом программа DeepMind уже освоила такие игры, как Breakout.
В Breakout вы пытаетесь пробить радужную стену с помощью биты и мяча. Программе приходится учиться самой, после 100 игр программа большую часть времени пропускала мяч. Но программа постепенно начала понимать, что она должна делать.
После 300 игр программа была не хуже любого игрока-человека. Но самое удивительное произошло после 500 игр. Программа нашла стратегию, в которой мяч отскакивал от биты под определенным углом, так что он выкапывал туннель вокруг стены и провожал мяч вокруг задней части стены, разбивая всю стену сразу. Программа обнаружила то, о чем не знали даже разработчики.
Следующим шагом было победить в игре Го. Самая сложная игра, которую когда-либо видело человечество.
Что такое Го?
Го — старейшая в мире настольная игра, в которую постоянно играют. Это один из самых простых, а также наиболее абстрактных.
Правила игры очень просты:
Есть только один тип куска. Есть только один тип движения. Вы просто помещаете эту фигуру на доску. И затем ваша цель — создать связанную группу ваших камней, которая окружает какую-то пустую территорию.
А когда вы окружаете вражеские камни, вы захватываете их и убираете с доски. Вы зарабатываете очки по окружающей территории. И в конце игры побеждает тот, у кого больше территории.
Пока все кажется простым. Но когда вы садитесь и играете, тогда становится сложно. Вы знаете правила, вы знаете, что вам разрешено делать, но вы не знаете, что вы должны делать.
Есть поразительные 10 в степени 170 возможных конфигураций доски — больше, чем количество атомов в известной Вселенной. Это делает игру Го в разы сложнее, чем шахматы.
Миссия
Победа над профессиональным игроком в го была давней и грандиозной задачей исследований ИИ.
«Мы думаем о DeepMind как о программе Apollo для искусственного интеллекта. Наша миссия состоит в том, чтобы фундаментально понять интеллект и воссоздать его искусственно. И затем, как только мы это сделали, мы чувствуем, что можем использовать эту технологию, чтобы помочь обществу решить множество других проблем». — Демис Хассабис, генеральный директор и соучредитель DeepMind
И для этого DeepMind пригласила чемпиона Европы по го Фань Хуэя.
Когда Фань Хуэй впервые увидел приглашение по электронной почте, его реакция была следующей:
«Когда я вижу это электронное письмо, я не знаю, правда это или нет. Я приму это. Почему нет? Для меня все приключение. Я хочу посетить DeepMind, чтобы узнать, что это за проект Go.
При первом посещении я думаю, может быть, они хотят, чтобы я сидел в специальной комнате, проталкивал много-много проводов в мою голову, а также в мое тело, позволял мне играть, чтобы сканировать мой мозг. Я не знаю, [смеется], чтобы провести небольшое исследование». — Фан Хуэй
Fan Hui согласился сыграть серию из 5 матчей с AlphaGo. Он думал, что выиграет матч, поскольку AlphaGo — это всего лишь «программа». Только чтобы проиграть все 5 матчей. Опыт поражения в программе полностью изменил Фан Хуэя.
Исследователи искусственного интеллекта решили игру Го на десять лет раньше, чем ожидалось.
Теперь AlphaGo становилась лучше с каждым днем. Требовался более серьезный вызов. AlphaGo должен был встретиться с 18-кратным чемпионом мира по го Ли Седолем.
Как и Демис Хассабус, Ли Седоль тоже был вундеркиндом. Ему было всего 8 лет, когда он присоединился к школе го Мастера Квана. Он продолжал доминировать в мире го в течение 10 лет, выиграв 18 чемпионатов мира. Ли Седоль — гений 21 века.
18-кратный чемпион мира по го Ли Седоль
«Не буду зазнаваться, но не думаю, что это будет очень близкий матч. Уровень игрока, против которого AlphaGo выступал в октябре, не такой, как у меня. Так что, учитывая, что прошла всего пара месяцев, я не думаю, что этого достаточно, чтобы она смогла меня догнать. Надеюсь, что у меня будет либо пять ноль, либо, может быть, четыре к одному. Поэтому для меня критически важно убедиться, что я не потеряю ни одного». — Ли Седол
В этот момент Ли Седол может показаться самоуверенным, но можно ли его винить? Не только он, но и все в сообществе го думали, что это будет слишком просто для Ли Седоля.
Работающий
Есть большая разница в работе компьютера IBM, победившего чемпиона по шахматам Гарри Каспарова. Компьютер IBM был запрограммирован опытными шахматистами. А AlphaGo более-менее всему научилась сама.
Глубокое обучение
Глубокое обучение — это ветвь машинного обучения, цель которой — имитировать активность слоев нейронов в нашем мозгу. Это возможно с помощью нейронных сетей.
Нейронные сети имитируют паутину нейронов в человеческом мозгу. Эти сети работают с огромными объемами данных, и с недавним всплеском вычислительной мощности нейронные сети стали чрезвычайно мощными. Он учит компьютер фильтровать входные данные через слои, чтобы научиться предсказывать и классифицировать информацию. Входные данные могут быть в виде изображений, текста или звука.
В AlphaGo было предоставлено 100 000 игр, сыгранных сильными любителями, загруженных из Интернета. AlphaGo пытается имитировать игрока-человека.
Обучение с подкреплением
После обучения AlphaGo на данных, полученных от игроков-людей, следующий шаг — обучить его, играя против самого себя миллионы раз. Это называется обучением с подкреплением.
Программа, играющая против самой себя, учится на своих ошибках и исправляет их. Это помогает AlphaGo выигрывать игры, а не просто более точно предсказывать следующий ход. Обучение с подкреплением помогает AlphaGo получить больше опыта и оптимизировать свой процесс за счет сокращения количества вычислений и потребления памяти (рассматривается в следующем разделе).
Поиск по дереву
Поиск по дереву — это алгоритм, который создает все возможные варианты игры, а затем пытается предсказать исход игры.
Например, возьмем классическую игру крестики-нолики:
Игрок выигрывает, если его символ образует соединение длиной 3. Соединение может быть горизонтальным, вертикальным или диагональным.
Дерево содержит все возможные варианты игры, в данном случае 255 168 вариантов. Просматривая все варианты, компьютер будет знать исход игры, прежде чем делать какие-либо ходы.
255 168 вариантов могут показаться большими, но по сравнению с такими играми, как шахматы и го, это ничтожно мало. В шахматах есть 10 120 вариаций, а в го 10 170 вариаций. Вычислять каждую вариацию очень неэффективно и требует большого количества ресурсов. Поэтому возникает необходимость оптимизации этой задачи.
Возьмем предыдущий пример крестиков-ноликов:
Если вы соответствующим образом повернете каждый вариант, вы обнаружите, что это один и тот же вариант с разными положениями «X» и «O». Исключив одинаковые варианты, вы можете убрать 2/3 дерева поиска, сделав алгоритм в 3 раза быстрее.
День матча
DeepMind снова пригласил Фан Хуэй, но на этот раз в качестве советника. Он воспринял поражение от AlphaGo очень позитивно и вернулся, чтобы помочь сделать AlphaGo сильнее. Роль Fan Hui заключалась в том, чтобы найти слабые места в игре AlphaGo. И он сделал. AlphaGo впадала в тупиковое состояние всякий раз, когда сталкивалась с очень сложной сложной ситуацией.
Это была серьезная неудача, и существовала реальная вероятность того, что AlphaGo проиграет матч. И команда тоже не смогла решить проблему.
Матч должен был состояться в Сеуле, Южная Корея, где Ли Седоль является национальным деятелем. 8 миллионов корейцев играют в го, так что здесь присутствует определенный элемент национальной гордости.
В первой игре AlphaGo с самого начала дала жесткий бой. Движения, которые делал AlphaGo, были человеческими, как будто у него была интуиция. Профессионалы и энтузиасты го были шокированы смелыми шагами AlphaGo. Это очень беспокоило Ли Седоля. Что еще хуже, Ли Седоль не мог понять, что пыталась сделать AlphaGo.
Потому что это программа, никаких чувств, никаких выражений.
AlphaGo делала один агрессивный ход за другим, в то время никто не мог понять причины этих ходов. Но по ходу игры все стало обретать смысл. Как будто AlphaGo могла предсказывать будущее.
AlphaGo выиграла игру с большим отрывом, никто не мог понять, что произошло, Ли Седолю потребовалось время, чтобы принять результат.
«Должен сказать, что я был очень удивлен, потому что не думал, что проиграю игру. Я думаю, что ошибки, которые я совершил в начале, сохранялись до самого конца. Вот почему я проиграл эту игру. Я не мог предвидеть. Я не думал, что AlphaGo будет играть в игру настолько идеально.
Я выигрывал титулы чемпионов мира и обладаю большим опытом, так что проигрыш одной игры не повлияет на то, как я буду играть в будущем. Думаю сейчас 50/50. Хочу выразить уважение команде за разработку такой замечательной программы, как AlphaGo». — Ли Седол
Во второй игре AlphaGo снова продемонстрировала командную игру. Ли Седоль почувствовал огромное давление, поэтому решил сделать небольшой перерыв. Но AlphaGo не ждет, пока Ли вернется, и переходит к 37-му ходу. Ли возвращается после небольшого перерыва только для того, чтобы обнаружить себя сбитым с толку и в то же время пораженным.
«Я думал, что AlphaGo основан на расчете вероятностей и что это просто машина. Но когда я увидел движение, я изменил свое мнение. Безусловно, AlphaGo креативна. Этот ход был креативным и красивым». — Ли Седол
Никто не понял, хороший это ход или плохой. Обычно Ли должен подумать одну-две минуты, чтобы сделать ход, в этот раз ему требуется более 12 минут.
Игра подошла к моменту, когда AlphaGo набрала огромное количество очков. Но Ли просто не хотел уходить в отставку, он не мог понять очередного проигрыша AlphaGo. Через 4 часа 20 минут он наконец уходит в отставку.
В ночь перед третьей игрой Ли Седол собрался с четырьмя профессионалами в го и всю ночь анализировал игру. В третьей игре для Ли было все или ничего. Проигрыш означал, что AlphaGo выигрывает матч. Но сделать он ничего не мог, к 50-му ходу винрейт был уже очень высок.
Психологическое бремя ложилось на Ли. Он пытался драться прямо в игре, но это не стиль Ли. Когда мы меняем свой стиль игры, чтобы приспособиться к сопернику, это не очень хороший знак не только в го, но и в любой профессиональной игре. Это только облегчает задачу AlphaGo. Опять же, Ли ничего не мог сделать, кроме как уйти в отставку.
История вошла в историю, когда AlphaGo выиграла три игры подряд, чтобы выиграть матч против 18-кратного чемпиона мира по Go Ли Седоля.
4-я игра стала большим поворотом для Ли Седоля. Ему удалось перехитрить могучую AlphaGo. Ли Седоль воспользовался слабостью AlphaGo. Публика и Ли Седол почувствовали облегчение. В конце концов, машину можно было победить.
Люди выбегали на улицу, скандировали и праздновали.
«Но я не ожидал, что все будет так. Я не мог поверить, что выиграл одну игру. Это было невероятно. Большое Вам спасибо. Меня никогда так не поздравляли с победой в одной игре. Проиграв три игры подряд, я очень счастлив». — Ли Седол
78-й ход Ли Седоля переломил ситуацию в его пользу. Согласно AlphaGo, вероятность того, что Ли сделал бы этот ход, составляла 0,007%. Это делает его ходом 1 из 10 000. Другой профессионал в го назвал 78-й ход Ли «божественным ходом», на который способен только Ли Седол.
В 5-й игре Ли Седоль отлично стартовал. Он выглядел уверенно благодаря своей предыдущей победе. Команда DeepMind думала, что позорно проиграет. И это «смущение» продолжалось большую часть матча. Но опять же AlphaGo сотворила свое волшебство, выиграв матч с разницей в 1 и ½ очка. Как и в остальных матчах, никто не понял, что пыталась сделать AlphaGo.
Ходы программы выглядели как ошибки, которые сделали бы люди, но каким-то образом ей удалось победить.
Обычно мы, люди, оцениваем вероятность победы в игре с разницей в счете. Но все, что волнует AlphaGo, — это победа, неважно, на сколько очков.
«Неважно, с каким отрывом вы выиграете, вам нужно выиграть только с разницей в одно очко. Зачем мне захватывать всю эту лишнюю территорию, если она мне не нужна? Уроки, которые преподает нам AlphaGo, повлияют на то, как играют в го в течение следующей тысячи лет». — Откровенный
В конце концов, машина AlphaGo победила 18-кратного чемпиона мира по го. Этот матч запомнится как событие, которое привлекло внимание к искусственному интеллекту. Это событие не только изменило восприятие ИИ, но и сделало игру Го популярной во всем мире. Сообщалось, что во всем мире не хватает досок для го, например, из-за влияния матча.
«Я вырос благодаря этому опыту. Я сделаю что-то из этого с уроками, которые я извлек. Я чувствую благодарность и чувствую, что нашел причину, по которой я играю в го. Я понимаю, что это был хороший выбор — научиться играть в го. Это был незабываемый опыт». — Ли Седол
Это был не конец чего-то исторического, а начало чего-то прекрасного. Конечно, Го — это всего лишь игра, но мы можем извлечь важные уроки из успеха компьютера в Го. Машины будут иметь возможность обрабатывать огромное количество данных и интеллектуально анализировать их. Как и в случае с играми в го, ходы, сделанные машинами, удивили даже экспертов. И, в конце концов, машины завоюют всеобщее доверие, потому что мы с большим смущением увидим, что часто они делают более точные предположения, чем мы, будучи людьми.
Что дальше?
За последние 5 лет создатели AlphaGo проделали большую работу. DeepMind создал улучшенную версию AlphaGo под названием AlphaGo Zero. Как это лучше?
- Он более мощный, чем предыдущие версии AlphaGo, потому что больше не ограничен рамками человеческих знаний. Вместо этого он может научиться tabula rasa у самого сильного игрока в мире: самой AlphaGo.
- AlphaGo Zero использует только черные и белые камни с доски Go в качестве входных данных, тогда как предыдущие версии AlphaGo включали небольшое количество функций, разработанных вручную.
- AlphaGo становится все более эффективной благодаря усовершенствованию аппаратного обеспечения, а в последнее время — усовершенствованию алгоритмов. Следовательно, AlphaGo Zero потребляет всего 0,023% энергии, потребляемой AlphaGo.
DeepMind работает и над другими проектами. Проекты, представляющие реальную ценность для нашего общества.
- AlphaFold — это система, которая точно предсказывает форму белков. Это исследование имеет огромный потенциал во всех областях биологии, от помощи в борьбе с болезнями и быстрого поиска новых лекарств до раскрытия тайн того, как устроена сама жизнь.
- DeepMind заключила партнерское соглашение с глазной больницей Мурфилдс, чтобы разработать более быстрые способы выявления и лучшего понимания распространенных глазных заболеваний на основе рутинных сканирований.
- DeepMind также сотрудничал с материнской компанией Google в таких проектах, как Google Assistant, Google Cloud Platform, Android Pie, Gmail, YouTube и т. д.
Если вам понравилась эта статья, пожалуйста, дайте мне хлопок. Посмотрим, сможем ли мы дойти до 25 аплодисментов за мою первую статью. Я хотел бы знать, что вы думаете об этой истории, поэтому оставьте комментарий в разделе ответов.
У меня есть еще несколько статей в разработке, так что подписывайтесь на меня, чтобы быть в курсе всего, что связано с искусственным интеллектом. О чем еще вы хотели бы прочитать в области искусственного интеллекта? дайте мне знать в разделе ответов, и я обязательно поработаю над этим.
Источник: digitrain.ru
Искусственный интеллект победил чемпиона мира по игре в го
Программа AlphaGo выиграла первую из серии игр против одного из сильнейших мастеров го — корейца Ли Седоля (второе место в мире по количеству международных титулов). Об этом сообщает Gizmodo.
Соревнование проходит с 9 по 13 марта. Каждый день искусственный интеллект и Ли Седоль сражаются один раз. На vFr3K2DORc8 YouTube организована трансляция игр в прямом эфире.
По словам сотрудников DeepMind (компании-разработчика AlphaGo), программа, несмотря на небольшие ошибки, уверенно обошла чемпиона.
Логическая настольная игра го, возникшая в Древнем Китае, считается самым «крепким орешком» для искусственного интеллекта — из-за большого размера доски и трудностей в прогнозировании ходов.
Играют двое: один получает черные камни, другой — белые. Цель соперников — отгородить на игровой доске камнями своего цвета большую территорию, чем противник. Самые лучшие программы пока доходили лишь до уровня игроков-любителей.
Программа AlphaGo, разработанная принадлежащей Google компанией DeepMind, использует так называемые сети значений для оценки положения фигур на доске и сети правил для выбора ходов. Эти нейронные сети обучаются игре, анализируя известные партии, а также путем проб и ошибок, играя в одиночку.
AlphaGo обыграла другие программы в 99,8 процента партий, а затем добилась превосходства над европейским чемпионом по игре в го (со счетом пять-ноль) без всякого гандикапа.
Источник: www.playground.ru