[딥마인드 자체 총결산] 알파고는 이미 無敵(무적)

[乭-알파고대결] 딥마인드 팀 자체 復棋(복기)

(역주)

:알파고-프로젝트 책임자 데이비드 실버(David Silver)가 모교인 런던대학학원(UCL:UniversityCollege London)에서 비공개 강연을 열어 이번 ‘乭-α 5번기대결 復棋’를 했다. 모임 중에 촬영은 허락되지 않았다.

:이 記事는 위 同 대학 컴퓨터계열(;영국 최고라고) 박사과정 공부 중인 중국인 유학생 장위남(張偉楠)이 해당 강연 참가 후 작성하여 중국 tmtpost.com에 독점 기고한 것이다.

:記事 중에 알파고의 현재 ELO점수가 4500점 근처라는 내용은, 며칠 전 同 대학의 다른 유학생이 미국 인터넷((reddit.com)에 소개한 내용☏ 및 국내 번역記事☏와 부합한다.

:이하 발췌-번역하여 싣는다. 바둑 관련 내용은 중, 후반부에 등장한다.

출처 :장위남(張偉楠) tmtpost.com(鈦媒體) 2016.03.29. ☏

:알파고팀은 Nature지의 그 논문을 잇는, 또 하나의 논문을 쓸 예정이다.

:연구자사회에 공헌하기 위해 알파고팀은 이미 DQN(deep-q-network) 프로젝트의 코드를 공개했다. 앞으로 아마도 알파고의 코드 또한 공개하게 될 것이다.

:딥마인드의 이후 주안점은 인간의 일상생활정보와 관련된, 세상을 바꾸어나갈 응용분야이다. 예를 들어 정밀의료, 가정용 기기인간, 지능형 전화기 등이다.

알파고 代父, 십년 간 칼을 갈다

:인간 최고수에게 기계의 승리가, 하룻밤 사이에 벌어진 일 같지만 사실은 십수 년의 세월을 들인 끝에 이뤄진 것이다.

:데이비드 실버는 알파고팀의 수석연구원인 동시에 UCL대학 컴퓨터계열 교수이다. 강화학습을 담당한다.

:그는 강화학습 분야에서 세계적으로 손꼽히는 대가인 Richard S.Sutton 지도하에 박사 학위를 땄으며 이후 미국 메사추세츠공대 대학원에서 박사 후 연구에 종사했다. 이 기간 동안 줄곧 강화학습을 이용한 바둑 인공지능 연구에 몰두했다. 영국 UCL대학 교수 부임 후에는 강의 중에 항상 바둑을 응용실례로 삼았다.

:딥마인드팀 가입 전에도 데이비드 실버와 CEO 하사비스(Demis Hassabis)는 강화학습을 공동연구했다. 하사비스는 UCL에서 신경학 박사학위를 땄다. 두 사람은 모두 게임광이다. 하사비스는 소년 시절에 영국 체스대표팀 주장을 지냈으며, 13세 때에 체스 마스터를 획득했다. 청년 시절에는 게임회사를 창업했다. 데이비드 실버는 긴 세월 바둑에 꽂혀있었다.

:딥마인드가 구글에 매각되는 과정 중에 딥마인드는 UCL 측과 협의하여, 데이비드 실버가 교수직을 가진 채로 딥마인드팀에 합류하여 팀의 연구에 전폭 몰두하게 되었다.

乭-알파고 戰復棋

:1국의 승부처는 백102 우변 침입이었다. 프로들은 날카로운 침입이라 인정했다. 이세돌은 대비가 되어 있는 듯 보였는데, 후에 보니 이세돌의 응수에 실수가 있었고, 흐름이 알파고에게 넘어갔다. 몇 수 진행 후 알파고의 우세가 확실해졌다.

:2국 초반에 알파고가 인간프로들을 갸웃하게 만드는 수를 두었다(우변 5선 어깨 짚음). 데이비드 실버는 이를 두고 反인간적인(unhuman) 수라 불렀다. 이후 진행에서 이 수의 가치가 점점 부각됐으며 이세돌은 또 한 번 맥없이 졌다.

:데이비드의 평가 :“다수 해설들이 즉각 이 手를 비판했다. 이전에 이런 국면에서 누구도 두지 않은 수라고. 승패가 가려진 후, 몇몇 프로들이 이 手를 재검토했고 그 결과, 그들은 자기도 (앞으로) 그런 수를 두게 될 거라고 말을 바꾸었다.”

:1국과 2국이 알파고의 역전승이라고, 많은 인간프로와 언론들의 분석이다. 그러나 알파고 가치망이 행하는 실시간 승률분석에 의하면 알파고가 줄곧 우세했다. 알파고가 이긴 4판에서 알파고 시스템 자체의 승률평가로는 알파고가 줄곧 이세돌을 앞서고 있었으며, 시작부터 끝까지 압도하며 승리했다.

:3국과 5국에서, 알파고는 바둑 시작하고 얼마 안 지나서 확실한 우세를 잡았으며, 高 승률예측을 유지한 채로 마지막까지 갔다. 인간프로들의 경험에 의존하여 행하는 승패 판단과 달리, 알파고 자체의 승률평가는 가치모듈에 기반하여 승패확률을 계산한다.

:이 두 가지 판단 방식은 완전히 다르다. 5국에서 우하귀의 복잡하게 얽힌 싸움에서 알파고는 선수를 뽑아 다른 곳으로 갔다. 상당수의 인간프로들이 알파고가 실수를 하여 불리해졌다고 보았다. 그러나 알파고의 선택은 全局(전국)을 고려하여 최선의 길을 찾아간 것이다.

(역주 :이는 5국 당시 중에 ‘알파고가 초반에 실수한 후 추격 중’이라는 알파고팀의 실시간분석과는 상반된다. 즉, 알파고가 이긴 4판에서 단 한순간도 불리했던 적이 없다고 말하면서 5국을 이렇게 말하니, 결국 5국 초반의 ‘그 실수’도 실수가 아니며 그 수에 불구하고 그 시점에서 알파고는 자기가 유리하다고 예상했다는 말이다(맨 아래 그림 참조). 그리고 이게 알파고팀의 최종결론인 모양이다. 다만, 이건 인간프로의 대응 연구가 필요한 곳이 아닐까....)

:알파고의 이런 식의 판단(;대세관)은 인간보다 정확하다. 알파고의 판단방식은 인간프로가 훈련으로 습득하는 직감과 사고방식에 구속되지 않으며, 결국 인간프로의 전통적 이해범주를 넘어섰다.

‘神의 한 手’의 배후

:알파고의 약점은 소위 흉내바둑이니 覇(패)싸움이 아니다.

:4국에서 일치감치 막다른 골목에 몰린 이세돌이 중국의 고력(古力) 왈 ‘神의 한 手’라 평한 백78 끼움수를 두었다. 이 수에 그토록 철벽같던 알파고가 어쩔 줄을 모르고 헤매며 붕괴했다.

:관전 중이던 하사비스조차 도대체 어찌된 일인지 알지 못했다.

:事後 분석에 의하면, 이세돌의 백78 전에 알파고 자체 평가한 승률은 줄곧 우세로서 70%에 달했다. 백78 후에 알파고가 평가한 승률은 급전직하했으며 이세돌이 크게 유리했고 이후 다시는 좁혀지지 않았다.

:데이비드에 의하면 알파고의 수읽기에 분명히 이 手가 들어있었다. 다만 알파고는 이세돌이 이 수를 둘 확률을 1/10000 정도로 보았다. 결과, 이세돌이 그렇게 두지 않을 거라 보았고 따라서 그 수 이후의 응대를 아예 읽지 않았다.

:알파고의 몬테카를로 수색법의 바탕이 되는 정책망은 인간이 둔 棋譜(기보) 자료에 의한 훈련으로 만들어진 모형이다. 때문에 백78 같은 소위 (고급) 묘수를 예측하기란 매우 어려우며, 그런 手에 터 잡아 계속 수색한 결과 승부 상황이 어찌 될지를 판단하기 또한 매우 어렵다.