스스로 학습하는 인공지능, 알파고를 들여다보다

“머신러닝”을 기반으로 한 인공지능 알파고
인공신경망 통해 자가학습해
미래에는 직업에 변화가생길수도

“바둑 경기에서 인간이 컴퓨터에 지는 날이 온다면 인간의 시대가 끝났다는 것이다” 바둑 기사 조치훈 九단이 2015년에 일본 방송에서 한 말이다. 그만큼 바둑에 대한 인간의 자신감은 대단했다. 바둑은 경우의 수가 많고 직관력이 필요한 게임이기 때문에 ‘인간의 영역’이라고 불렸다. 하지만 지난 9일(수) 열린 바둑 경기 ‘구글 딥마인드 챌린지 매치’에서 인공지능 바둑 기사 ‘알파고(AlphaGo)’가 이세돌 九단(이하 이세돌)에게 ‘4승 1패’로 완승을 하면서 이야기는 달라졌다. 당연히 인간의 영역이라 생각했던 바둑 게임에서 인간이 철저히 패배한 것이다. 어떻게 인공지능 알파고는 20년간 바둑을 연구해온 이세돌을 꺾을 수 있었던 것일까.

알파고는 구글의 자회사인 ‘구글 딥마인드(Google DeepMind)’가 개발한 인공지능 프로그램으로 바둑 게임에 특성화돼 있다. 지난 15일(화) 기준 비공식 바둑 랭킹사이트 ‘고레이팅(GO Rating)’에서 *ELO rating 3,586점을 받아, 세계 2위를 기록했을 만큼 실력이 뛰어나다. 기존에 존재한 바둑 인공지능 프로그램과의 대국에서는 495전 494승해 완승을 거뒀다. 지난해 10월 유럽의 바둑 챔피언 판 후이(Fan Hui) 二단을 상대로 한 공식 대국에서 승리하면서 실력을 인정받기도 했다. 임유진 본교 IT공학과 교수는 “알파고의 알고리즘은 이전부터 사용돼 온 것이다”며 “알파고가 각광받는 이유는 스스로 데이터를 가지고 학습을 한다는 특징을 갖고 있기 때문이다”고 했다.

◆ 스스로 학습하는 인공지능
알파고는 머신러닝(machine learning)을 기반으로 하는 인공지능이다. 머신러닝은 컴퓨터가 주어진 데이터를 스스로 분석하고 가공한 후 새로운 정보를 예측하고 추론하는 일종의 ‘학습’이다. 학생이 수업을 들은 후 배운 것을 스스로 복습하며 수업 내용보다 더 다양한 지식을 얻는 것을 예로 들 수 있다. 인공지능이 학습하는 방법에는 ‘지도 학습(supervised learning)’ ‘강화 학습(reinforcement learning)’ ‘심층 학습(deep learning)’ ‘자율 학습’(unsupervised learnong) 등이 있다.

이중 알파고는 지도 학습, 강화 학습, 심층 학습을 한다. 지도 학습이란 외부에서 주어진 다양한 정보를 받아들이는 학습법이며 강화 학습은 지도 학습으로 얻은 정보를 갖고 스스로 공부하는 방법이다. 알파고의 경우, 바둑판에 둘 수 있는 수의 경우를 데이터로 받는 과정이 지도 학습이다. 이를 통해 얻은 데이터로 승률이 더 높은 경우의 수를 찾는 것이 강화 학습이다. 임 교수는 “알파고는 대국을 하면서 어떤 수가 더 승률이 높은지 판단한다”고 말했다.

계산된 승률을 이용해 본인에게 가장 ‘유리한 수’를 선택하는 학습이 심층 학습이다. 심층 학습은 알파고가 기존의 바둑 인공지능과 차별화되는 점이기도 하다. 심층 학습은 더 좋은 경우의 수를 찾아내기 위해 여러 측면에서 데이터를 분석한 후 결과를 도출해 낸다. 임 교수는 “알파고는 이 3가지 학습을 통해서 더 정확하고 체계적인 추론과 학습을 한다”고 말했다.

◆ 인간의 뇌를 모방한 시스템의 알파고
인간의 뇌 속에 뉴런과 시냅스가 있듯이 알파고의 뇌는 인공신경망들이 연결돼 네트워크를 이루고 있다. 이를 ‘뉴럴 네트워크’라고 하는데 이곳에서 알파고는 바둑판에 자신이 놓을 수를 결정하게 된다. 뉴럴 네트워크는 ‘가치망’과 ‘정책망’이라는 인공신경망으로 구성돼 있다. 정책망은 발생할 수 있는 경우의 수 중에서 필요하지 않은 경우를 없애는 역할을 한다. 수많은 경우의 수를 비교하고 분석한 후, 다양한 패턴을 파악해 이 중 ‘합리적인 수’를 선택한다. 임 교수는 “예를 들어 프로 바둑 기사들은 바둑판에 첫돌을 놓을 때 정 가운데에 놓지 않는다”며 “승리에 유리한 곳에 돌을 먼저 두려고 하기 때문이다”고 말했다. 이때 정책망은 바둑을 정 가운데에 배치하는 경우를 제거해줌으로써 전체 경우의 수를 줄여나가는 일을 한다. 일종의 가지치기를 하는 셈이다. 그 이후 가치망은 각 수의 승률을 계산하는 역할을 한다. 즉, 알파고의 경우 정책망을 사용하여 경우의 수를 줄이고, 가치망으로 그 확률을 계산한다.

가치망을 통해 계산한 확률로 본인에게 가장 유리한 수를 찾아내는 알고리즘을 ‘몬테 카를로 트리 검색(Monte Carlo tree search)’이라고 한다. 계산된 가치를 분석해 어떤 수를 낼지 결정하는 것이다. 가치망과 정책망이 발생 가능한 경우의 수를 줄여주기 때문에 몬테 카를로 트리 검색은 본인이 놓을 수를 더 쉽게 결정할 수 있다. 임 교수는 “이렇게 알파고는 체계적인 절차로 계산된 행동을 하기 때문에 이세돌을 이길 수밖에 없었다”고 말했다. 그는 “반면 이세돌이 알파고를 상대로 1승을 할 수 있었던 이유는 알파고가 생각하지 못한 경우의 수를 찾았기 때문이다”고 말했다.

◆ 이미 우리 사회에 존재하는 인공지능
알파고에 의해 인공지능이 주목을 받기 시작했지만 인공지능은 이미 실생활에서 다양한 방면으로 쓰이고 있다. “페이스북에서 사진 속 얼굴을 구분하는 기능 ‘딥페이스(DeepFace)’, 아이폰의 음성인식 프로그램 시리(Siri), IBM의 질병 진단 프로그램 ‘닥터 왓슨’ 등이 대표적인 인공지능이다”며 “올해 1월에 라스베이거스에서 열린 국제전자제품박람회에선 통역 기계 같은 인공지능이 많이 출품되기도 했다”고 말했다. 인공지능이 계속해서 새로운 분야에 적용되고 있는 것이다. 임 교수는 “알파고와 같이 많은 갯수의 CPU를 연결한 인공지능은 주식시장 예측이나 법률 관련 업무를 하는데 사용될 수 있을 것이다”고 말했다. 주식 시장이나 법률 관련 업무를 수행하는 데에는 다양한 경우를 분석해야 하기 때문이다.

임 교수는 미래의 인공지능에 대해 “변화하는 세상에 맞게 인공지능도 변하고 그 세상에 사는 사람들의 모습도 변할 것이다”고 말했다. 지금은 교수가 학생을 가르치지만 미래엔 교수라는 직업을 인공지능이 대신할 수도 있다는 것이다. 다른 직업도 마찬가지다. 그는 “기술의 발달에서 어느 누구도 자유롭지 않다”고 말했다.

*ELO rating: 아르패드 엘뢰 교수가 1960년대에 고안한 게임 랭킹 시스템으로 비공식 사이트 ‘Go Rating’은 바둑 기사들의 기력을 분석해 ‘ELO 포인트’라는 기준으로 수치화한다.
*GPU: 컴퓨터 그래픽카드의 핵심 칩으로 그래픽 처리를 위한 고성능의 처리장치가 있다.

상단영역

본문영역

스스로 학습하는 인공지능, 알파고를 들여다보다

관련기사

기사 댓글 1

비회원 로그인

댓글목록