지난달 개봉한 영화 '어벤저스(Avengers)의 주인공들을 기억하는가? 말하는 나무와 거대한 파란 괴물은 모두 상상 속의 존재이지만 현실처럼 생생하게 묘사된다. 딥페이크(Deepfake)도 마찬가지다. ‘진짜 같은 가짜’를 만들어내는 딥페이크는 무엇이고, 사람들에게 어떤 영향을 줄까.

딥페이크, 얼굴을 훔치다
딥페이크는 미국의 인터넷 사용자의 이름에서 비롯된 말로, 딥러닝(Deep Learning)과 가짜(Fake)의 합성어다. 딥페이크는 ‘생성적 적대 신경망(Generative Adversarial Network, GAN)’이란 인공지능을 기반으로 동영상에 사람의 얼굴을 합성하는 기술이다. 영상 합성 기술 자체는 영화 산업에서 CG(Computer Graphics)라는 이름으로 오랫동안 사용돼왔다. 기존의 영상 합성 기술엔 고도의 전문 지식이 필요했고, 일반인이 해당 기술을 이용하기는 쉽지 않았다. 반면 딥페이크는 인공지능을 사용해 더욱 정교한 결과물을 얻을 수 있고, 관련 분야에 대한 전문 지식 없이도 얼굴 합성 영상을 제작할 수 있어 화제가 됐다. 
지난 2017년 미국의 웹사이트 레딧(Reddit)의 한 사용자가 연예인의 얼굴을 합성한 불법 음란물과 이를 만드는 데 사용된 소스 코드(Source Code)를 올리며 딥페이크는 논란이 됐다. 딥페이크는 누구에게나 공개된 자료를 바탕으로 만들어졌는데, 딥페이크의 등장으로 소스 코드, 일정 성능 이상의 그래픽 처리 장치, 사람의 얼굴이 담긴 이미지나 동영상만 있으면 누구든 정교한 합성 영상을 제작할 수 있게 됐다.
딥페이크는 순식간에 인터넷에 퍼졌다. 레딧의 사용자들은 ‘페이크앱(FakeApp)’ ‘페이스 스와프(FaceSwap)’과 같은 프로그램을 개발하고 공유했다. 해당 프로그램을 이용하면 사용자는 휴대폰 앱을 사용하듯 손쉽게 딥페이크 영상을 제작할 수 있다. 연예인은 인터넷에 고화질 이미지나 영상이 많아 딥페이크 영상의 표적이 되기 쉽다. 수많은 이들이 레딧에 연예인의 얼굴을 합성한 불법 음란물 영상이나 배우의 얼굴을 합성한 유머 영상을 만들어 올리기 시작했다.
정교하게 제작된 딥페이크 영상은 육안으로 진짜와 가짜를 구분하기 어렵다. 이에 가짜 뉴스 확산에 대한 우려의 목소리가 증가하고 있다. 지난해 예능 채널 ‘버즈피드(BuzzFeed)’에선 오바마 미국 전 대통령의 얼굴에 미국의 배우 조던 필의 얼굴과 목소리를 합성한 동영상을 올렸다. 오바마가 트럼프 미국 대통령을 ‘어리석다’고 언급하는 이 영상은 합성 여부를 파악하기 어려울 정도로 정교했다. 웹에선 지금도 딥페이크 프로그램과 소스 코드가 공유되고 있으며, 딥페이크 영상 제작 방법을 설명하는 게시물도 다수 존재한다. 
한편 딥페이크는 새로운 방식의 학습에 적용될 수 있다. 미국의 서던캘리포니아 대학에선 난징 대학살과 홀로코스트(Holocaust) 생존자들의 증언을 약 55,000개 영상으로 기록했다. 학생들은 ‘Dimensions in Testimony’라고 불리는 이 작업을 통해 역사 속 인물의 홀로그램과 직접 대화를 주고 받으며 역사를 배울 수 있다. 생존자의 모습을 한 홀로그램에 학생이 질문하면 인공지능이 핵심 단어를 분석하고 홀로그램 형태의 동영상이 대답한다. 딥페이크를 이용한다면 직접 수천 개의 영상을 촬영하지 않고도 유사한 결과를 만들 수 있기 때문이다. 서던캘리포니아 대학에선 이 작업을 통해 책으로 배울 수 없는 인간 역사에 대한 깊은 이해와 비판적 사고가 가능해지리라 전망했다.

 



속고 속이는 인공지능
딥페이크를 이용하면 컴퓨터에 얼굴을 학습시켜 얼굴 합성 영상을 쉽게 만들 수 있다. 컴퓨터가 한 번 특정한 얼굴을 학습하면 다음 번부터는 학습 없이도 합성 영상을 만들 수 있다. 기존의 합성 영상에선 존재하는 이미지가 그대로 합성에 사용됐으나, 딥페이크에선 학습한 얼굴을 바탕으로 새로운 이미지가 창조될 수 있다. 예를 들면, A씨는 웃는 표정이고 B씨는 우는 표정일 때 딥페이크를 통해 우는 A씨나 웃는 B씨를 창조할 수 있다는 것이다.
딥페이크에 사용되는 ‘생성적 적대 신경망’은 지난 2014년 이안 굿펠로우가 자신의 논문 「Generative Adversarial Network」에서 제안한 개념이다. 논문에서 그는 생성적 적대 신경망을 지폐위조범과 경찰에 비유한다. 생성자인 지폐위조범은 경찰을 속이기 위해 진짜와 다름없는 위조지폐를 만들며, 판별자인 경찰은 위조지폐를 감별하기 위해 노력한다. 상호 경쟁을 통해 양쪽의 능력이 점차 향상된다. 결국, 생성자는 진짜와 극도로 유사한 결과를 만들어 판별자가 가짜임을 알 수 없게 한다. 이에 본교 김병규 IT공학전공 교수는 “기존 영상 처리 기술의 성능 기준은 컴퓨터가 평가한 수치였으나, 생성적 적대 신경망으로 만든 이미지의 경우 정량적인 평가 수치가 낮아도 더욱 잘 만들었다고 평가하는 사람이 많았다”며 “이후 생성적 적대 신경망을 응용한 사례가 폭발적으로 생겼고, 특히 미용 업계에서 많이 사용되고 있다”고 전했다.
딥페이크 영상을 만들기 위해선 추출, 학습, 창조를 거쳐야 한다. 추출 단계에선 먼저 동영상을 프레임(Frame) 단위의 이미지로 만든다. 동영상은 이미지를 여러 장 겹쳐 빠르게 보여주는 매체이고 프레임은 동영상 1초를 구성하는 이미지의 수를 말한다. 이후 각각의 프레임마다 얼굴을 인식한 후 이를 영상 환경에 맞게 정렬한다. 추출이 끝나면 합성할 얼굴 이미지와 배경으로 삼을 얼굴 이미지를 컴퓨터 신경망에 학습시킨다. 기계 학습에 필요한 이미지 수에 대해 김 교수는 “이미지에 얼굴의 특징이 얼마나 잘 표시됐는지 등에 따라 최소로 필요한 이미지 수는 달라진다”면서도 “보통 딥러닝에선 2,000장 이상, 생성적 적대 신경망에선 그 이상의 이미지가 필요하다”고 설명했다. 마지막 창조 단계에선 신경망이 학습한 두 얼굴의 특징을 서로 바꿔 새로운 얼굴을 만들고, 이를 배경으로 삼을 얼굴에 합성한다.
본지 기자는 딥페이크를 체험하기 위해 페이크앱을 직접 사용해 봤다. 추출 과정에서 문재인 대통령과 트럼프 미국 대통령이 연설하는 10초 분량의 동영상 두 개를 이용했다. 동영상 전체가 담긴 이미지 265장씩과 그중 얼굴만 인식 및 정렬된 이미지 265장씩을 얻었다.
추출 이후엔 컴퓨터가 문 대통령과 트럼프 미 대통령의 얼굴을 학습하게 했다. 이미지의 양과 컴퓨터의 성능에 따라 학습 속도는 천차만별이다. 필자는 이미지가 265장에 불과했기 때문에 첫 번째 학습엔 1분 가량이 걸렸다. 공부량이 적은 사람의 시험 성적이 대체로 좋지 않은 것처럼, 신경망도 학습량이 적을수록 합성 대상의 얼굴과 덜 비슷해진다.
마지막으로 이미지 단위로 얼굴 합성이 이뤄진다. 이후 합성된 얼굴 이미지를 배경이 될 얼굴에 합성한 뒤 영상을 만든다. 본지 기자는 이미지 단위 합성까진 성공했으나, 합성한 이미지를 프로그램 내에서 영상으로 변환할 때 발생한 오류를 해결하지 못했다. 
 

▲ 본지 기자가 ‘페이크앱(FakeApp)’을 이용해 문재인 대통령과 트럼프 미국 대통령을 합성했다. <사진제공=페이크앱(FakeApp)>


우리가 지키는 가짜의 가치
딥페이크를 비롯한 상당수의 소스 코드는 개방적인 온라인 커뮤니티를 통해 공유된다. 이렇게 제작자의 권리를 지키면서 공유되는 소스 코드를 오픈 소스(Open Source)라고 한다. 오픈 소스 문화는 딥페이크의 탄생을 가능하게 했다. 독립 개발자는 물론 구글(Google)과 같은 대규모 IT 기업은 오픈 소스 활발히 제공하고 활용한다. 코드를 공개함으로써 소프트웨어의 투명성과 안정성을 보장할 수 있고, 전 세계의 개발자 사이의 열린 토론으로 소프트웨어의 성능도 더욱 향상할 수 있기 때문이다.
프로그램 구현은 오픈 소스로 시작되며, 프로그램이 복잡할수록 오류가 발생할 확률이 커진다. 이에 프로그램 개선을 위해 사용자 간의 소통이 요구된다. 본지 기자와 같이 프로그램의  오류를 발견했을 때, 다른 사용자들과 공유한다면 코드의 문제를 개선할 수 있다. 하지만 수많은 사용자가 딥페이크를 비윤리적인 목적으로 사용한 결과 레딧에 존재하던 공론장은 폐쇄됐다.
딥페이크의 악용을 막고자 연구자들은 자료의 합성 여부를 분석하는 기술을 연구하기도 한다. ‘AI Foundation’에선 허위로 합성된 글, 이미지, 동영상, 음성을 구별하는 ‘Reality Defender’를 개발하고 있다. Reality Defender는 사용자 컴퓨터의 배경에서 실행되며, 사용자가 접하는 정보 중 허위 합성물을 탐지해 알려준다. 하지만 일상엔 쇼핑몰의 합성 착용 이미지부터 뉴스 합성 이미지까지 다양한 계층의 허위 합성물이 존재하기 때문에 완전한 탐지 기술이 도입되기까지 시간이 소요될 것으로 보인다.
플랫폼 사업자도 불법 합성 영상물의 확산을 막는 방법을 마련하고 있다. 방송통신위원회에선 ‘1월부터 웹하드 사업자가 DNA 필터링 기술을 전면 시행하도록 할 계획’이라고 밝혔다. DNA 필터링은 편집 및 변형된 불법 유통 촬영물을 더욱 효과적으로 차단하기 위해 영상물의 특징을 추출하는 기술이다. 김 교수는 DNA 필터링 기술에 대해 “많은 정보를 처리할 수 있는 서버(Server)와 검출을 위해 필요한 데이터를 마련할 필요가 있다”면서도 “합성된 영상을 찾기 위해선 합성된 데이터를 충분히 확보해 컴퓨터를 학습시켜야 하지만, 합성된 데이터를 구하기 어려워 검출률을 높이긴 쉽지 않을 것이다”고 설명했다.
이러한 노력에도 딥페이크 영상을 정확하게 탐지하기까진 오랜 시간이 걸릴 것으로 예상된다. 김 교수는 “현재 기술로선 기계가 딥페이크 영상을 정확하게 찾기는 어렵다”며 “생성적 적대 신경망을 사용하면 원본에 비해 얼굴 형태가 약간 달라지는데 합성 전 데이터만으로 합성 후 얼굴 형태를 찾는 일은 쉽지 않기 때문이다”고 설명했다.
현재 딥페이크 영상 탐지 기술의 한계를 극복하기 위해선 정부와 관련 업계의 협력이 요구된다. 김 교수는 “중국에선 CCTV 분석을 통해 범인을 잡을 만큼 이용 가능한 공공데이터가 풍부하다”며 “한국도 정부에서 보유한 공공데이터에 대한 규제를 완화하는 등 합법적으로 개인에 대한 데이터를 모을 수 있는 기준을 마련해야 한다”고 말했다. 이어 김 교수는 “개인 정보를 안전하게 관리할 수 있는 제도를 구축하며 데이터를 많이 수집해야 한다”고 덧붙였다.
이용자는 자신이 제작한 딥페이크 영상의 영향력을 고려해야 한다. 단순한 흥미로 만든 영상도 가짜 뉴스 생산에 가담할 수 있고, 원본 영상에 등장하는 사람에게 심각한 피해를 줄 수 있기 때문이다. 이에 김 교수는 “사람들이 올바른 생각을 해야 윤리적인 문제를 해결할 수 있다”며 “본인의 이익을 위해 다른 사람의 정보를 도용하는 행위가 사라져야 한다”고 말했다.

불법 합성물을 차단하고 딥페이크 기술을 윤리적으로 사용하기 위해선 관련 기술을 둘러싼 연구자, 플랫폼 사업자, 이용자 모두의 노력이 필요하다. 최근의 논란은 새로운 기술의 윤리적 사용에 대한 담론보다 악용의 확산이 더욱 빠를 때의 위험을 잘 보여준다. 새로운 기술로 상처받는 사람이 없도록 딥페이크 기술의 윤리적인 사용에 대한 논의를 시작해야 할 때다.

저작권자 © 숙대신보 무단전재 및 재배포 금지