흔히 인터넷은 정보가 넘쳐흐르는 정보 홍수의 장이라 여겨진다. 2012년 기준, 인류가 쏟아낸 데이터의 양은 총 2조 7천 억 기가바이트(GB). 이 데이터를 모두 담기 위해서는 일반 컴퓨터의 하드디스크가 무려 27억 개가 필요하다. 이렇게 방대하게 쏟아지는 정보 속에서 의미 있는 정보를 추출하고 분석해 가치를 창출하는 이들을 빅 데이터 분석가라고 부른다. 빅 데이터 분석가들에게 정보는 다듬어지지 않은 원석과 같다. 그들은 이 원석을 다듬고 가공해 보석을 만들어낸다. 그렇다면 정보는 어떤 가공과정을 거쳐 빅 데이터라는 보석으로 거듭나게 되는 걸까.

빅 데이터, 빅(Big) 데이터?
빅 데이터(Big Data)란 ‘빅(Big)’, 즉 양적으로 방대한 데이터를 의미하는 것일까? 정답부터 말하자면 아니다. 빅 데이터를 정의할 때는 데이터의 양도 고려해야 하지만, 데이터를 효과적으로 처리하고 분석할 수 있으며, 그 과정을 통해 가치를 생성할 수 있는 기술까지 포함해야 한다. 상대적으로 양은 적지만 가치 있는 내용을 많이 포함하는 데이터가 있는 반면 그렇지 않은 데이터도 있다. 빅 데이터를 이해하는데 양의 측면으로만 접근하면 안 되는 이유 중에는 이러한 가치판단의 여부도 포함된다.

글자 수가 140자로 제한된 트위터와 같이 짧은 텍스트로 소통하는 것을 마이크로블로그(Micro Blog)라 하는데, 140자가 차지하는 메모리는 280바이트에 불과하다. 글 1억 개가 모여도 스마트폰 한두 개의 메모리 용량 정도밖에 되지 않는 것이다. 그러나 이 작은 데이터 속에는 수많은 함축적 의미, 은어, 속어 등이 난무하기 때문에 이 속에서 의미 있는 말이나 유용한 정보를 뽑아내기란 쉬운 일이 아니다. 많은 양은 아니지만 이것도 일종의 빅 데이터다. 정보로서 가치 있다고 여겨지는 내용을 판별하기 위해 수많은 데이터를 모아 종합적으로 분석하는 전문적이고 복잡한 기술을 요하기 때문이다.

반면에 방대한 양이지만 분석하기에 비교적 용이한 데이터도 있다. 이동통신사에서 다루는 가입고객의 사용요금 데이터가 그 예다. 기업은 하루에도 천만 명이 넘는 가입자들의 통화내역, 유료 다운로드 서비스 이용 여부 등의 데이터를 저장하고 관리한다. 구조적으로 잘 만들어진 틀에 맞춰 저장되고 관리되는 이러한 데이터들을 빅 데이터라 정의하기는 어렵다. 그 이유는 다음과 같다. 
 
빅 데이터를 파헤치다 
빅 데이터라 불리기 위해서는 이른바 ‘3V’라는 세 가지 특징을 갖춰야 한다. 여기서 3V는 ‘규모(Volume)’ ‘다양성(Variety)’ ‘속도(Velocity)’를 의미한다. 규모란 데이터의 물리적 크기를 말하며, 대략 수십 테라바이트(TB)에서 수억 테라바이트까지의 데이터가 빅 데이터에 속한다.

단순히 규모가 큰 데이터를 빅 데이터라 할 수 없는 이유는 데이터의 다양성에서도 찾을 수 있다. 데이터는 형태에 따라 ‘정형 데이터’와 ‘비정형 데이터’로 나뉜다. 정형 데이터란 정해진 양식에 따라 구조화된 데이터다. 정형 데이터는 고객 신상 데이터, 매출 데이터 등 기존 기업에서 사용하는 관계형 데이터베이스에 저장된 데이터다. 그러나 최근 방출되는 데이터들은 미리 형식을 정해놓기 어려운 다양한 형태의 모습을 갖는다. 이처럼 데이터 하나하나마다 크기와 내용이 달라 통일된 구조로 정리하기 어려운 데이터를 비정형 데이터라 한다. 비정형 데이터에는 유튜브에 올라오는 동영상, 페이스북이나 트위터 등에 게시되는 글, 이미지 등이 속한다.

사건에 대한 데이터를 수집하고 처리해 전달하기까지의 과정이 길고 복잡했던 빅 데이터 시대 이전과 달리 현재 대중들은 실시간으로 데이터를 주고받는다. 데이터가 쏟아져 들어오는 속도는 과거와 비교해 놀라울 만큼 빨라졌고, 동시에 정보의 유통과 소비는 눈 깜짝할 사이에 이뤄진다. 데이터를 수집하고 가공 및 분석하여 전달하는 일련의 유통 과정이 실시간 또는 분이나 초 단위로 진행된다는 것이다. 이 때문에 빅 데이터는 기존의 데이터 처리 방식으로는 관리와 분석이 매우 어렵다는 특징을 갖는다. 본교 멀티미디어과학 전공 윤용익 교수는 “빅 데이터는 활용 방법에 따라 수많은 결과를 가져올 수 있기 때문에 다루기 어려운 데이터”라고 말했다.

결론적으로 빅 데이터는 거대한 크기의 데이터를 의미하며 정형 데이터와 비정형 데이터를 포괄한다. 또한 생성, 유통, 소비가 몇 초 단위로 일어나 관리와 분석이 매우 어려운 데이터의 집합이기 때문에 기존의 데이터 처리 방식으로는 다루기 힘들다.
 
데이터, 빅 데이터가 되다
데이터는 최근 몇 년 사이에 새롭게 탄생한 신종 개념이 아니다. 데이터라 하면 수 만 명의 고객 정보, 수 만 건의 이메일 등을 떠올리기 쉬우나 데이터는 생각만큼 거창한 것이 아니다. 누구나 하루에도 많게는 수십 건씩 자신만의 데이터를 만들어낸다. 교통 카드 사용 내역을 통해 확인 가능한 이동 경로, 물건 구매 내역 등이 개인이 만들어내는 데이터에 해당한다. 이처럼 새로운 개념이 아님에도 불구하고 데이터에 빅 데이터라는 이름을 붙여 구별하는 이유는 무엇일까.

기존의 데이터는 VLD(Very Large Data)라 불리는 대용량 정형 데이터다. 정형 데이터에 비정형 데이터가 추가되면서 빅 데이터라는 새로운 이름이 붙여진 것이다. 빅 데이터와 기존의 데이터는 분석 양상에도 차이가 존재한다. 윤 교수는 “기존의 데이터 분석이 요구하는 자료를 찾는 단계에 그쳤다면 빅 데이터 분석은 가치를 창출하고 다양하게 활용하는 것에 주력한다”며 빅 데이터 분석의 목적을 강조했다. 윤 교수는 “빅 데이터 분석을 통해 가치 있는 정보를 얻어내고 그것을 적재적소에 활용하는 것이 기업의 경쟁력을 좌우한다”고 말했다. 또한 새로운 데이터의 발견에도 주목했다. 그는 “새로운 데이터를 찾아내는 것은 광산을 캐는 행위와 마찬가지”라며 “SNS, 사물인터넷(IOT: Internet of Things) 등 모든 것이 인터넷과 연결되는 시대에 발견되지 않은 새로운 영역의 정보를 찾아내는 기술은 경쟁력과 직결된다”고 말했다.
 
빅 데이터, 생활에 편리함을 더하다
기업은 각자의 사업 목적에 맞게 빅 데이터를 분석하고 활용하고 있다. 빅 데이터를 활용해 사업을 이끌어나가는 기업들 중 대표적인 곳이 바로 ‘구글’이다. 구글은 빅 데이터를 이용해 번역 서비스를 더욱 정밀화시켜 타 기업과의 차별화를 이뤄냈다. 일반적으로 기계가 인간이 사용하는 언어의 복잡한 관계를 이해하는 것은 쉽지 않다. 구글은 번역 서비스의 한계를 극복하기 위해 빅 데이터 분석을 활용했다. 이미 완벽하게 번역된 데이터들을 모으고 이를 통해 언어 간의 번역 패턴을 확인하는 것이 그 방법이다. 데이터가 많아질수록 번역의 질이 높아지는 것이다. ‘구글의 맞춤법 검사 기능’과 ‘철자 추천 기능’ 역시 사용자들의 오자 데이터를 바탕으로 만들어졌다.

빅 데이터 분석이 기업이 아닌 정부의 주도 하에 이뤄진 사례도 있다. 서울시의 심야버스 이용제도 ‘올빼미 버스’가 그 예다. 서울시는 지하철과 버스의 막차가 끊기는 자정부터 새벽 5시 사이, 대중교통 수단의 부재로 힘들어하는 시민들을 위해 심야버스를 운영하기로 결정했다. 이후 버스 노선을 정하기 위해 통신사 KT의 새벽 시간대 통화 데이터를 분석했고, 새벽 시간대에 시민들이 가장 많이 위치한 곳을 찾아냈다. 또한 새벽 시간대의 택시 하차 장소 데이터를 분석해 버스 노선을 결정했다. 올빼미 버스를 이용함으로써 시민들은 택시를 이용하는 것보다 일인당 약 7,050원을 절약할 수 있게 됐다.

IT기업 ‘프로그램스(Frograms)’가 개발한 어플 ‘왓챠(Watcha)’ 또한 빅 데이터를 효율적으로 활용한 대표적인 예다. 이 어플의 사용자는 자신이 본 영화에 별점을 부과하는 방식으로 영화를 평가한다. 어플은 평가를 토대로 사용자의 취향을 분석한 후 이에 맞는 장르의 영화를 추천해준다. 영화에 부과된 별점을 통해 사용자의 성향과 영화에 대한 평가를 분석하는 것이다.

두 얼굴의 빅 데이터
빅 데이터는 21세기 원유라고 불리며 전 세계의 주목을 받고 있다. 그러나 일각에서는 빅 데이터에 우려의 시선을 내비치고 있다. 빅 데이터 활용의 부정적인 측면 또한 무시할 수 없다는 것이다. 가장 문제가 되는 영역은 개인의 사생활 침해다. 기업이 데이터 수집 과정에서 얻어진 고객의 개인 정보를 상업적인 용도로 악용할 수도 있기 때문이다.

빅 데이터도 결국 데이터에 불과하기 때문에 그 정확성을 완전히 보장할 수 없다는 단점도 있다. 영화 ‘마이너리티 리포트’에서는 빅 데이터를 통해 미래에 범죄를 저지를 것이라 여겨지는 사람을 예측하고 예방을 명분으로 그들을 체포한다. 빅 데이터를 통한 예측을 기정사실화 하는 것이다. 그러나 다양한 요소들이 복잡하게 얽힌 현대사회에서는 예측한 것과 전혀 다른 결과가 나타날 수도 있다.
윤 교수는 “빅 데이터 분석을 통해 긍정적 가치를 창출해 내는 과정에서 지나치게 성과만을 중시한다면 놓치고 지나칠 수 있는 부분이 피해로 나타날 수 있다”며 “양 측면을 모두 고려하며 분석을 진행하는 것이 중요하다”고 말했다.

사회·경제적 이슈로 떠오르고 있는 빅 데이터를 일시적 유행 현상으로 바라보는 이들도 적지 않다. 이에 윤 교수는 “현재 IT기업에서 떠오르고 있는 빅 데이터가 실제로 일시적인 유행일 수도 있다”며 “그럼에도 불구하고 빅 데이터는 데이터가 존재하는 한 사라지지 않을 것”이라고 말했다. 빅 데이터는 한순간 생겨난 개념이 아니라, 기존의 탄탄한 데이터를 기반으로 변형돼 탄생한 것이다. 앞으로 빅 데이터가 다른 형태로 변화하거나 빅 데이터를 지칭하는 단어가 바뀌더라도 데이터를 기반으로 한다는 뿌리는 바뀌지 않을 것이다.


<참고문헌>
1.「빅데이터, 경영을 바꾸다」함유근·채승병 저, 삼성경제연구소
2.「빅 데이터 @워크」토머스 H.데이븐포트 저, 21세기북스

저작권자 © 숙대신보 무단전재 및 재배포 금지