과학기술정보통신부가 공개한 ‘무선통신 서비스 가입자 통계’에 따르면 지난 4월 기준 국내에 개통된 스마트폰은 약 5,259만 대다. 행정안전부가 조사한 주민등록 총인구수는 5,170만 명으로 대부분의 사람이 스마트폰을 사용한다는 것을 알 수 있다. 우리는 디지털기기에 저장된 수많은 정보 즉, 데이터를 정리하는 '빅데이터(Big Data)' 환경 속에 살고 있다. 전문가들은 이런 데이터를 미래 산업을 이끌 핵심 연료로 생각한다. 본교 이기용 소프트웨어학부 교수는 “데이터는 전기나 석유와 같은 공공재다”며 “데이터는 사회적으로 꼭 필요한 재화다”고 주장했다. 전문가들이 데이터를 미래의 중요한 재화로 여기고 있는 이유는 무엇일까.


빅데이터, 끝없는 정보를 읽다
빅데이터는 축적 속도가 빠르고 종류가 다양하며 그 양이 방대한 디지털 자료를 의미한다. 크기와 종류에 따라 빅데이터는 정형 데이터, 비정형 데이터, 반정형 데이터로 나뉜다. 정형 데이터는 규칙적인 값을 가지며, 한눈에 값이 무엇을 의미하는지 알아보기 쉬운   스프레드시트(Spreadsheet)와 같은 수치 데이터다. 비정형 데이터는 글, 영상, 음성 등 다양한 형태의 데이터를 의미한다. 반정형 데이터는 파일 형식으로 저장된 데이터로 미리 구조화돼 있어 다른 데이터를 설명할 때 사용되는 ‘메타데이터’가 대표적이다. 황호규 한국데이터산업진흥원 분석지원팀장은 “데이터는 높은 가치를 가진 원자재다”며 “빅데이터의 관리와 활용은 적절한 정보의 수집과 최적화된 결과를 얻어내는 결과를 만든다”고 말했다.

4차 산업혁명과 지능정보사회 속에서 빅데이터 기술은 급속도로 성장하고 있다. 2000년대에 이뤄진 컴퓨터 및 데이터 기술의 발전은  빅데이터의 성장에 큰 영향을 줬다. 지난 2004년 12월 구글(Google)은 전자책 제공 서비스 ‘구글 북스(Google books)’를 출시했다. 지난달 28일(목) 페이스북(Facebook)은 메타버스(Metaverse) 서비스 ‘메타’(Meta)를 발표했다. 체험한 가상현실 속 게임이나 활동에 대한 사용자의 정보는 서비스 내에 데이터의 형태로 저장된다. 하기목 한국데이터산업진흥원 인재양성팀장은 “디지털 경제활동과 국가경쟁력 모두 데이터 활용 방법에 따라 큰 영향을 받는다”며 “데이터가 사업을 주도하는 시대가 도래했다”고 전했다.

빅데이터 처리를 위해 네트워크 기술과 데이터 규칙 분석 기술이 주목받고 있다. 전자기기를 연결하는 네트워크 기술은 빅데이터를 처리할 여러 대의 컴퓨터를 연결하는 하드웨어 역할을 한다. 이렇게 구축된 하드웨어를 기반으로 빅데이터를 빠르게 처리하기 위해 소프트웨어 기술 연구가 이어진다. 이 교수는 “과거엔 대량의 데이터를 저장할 하드디스크와 이를 활용하는 기술이 없었다”며 “이젠 빅데이터를 처리할 수 있는 기술들이 개발돼 개인도 빅데이터를 다룰 수 있는 시대다”고 말했다. 

정보 속에서 찾은 미래의 가치  
빅데이터는 수집된 데이터를 가공ㆍ분석해서 데이터 내의 가치를 창출한다. 빅데이터 기술의 첫 단계는 많은 데이터 속에서 패턴을 찾는 과정이다. 그 후 데이터의 패턴을 분석해 숨겨진 규칙을 발굴하는 ‘데이터 마이닝(Data Mining)’ 과정을 거친다. 이후 정리한 데이터를 처리하기 위해 데이터 모델(Data Model)을 찾아내야 한다. 해당 과정엔 데이터의 패턴을 빠르게 찾아내기 위한 데이터베이스(Database) 연구 및 소프트웨어, 하드웨어 연구 등이 요구된다. 하 팀장은 “빅데이터를 처리·활용하는 기술은 독점성이 낮아 지속적인 기술 개발 및 공유가 이뤄질 것이다”고 말했다.

인공지능 및 딥러닝(Deep Learning) 기술에 관해 빅데이터는 상당한 연구적 가치를 지닌다. 컴퓨터가 빅데이터 기술을 활용해 데이터를 처리하고 과제를 수행하는 것이 곧 인공지능 연구다. 또한 빅데이터와 알고리즘이 결합해 데이터의 패턴을 찾아내는 것이 딥러닝 기술이다. 딥러닝에 사용된 알고리즘인 인공신경망은 사람의 뇌와 같이 데이터를 학습해 결과를 도출한다. 다른 이미지 속 패턴을 수집해 흑백사진에 색을 입히는 기술이나 이미지 속 문자를 자동으로 번역하는 기술이 대표적인 딥러닝이다. 

빅데이터 기술은 경제적 가치 창출을 위한 수단으로 활용되기도 한다. 빅데이터는 축적된 데이터를 이용해 사용자의 행동 패턴을 파악하고 선호도를 예측한다. 해당 기술을 통해 사용자에게 더 나은 선택지를 제공하는 추천 알고리즘이 널리 사용되고 있다. 하 팀장은 “추천 알고리즘은 사용자 개인에게 맞춤 서비스를 제공하는 편리하고 강력한 도구다”고 말했다. 지난 2019년부터 아마존(Amazon)은 사용자 구매 정보를 분석해 최적화된 상품을 추천하고 있다. 넷플릭스(Netflix)는 넷플릭스 시네매치(Netflix Cinematch)란 콘텐츠 추천 알고리즘을 통해 사용자의 평점을 예측하고 적합한 콘텐츠를 사용자에게 추천한다. 황 팀장은 “기업의 성과를 극대화하는 빅데이터 활용 기술은 마케팅의 필수 요소다”고 말했다.

데이터 활용의 이점 너머
데이터 기반 기술의 큰 결함은 높은 데이터 의존도다. 빅데이터 알고리즘에 데이터를 주입하는 과정에서 정보의 과대적합 혹은 과소적합 문제가 발생한다. 과대적합은 알고리즘이 학습하지 못한 데이터에 대해 처리가 불가능한 경우를 일컫는다. 반면 과소적합은 알고리즘의 모델이 단순해 일반적인 결과만을 도출하는 경우다. 빅데이터 기술은 대량 데이터를 사용해 정확성이 높지만, 과대적합 및 과소적합과 같이 데이터 관련 문제를 낳기도 한다. 

개인정보 유출은 빅데이터 기술이 일으키는 문제 중 하나다. 페이스북은 지난 2012년부터 약 6년간 수집한 국내 사용자의 이름, 학력, 직업 이력과 같은 개인정보를 사용자 동의 없이 타 기업에 제공했다. 이에 지난해 11월 개인정보보호위원회는 페이스북에 과징금 67억 원을 부과했다. 황 팀장은 “데이터를 안전하게 관리하는 기술적‧물리적 방법이 마련돼야 한다”며 “정보시스템 관리 교육, 비상사태 대비 교육과 같은 관리 보안의 강화가 중요하다”고 설명했다. 

정부는 데이터 법안 개정을 통해 기업의 올바른 개인정보 활용을 요구한다. 지난해 1월 9일(목), 정부는 기업들의 데이터 사용량 및 축적량 증가를 고려해 개인정보 보호법을 개정했다. 해당 법안은 정보 주체의 동의 없이 수집한 개인정보를 추가로 이용 및 제공 할 수 있도록 만든 법안이다. 수집한 개인정보는 ▶수집목적의 관련성 ▶예측 가능성 ▶정보 주체 및 타인의 이익을 침해하지 않을 가능성을 만족해야 한다. 황 팀장은 “개인정보 보호법 개정을 통해 빅데이터 활용을 위한 법적 근거가 마련됐다”며 “앞으로는 개인정보 보호 강화와 데이터 활용 활성화의 조화를 위해 노력해야 한다”고 전했다. 


본교 이기용 소프트웨어학부 교수는 “모두가 데이터에 대한 기본적인 개념을 필수적으로 알아야 하는 시대다”고 말했다. ‘정보의 홍수’란 단어가 있을 정도로 우리는 무수한 정보에 둘러싸여 있다. 고도화된 정보사회 속에서 댐과 같은 빅데이터 기술은 우리가 원하는 정보를 분류해 정리해준다. 이젠 우리가 수집된 데이터를 어떤 방식으로 분석해서 의사결정을 내릴 것인지 고민할 때다.

저작권자 © 숙대신보 무단전재 및 재배포 금지