006

연구 리포트

빅데이터 산업의 어두운 그늘

2014.10.9

빅데이터 산업의 어두운 그늘 새로운 가치 창출인가 새로운 빅브라더의 출현인가

1990년대 미국 월마트는 고객들의 구매 영수증에 대한 분석을 하다가 흥미로운 사실을 발견했다. 목요일과 금요일에 아기 기저귀를 구매한 고객들이 주류 코너를 찾아 맥주를 구매하는 성향이 높게 나타났던 것이다. 아내의 심부름으로 기저귀를 사러 나온 남편들의 구매 패턴이 데이터 분석을 통해 포착된 결과였다. 이를 활용해 기저귀 매장 옆에 맥주를 진열하자 매출이 크게 늘어났다. 기저귀와 맥주를 테이프로 묶어서 파는, 희한한 패키지 상품도 등장했다. 이후 판매 데이터 분석을 통해 구매 연관성을 연구하고 그 결과로 얻어진 고객의 구매 패턴에 따라 상품을 전시하고 판매 전략을 세우는 것이 대부분의 매장에서 적용되는 마케팅 불변의 법칙이 됐다.

데이터 분석을 통해 맥주와 기저귀라는 별 상관 없어 보이는 상품의 동시 구매패턴이 드러났다.

모든 것이 디지털과 온라인으로 처리되는 사회가 되면서 빅데이터(Big Data. 기존에 활용되지 않은 방대한 규모의 정형 또는 비정형 데이터를 처리해서 새로운 결과와 가치를 추출하는 기술)와 이를 활용하는 데이터 마이닝(Data Mining. 활용되지 않은 데이터를 분석해서 새로운 가치를 캐내는 작업)이 성장 산업으로 기대를 모으고 있다.

미래를 예측하는 데이터 과학?

모든 것이 디지털과 온라인으로 처리되는 사회가 되면서 빅데이터와 이를 이용한 데이터 마이닝이 주목받고 있다.

구글은 어느 기업 못지않게 데이터를 잘 활용하는 기업이다. 사용자들이 검색을 통해 만들어내는 방대한 규모의 빅데이터를 분석해서 분류하고 규칙을 찾아낸 다음 신규 서비스 개발과 기존 서비스 개선에 활용한다. 사용자들이 검색어를 입력하다가 실수하는 오자 데이터를 활용해서 가장 강력한 맞춤법 검사와 철자 추천 기능을 만들어냈다. 구글의 번역 서비스와 음성 인식 기능도 사용자들이 만들어낸 빅데이터를 활용한 서비스다.

구글은 정보를 분석하면 미래를 예측할 수 있음을 보여주는 지점까지 나아갔다. 구글은 수년 동안 독감 관련 검색어의 추이를 분석한 결과 실제 독감 환자의 수와 유행 지역 등을 예측할 수 있다는 사실을 발견했다. 2009년 <네이처 (Nature)>는 ‘검색엔진의 검색어 데이터를 활용한 인플루엔자 전염성 감지’란 논문을 실었다. 구글은 이를 활용해 독감 확산 예측 정보를 제공하는 구글 독감 트렌드(Google Flu Trend) 서비스를 개시했다. 구글 독감 트렌드는 미국 질병관리예방센터(CDC)보다 2주 정도 일찍 독감을 파악할 수 있는 것으로 나타났다. 2010년 독일 노동연구소(IZA)는 “주택채무 상환 불이행 파악하기”라는 논문을 발표했다. 대출, 모기지, 채무 불이행 등의 검색어 데이터를 통해 금융 위기를 미리 감지할 수 있는지를 다룬 논문이다.

스마트폰을 사용하게 되면서 과거에는 접하기 힘들던 형태의 정교하고 가치 높은 데이터가 방대한 규모로 축적되고 있다. 스마트폰은 로그인 상태로 사용하는 개인용 기기인 데다 위치정보를 담고 SNS에 접속하고 있어서 사회관계까지 담은 데이터가 만들어지고 있다.

애플, 구글 등은 사용자별로 스마트폰에서의 검색 행위, 일정, 구매 습관 등을 데이터화해 ‘구글 나우(Google Now)’와 애플 ‘미리 알림’ 같은 개인화된 예측 서비스를 모색하고 있다. 국내보다는 미국 등지에서 기능이 더욱 충실한 구글 나우는 로그인한 사용자의 일정, 이동 경로, 검색 패턴, 콘텐츠 이용, 숙박 정보 등을 통합해서 맞춤형 정보를 제공한다. 맞춤형 정보를 넘어 향후에는 쌀이나 우유같이 주기적으로 필요한 물품을 구매해야 하는 시점까지 알려줄 예측 서비스를 내세우고 있다.

데이터 과학의 미래는 점점 확대되고 각광받고 있다. 빅데이터는 모든 사물들이 온라인으로 연결되는 ‘사물 인터넷’(Internet of Things. 사람이 직접 조작하지 않는 각종 기기와 사물들에 센서 등 전자장치를 달아 인터넷으로 연결하고 사물 간에 정보를 주고받아 처리하게 하는 기술이다. 가득 차면 비우라고 알려주는 휴지통이나 무인자동차가 그 사례)과 맞물리면서 미래의 주요 성장 산업으로 여겨져 국가적 지원 정책까지 발표되고 있다.

페이스북의 충격적인 ‘감정 조작’ 실험

하지만 빅데이터는 잘 드러나지 않던 디지털 사회의 그늘을 비추는 뉴스를 통해서 그 진짜 면모가 알려지고 있다. 데이터 확보와 처리를 전문적으로 다루는 국가기관이나 기업의 행태도 조금씩 드러나고 있다. 충격적이게도 미국 국가안보국(NSA)이 ‘프리즘(Prism)’이라는 도·감청 프로그램을 이용해 구글, 페이스북, 마이크로소프트, 애플, AOL 등을 쓰는 다른 나라 이용자들의 통화, 이메일, 검색 결과에 무차별적으로 접근해왔음이 에드워드 스노든의 폭로와 <가디언>지의 보도로 드러났다. 두터운 베일에 싸여 있는 민간 데이터 관리 기업인 액시엄(Acxiom)도 가공할 정보력을 자랑하고 있다. 액시엄은 미국인 3억 명을 비롯해 세계 7억 명의 개인정보를 수집하고 분류해서 판매하는 세계 최대의 데이터 판매업체다. 나이, 성별, 피부색, 쇼핑 습관, 교육 정도, 병력 등 개인마다 최대 1500개 항목에 관한 정보를 모아서 기업에 판매한다. 미국인 가운데 ‘왼손잡이로서 연봉 4만 달러 이상인 라틴아메리카인’의 목록을 원하는 기업에 마케팅 자료로 파는 방식이다.

21세기의 빅브라더는 스마트폰을 감시하여 정보를 얻는다.

그렇지만 페이스북의 ‘감정 실험’만큼 빅데이터 시대가 어떤 모습일지를 충격적으로 드러낸 사례는 없다. 세계 정상급 학술지인 <미국 국립과학원회보(PNAS)>가 2014년 6월 17일에 게재한 ‘소셜네트워크를 통한 대량 감정 전염의 실험적 증빙’이라는 논문이 공개한 실험이다. 페이스북 데이터사이언스팀의 애덤 크레이머(Adam Kramer) 박사는 2012년 1월 11일부터 18일까지 7일간 페이스북 사용자 68만 9003명을 상대로 실험을 실시했다. 실험 대상자들의 뉴스피드 알고리즘을 조작해서 15만 5000명에게는 뉴스피드에 긍정적인 포스팅이 계속 올라가게 하고 15만 5000명에게는 부정적 내용의 글이 올라가게 했다. 그 결과 긍정적인 콘텐츠를 읽은 이용자들은 긍정적 콘텐츠를 올리고, 부정적 글을 읽은 이용자들은 부정적 글을 올릴 가능성이 커진다는 사실이 드러났다.

연구를 이끈 크레이머 박사는 자신의 페이스북을 통해 “우리는 사람들이 친구들의 행복을 보고 더 우울해지고 결국 페이스북을 떠나게 된다는 말이 사실인지를 조사해야 한다고 생각했다. 또 사람들이 친구들의 우울한 글 때문에 페이스북을 피하게 되는지에도 관심이 있었다”라고 실험 동기를 밝혔다. ‘페이스북 때문에 오히려 불행감을 느낀다’, ‘아니다, 오히려 다른 사람들과 연결돼 행복감을 느낀다’는 주장이 엇갈리면서 논쟁을 낳고 있는 상황에서 방대한 고객 데이터를 지니고 있는 페이스북 데이터사이언스팀으로서는 무엇보다 궁금한 연구 주제였을 것이다.

하지만 페이스북 데이터 과학자들이 저명한 학술지에 자랑스럽게 공개한 연구는 즉시 ‘감정 조작 실험’으로 불리며, 자신이 실험실 쥐와 같은 취급을 받았다는 전 세계 페이스북 이용자들의 거센 비난과 역풍에 직면했다. 상당수 페이스북 사용자들은 자신이 실험에 동원됐다는 것을 전혀 모른 채 즐거운 내용이나 우울한 내용의 글이 걸러진 자신의 담벼락을 보고 있었다는 사실에 경악했다. 만약 계속 우울한 글만 보던 사용자가 자살이나 범죄 같은 극단적 행동을 저질렀다면 이는 누구에게 책임이 있는 것일까?

페이스북은 회원 가입 시에 “서비스 개선을 위해 사용자의 데이터가 사용될 수 있다”고 동의한 약관에 따라 실험이 진행됐다고 설명했지만 이런 해명 역시 반발만 불렀다. 페이스북의 서비스 이용약관은 가입자가 거의 읽어보지 않고 무조건 ‘동의’를 누르는, 대표적으로 복잡하고 난해한 약관으로 유명하다. 약 9000개의 단어로 이루어진 페이스북 약관은 미국 헌법보다 길고 복잡한 법률 용어로 가득하다.

페이스북 데이터 과학자들이 대규모 ‘감정 실험’을 대수롭지 않게 여기고 이를 학술지에 발표한 것은 이런 방식의 ‘조작 실험’이 페이스북 안에서 일상적으로 이뤄져온 관행임을 드러내는 방증이다.

페이스북 최고운영책임자(COO)는 페이스북의 감정 조작 실험에 대해 그 취지가 잘못 전달돼 유감이라고 밝혔다.

친구들의 글과 사진 그리고 상태 업데이트 등 각종 소식을 내 담벼락에 배달해주는 페이스북의 핵심 기능인 뉴스피드의 속성상 알고리즘을 통한 일종의 조작은 불가피한 측면이 있다. 뉴스피드는 나와 관계를 맺은 모든 사람이 올리는 콘텐츠나 변경하는 업데이트를 모두 보여주지 않는다. 내 담벼락에 ‘업데이트 홍수’가 일어나지 않도록 알고리즘을 통해 선별해서 노출하는 구조다. 페이스북에 가면 언제나 나와 온·오프라인에서 깊은 관계를 맺고 서로에게 관심을 자주 표시하는 대상이 주로 노출되어 있는 이유다. 사용자가 관심 있을 만한 상대와 콘텐츠를 보여주기 위해 페이스북은 알고리즘을 끊임없이 개선하고 이를 위한 다양한 실험을 하고 있다. 또한 페이스북은 액시엄처럼 극단적으로 세분화된 사용자 집단을 광고주들에게 판매하고 있다. 페이스북은 약 10만 가지 요인을 토대로 뉴스피드의 노출 순위를 매긴다. 그리고 이런 알고리즘을 통해 접속할 때마다 노출되는 콘텐츠를 1500개에서 지인 중심의 300개로 축소해 보여준다.

페이스북의 실험을 옹호하는 쪽은 “신문이나 방송 같은 미디어의 편집 행위도 모든 정보를 단순 게재하는 것이 아니라 자신의 관점을 담고 선별해 싣는다”며 페이스북의 감정 조작 실험이 특별한 것은 아니라고 주장한다.

신문이나 방송도 편집으로 뉴스를 선별하고 이를 통해 사람에게 영향을 끼치려 하는 것은 맞다. 그러나 신문이나 방송은 거대 소셜 플랫폼과는 근본적인 차이가 있다. 신문이나 방송에 대해서는 이용자가 불만을 가질 경우 구독이나 시청을 거부하기 어렵지 않지만 페이스북과 같은 지배적인 SNS에서는 벗어나기 힘들다는 점이다. 우선 경쟁 상품이 다양하지 않다. 그다음으로 페이스북의 거대한 플랫폼에 나의 모든 친구들이 모여 있기 때문에 나 혼자 빠져나오기가 어렵다. 페이스북 가입자는 2014년에 이미 13억 명을 넘어섰다. 역사상 페이스북만큼 인류 전체의 감정과 생각에 막대한 영향을 끼치는 미디어 기업은 없었다.

페이스북이 사용자들을 상대로 감행한 감정 조작 실험은 20세기에 인간 행동에 대한 조작 가능성을 탐구하며, 다양한 사회과학적 실험의 효시가 되었던 ‘파블로프의 개’ 실험을 연상시킨다. 어떤 상황에서 어떤 메시지를 보내 사람들의 반응을 통제하거나 유도할 수 있는지에 대한 연구는 인간의 행동과 사회를 목적하는 대로 유도할 수 있게 해주는 사회과학의 성배(holy grail)로 여겨져왔다. 페이스북 데이터사이언스팀과 함께 연구를 수행한 코넬대의 제프리 핸콕(Jeffrey Hancock) 교수는 “화학이 현미경을 얻은 것 같은” 느낌이라고 표현했을 정도다. 만약 페이스북이 일련의 실험을 통해 좀더 정교한 감정 조작의 알고리즘을 만들어낸다면 특정 국가의 대통령 선거에 반미 후보자가 출마했을 경우 해당 국가 유권자들의 심리 상태와 투표 의사에 영향을 줌으로써 은밀하게 정치적으로 개입하는 것도 얼마든지 가능하다. 사용자를 대상으로 하는 실험이 아무 고지 없이 이미 페이스북 내부에서 진행되고 있었다는 점에 세계가 놀란 것도 그 때문이다.

당신이 돈을 내지 않고 상품을 사용한다면 바로 당신이 상품이다

빅데이터는 ‘기저귀와 맥주’ 패키지 상품처럼 고객과 기업 모두에게 편리함과 새로운 통찰을 가져다주는 정보화 시대의 금광과 같은 고부가 영역이다. 하지만 사용자 수가 정보량이 되고 이 정보가 기업의 이익을 위해 이용될 수 있다는 점에서 빅데이터 보유 기업이나 기관에 대한 사회적 통제를 성공적으로 수행하지 못한다면 사용자들은 거대 기업의 조작 대상으로 전락할 따름이다.

19세기 미국은 독점화된 철도산업을 규제하기 위해 반독점법을 도입한 이후 시대에 따라 형태를 달리하는 정보화 사회의 빅브라더 출현을 막기 위해 이 법을 활용하고 있다. 1910년대에는 금전등록기업체인 NCR, 1960년대부터는 업무용 컴퓨터 기업인 IBM, 1970년대에는 복사기 등 사무용 전자 기기 업체인 제록스, 1980년대에는 거대 통신회사 AT&T, 1990년대에는 마이크로소프트가 그 주된 대상이었다. 오늘날에는 구글과 페이스북이 빅브라더의 자리를 두고 경쟁하고 있다.

“당신이 돈을 내지 않고 상품을 사용한다면 바로 당신이 상품이다”라는 말이 있다. 공짜로 사용하는 대가로 우리가 제공하는 개인정보와 사용 내역은 사실상 우리가 알지 못한 채 제공하는 엄청난 가치의 상품이다. 빙산의 일각이 드러난 페이스북의 감정 조작 실험이 빅데이터 사회의 미래를 보여준 셈이다.

빅데이터 서비스는 사람을 데이터화한다.

빅데이터 산업의 활성화는 과거와 달리 모든 종류의 데이터를 생산하고 기록하고 활용하도록 부채질한다. 일단 만들어진 데이터는 어떤 용도로도 활용되고 빅데이터를 활용하는 기술은 점점 발달하고 있다. 스마트폰과 같은 모바일 컴퓨팅 기기를 사용하게 되면서 개인의 이동 궤적과 24시간 데이터 사용 내역이 만들어지고 있다. 개인의 삶은 점점 더 스마트폰에 의존하지 않고는 불가능해지고 있다. 이렇게 만들어진 방대한 규모의 데이터는 빅데이터 산업의 출현과 발달로 인해 새로운 효용과 가치를 얻게 된다. 컴퓨터와 스마트폰 등 현대의 필수적인 기기를 사용하지 않고 일상적 생활을 영위하는 것이 불가능해지면서 개인의 프라이버시 영역은 점점 사라져간다.

구본권 이미지
구본권 | 한겨레신문 부설 사람과디지털연구소 소장
서울대 철학과를 졸업하고 한양대 언론학 박사과정을 수료했으며, 한양대 신방과 겸임교수를 지냈다. 1990년부터 한겨레신문 기자로 일하고 있으며, 2014년 설립된 사람과디지털연구소 소장을 맡고 있다. [당신을 공유하시겠습니까?](2014), [인터넷에서는 무엇이 뉴스가 되나](2005), [별별차별](2012, 공저)을 저술했으며, [잊혀질 권리](2011)를 번역했다. 사람과디지털연구소를 통해 디지털 시대, 기술의 새로움과 편리함 너머 더 행복하고 지혜로운 사용법을 성찰하고 널리 알리면서 ‘디지털 리터러시’의 중요성을 일깨우고 있다.
당신을 공유하시겠습니까? 이미지
출처
당신을 공유하시겠습니까?
디지털 시대의 새로운 철학과 구체적인 지침을 ‘디지털 리터러시’ 개념으로 제안한다. 디지털의 속성과 구조를 파악하고 디지털 문법을 제대로 이해하고 사용하는 능력이 우리의 삶을 좌우하는 필수 교양이 된 것이다. SNS가 주는 박탈감이나 행복감 모두를 성찰하면서 도구로서 현명하게 사용할 방법을 권한다. 사람과 디지털의 건강한 관계 맺기를 위한 지침서!
발행2014.10.09