DATA CONSULTING 2018-01-12

현명한 빅데이터 활용을 위한 조언

디지털 마케팅 시대가 도래하면서, 빅데이터 마케팅이 대세로 자리잡고 있다. 하지만 결국 빅데이터의 알고리즘 코드를 설정하는 것은 사람이며, 데이터 선별 과정에서 사람의 주관이 반영될 수 있다. 따라서 빅데이터의 최종 장애물은 바로 사람이라는 것을 인식하고, 방대한 정보 속에서 올바른 데이터를 잡아내는 인사이트 운영이 중요하다.

아래로

디지털 마케팅 시대가 도래하면서, 빅데이터 마케팅이 대세로 자리잡고 있다. 하지만 결국 빅데이터의 알고리즘 코드를 설정하는 것은 사람이며, 데이터 선별 과정에서 사람의 주관이 반영될 수 있다. 따라서 빅데이터의 최종 장애물은 바로 사람이라는 것을 인식하고, 방대한 정보 속에서 올바른 데이터를 잡아내는 인사이트 운영이 중요하다.


 

조지오웰의 <1984>의 빅브라더는 더 이상 소설 속의 허구가 아니다.  

나도 모르게, 나의 정보를 누군가가 수집하고, 저장하며 또 활용하고 있다. 찜찜하다.  

설상가상으로 그 정보들이 잘못 이용되고 있다는 사실을 알게 된다면 기분이 어떨까? 

 

디지털 마케팅 시대가 도래하면서, 최근 몇 년간 꾸준히 인용되며 이제는 다소 식상한 느낌을 주는 단어가 있다. 바로 ‘빅데이터’다. 얼마 전만 해도 마케팅 전략을 좌지우지하던 분야는 바로 ‘심리학’이었다. 하지만 최근 스마트폰이 보급되고 디지털 기술이 혁신되는 등 큰 발전을 지나오며, 대량의 데이터를 가용하기 아주 적합한 시대가 되었다. 그에 따라 ‘빅데이터 마케팅’ 전략이 심리학의 원리보다 더 설득적으로 받아들여지는 추세다. 위치 정보, 구매 패턴, 거래 정보 등 방대한 양의 데이터 중 필요한 데이터를 추출하여 분석을 거치고, 앞으로의 미래를 예측하여 마케팅 전략 설계에 활용한다는 것이다.

 

하지만 최근 몇 학자들은 이런 ‘빅데이터 마케팅’에 부정적 의견을 표시하고 있다. 하버드 대학교 교수이자 저명한 데이터 과학자인 캐시 오닐은 데이터를 잘못 활용하면 대량 살상 무기가 될 수도 있다고 비판한다. 유발 하라리는 ‘사피엔스’라는 책에서 사람들이 ‘데이터 종교’를 믿고 있다고 비꼬았다. 어떠한 이유 때문일까.

 

바로 데이터를 분석하는 ‘알고리즘’ 때문이었다. 사람들은 흔히 인공지능, 머신러닝 등은 중립적이고 객관적이며, 정확하고 과학적이라고 믿고 있다. 그래서 AI가 내린 결론이 답이라고 성급하게 결론 짓는다. 하지만 알아야 꼭 알아야할 것은, 이 알고리즘의 코드를 설정하는 것은 바로 사람이라는 기본적인 사실이다. 1차, 2차, 3차 산업혁명을 간략히 설명하면 사람의 손과 발을 기계가 대체하는 것이다. 4차산업혁명의 다른 점은 바로 사람의 두뇌를 기계가 대체한다는 것이다. 그 기계를 설계하는 데 있어서도 사람의 두뇌가 필요하다. 그렇기 때문에 데이터 선별 과정에서 사람의 고정관념과 오해, 편향성 등이 반영될 수 있다. 양질의 데이터를 가지고 있다 해도, 잘못된 알고리즘을 설정한다면 원하지 않은 결과를 초래할 수도 있다는 뜻이다.

 

잘못된 알고리즘의 대표적 사례로 뉴욕경찰의 ‘범죄자 예측 모형’과 구글의 ‘감기전염률 예측’이 있다.

 

먼저 뉴욕경찰의 사례는 다음과 같다. 뉴욕경찰은 과거 범죄 통계 데이터를 토대로, 범죄자를 미리 예측하여 범죄 발생 가능성이 가장 큰 지역에 경찰력을 집중 투입하는 방식을 사용했다. 하지만 얼핏 공정해 보이는 이 알고리즘의 약점은 금융인이나 부자의 중범죄는 거의 잡아내지 못하고, 가난한 자의 경범죄만 잡아낸다는 것이다. 범죄의 대부분을 경범죄가 차지하고 있었기 때문이다. 그래서 노숙자의 구걸과, 미성년자의 음주, 소량의 마약판매 등을 시시콜콜하게 걸러내며 특정 지역만 더욱 더 우범지역으로 낙인 찍었다. 따라서 그 곳에 더 많은 경찰력을 투입하며, 더 많은 경범죄를 찾아들이는 꼴이 되었다. 한 예로, 14세부터 24세의 흑인/라틴계 청년들은 뉴욕 전체 인구의 4.7%에 불과하다. 하지만 뉴욕경찰의 불심검문을 받은 피검문자 비율의 40.6%이나 차지했다. 그 중 90%는 죄가 없었다. 캐시 오닐은 “경찰 활동 자체가 새로운 데이터를 생산하고, 이 데이터가 다시 더 많은 경찰 활동을 정당화한다”며 잘못된 알고리즘 때문에 ‘부정적 피드백 루프’가 작동하고 있다고 강하게 비판했다.

 

다음은 구글의 사례다. 구글은 ‘구글트렌드’를 이용해서 미국 내 감기전염률을 예측해왔다. 상당 부분 예측이 맞아떨어졌고, 네이처 학술지까지 실리며 위용을 떨쳤다. 하지만 구글은 2013년에, 실제보다 약 2배나 초과 예측해버리는 어마어마한 오류를 범했다. 예측이 어긋난 가장 큰 이유로 꼽히는 것은 바로 2012년 미국에서 발령한 ‘독감 비상’이다. 따라서 감기에 걸리지 않은 사람들조차 감기 관련 검색을 더 많이 하게 되었고, 구글트렌드는 이 수치를 오해하여 감기 전염률을 과대 측정해버리고 만 것이다. 이 발표가 알려지면서 구글은 크게 망신을 당했다.

 

위의 두 가지 사례를 통해, 빅데이터 바로 그 자체가 마냥 알아서 똑똑하게 움직이고 있다고 생각하면 안된다는 사실을 깨달아야 한다. 두 사례는 빅데이터를 마케팅 전략으로 활용하는 데 있어서도 충분한 교훈이 될 수 있다. 빅데이터의 최종 장애물은 바로 사람이라는 것. 정량적 데이터 너머에는 고객들이 있다. 또한 그 데이터를 분석하고 활용하는 것도 사람이다.

 

예전보다 더욱 방대한 접점을 찌르고 있지만 그 메시지가 뾰족하지 않다면, 반대로 메시지가 뾰족하고 치밀하지만 엉뚱한 곳을 찌른다면 무슨 의미가 있을까? 공허한 커뮤니케이션으로, 단순 스팸으로 취급되며 예산이 낭비될 뿐이다. 그렇기 때문에 방대한 정보 속에서 진정성 있는 데이터를 잡아내는 인사이트, 올바른 목표로 알고리즘을 설정하고 전체 흐름을 꾸준히 감사(監査)하는 운영이 중요하다. 바로 4차산업혁명을 준비하는 ㈜아이뱅크의 역할이기도 하다.

 

다음은 최소한 데이터를 다뤄야 하는 기업의 관리자들에 대한 하버드비즈니스스쿨의 토마스 H. 데이븐포트 교수의 조언이다.

 

  

▲어떻게 문제를 정의할 것인가

▲무엇이 당신에게 필요한가

▲빅데이터를 어디서 가져올 것인가

▲데이터를 공급받는 모델 뒤에 무슨 가정을 설정할 것인가

▲모델은 현실과 얼마나 다른가

 

 

참고.

- 캐시 오닐의 <대량살상수학무기>

- 토마스 H. 데이븐포트의 시대 인간과 일>

- Dublineryh의 포스팅 <빅데이터는 실패하였다? 빅데이터의 가능성과 한계>