2020.11

이달의 이슈

알고 보면 가까운 빅데이터

글 : 이선형 퍼포먼스바이TBWA 데이터 과학자

빅데이터라는 단어는 일반인들도 이해하고 사용하는 익숙한 단어가 되었다. 이 익숙함은 실제 빅데이터를 접하거나 다룬 경험에서 비롯되기보다는 많은 곳에서 ‘빅데이터’라는 단어 자체를 노출하는 횟수가 많아졌기 때문이다. 실제로 데이터 관련 직무가 아닌 경우 빅데이터의 실체나 내용을 직접 보거나 접하는 일은 드물다. 그렇다면 빅데이터는 왜 이렇게 자주 언급되기 시작했을까?
정보화 시대라는 표현에서 그 ‘정보’는 데이터를 의미하다 보니 이때부터 데이터의 중요성이 크게 부각되었다. 그리고 스마트폰의 보급, 4차 산업혁명의 시대가 도래하면서 데이터 수집이 가속화되고 활용 방법도 발전하고 있다. 이렇게 수집된 데이터의 양은 방대하고, 숫자를 비롯하여 문자나 영상 등 데이터의 종류도 다양하다. 우리는 이러한 데이터를 빅데이터라고 부른다. 그리고 이러한 빅데이터는 많은 부분 우리들의 일상생활 속에서 수집된다. 포털사이트에서 검색할 때 노출되는 블로그나 카페 글, 온라인 뉴스 글, 스마트폰에 저장된 영상과 사진, SNS에서 남긴 많은 대화 등 일상 생활의 자취나 정보가 모두 빅데이터이다. 개인이 남기는 데이터가 모여 빅데이터가 되기도 하고, 여러 사람의 자취가 모아져 빅데이터가 되기도 한다. 예를 들어 고속도로의 통행량이나 CCTV 자료, 대형 마트의 매출 데이터 등 그 종류도 다양하다.
최근에는 좀 더 개인화된 빅데이터에 집중하는 경향이 있다. 여러 개인의 집계 데이터는 활용하기에 한계가 있어 한 개인이 남기는 여러 데이터를 연결하는 방법과 그 활용에 많은 기술과 전문성이 현재 가장 뜨거운 관심이다. 특히 스마트폰의 보급으로 인해 앱(애플리케이션) 활용이 많아지면서 개인화 빅데이터 수집과 분석에 대한 비즈니스 분야에서의 니즈(needs)가 높아지고 있다. 개인이 남긴 다량의 데이터를 분석하여 타겟 광고나 비즈니스 전략에 활용하기도 하며, 구매할 상품을 미리 예측하여 추천하거나 단골 고객이 될 가능성도 계산할 수 있다. 우리가 웹이나 앱에서 접하는 많은 광고들은 빅데이터 분석 결과의 산물일 수 있다.
빅데이터는 기존의 수집된 데이터로부터 미래를 예측하기 위해 주로 활용되지만 빠른 변화를 포착하거나 기존과는 다른 변화에 민감하게 대응하기에는 한계가 있다. 빅데이터 내에 있는 예외적이거나 특수한 내용은 분석 과정이나 결과에서 잘 드러나지 않으므로 일반적이거나 보편적인 분석 결과가 대부분이다. 때문에 혁신과 창의적인 전략을 위해서는 개인화된 스몰데이터(small data)를 통해 차별화된 특성을 찾는 분석 방법이 더 유용하다. 마치 빅데이터가 다수결의 원칙과 유사하여 안정적이고 보편적인 특성 정보를 예측한다면 스몰데이터는 창의적인 소수의 의견으로 변화를 위한 전략에 활용될 수 있는 것이다.
빅데이터가 처음 관심을 많이 받았던 때에는 스몰데이터가 전통적인 데이터 접근 또는 활용 방식이고 빅데이터를 활용하는 것이 최신의 기술인 것으로 인식되었다. 그러나 최근에 초개인화, 초지능 등 빅데이터 분야에서도 개인화 바람이 불고 있어 스몰데이터의 접근 방식이 다시 중요하게 거론되고 있다. 사실 빅데이터와 스몰데이터 모두 하나의 데이터 내에 속하며, 어떻게 접근하고 무엇을 분석할 것인가의 차이일 뿐 활용하는 데이터 자체가 다른 것은 아니다. 그리고 보다 정확하게는 데이터를 ‘잘’ 활용하기 위해서는 빅데이터와 스몰데이터 접근 방식이 모두 필요하다는 것이다.
빅데이터 시대에 스몰데이터가 중요한 이유는 창의적이거나 전략적 유용성이 크기 때문만은 아니다. 예를 들어 온라인 뉴스에서 특정 정치인에 대한 비판이 쏟아지기 시작했다고 가정하자. 뉴스에 대한 기사만 분석하면 빅데이터는 그 정치인에 대한 지지도가 낮아졌다고 예측할 것이다. 그런데 사람들이 가장 많이 본 기사의 댓글 분석이나 실제 여론조사로부터 얻은 결과는 그 정치인에 대한 지지율이 크게 감소하지 않았음을 보여줄 수 있다. 이때 빅데이터 분석은 잘못된 결과였을까? 분석이 잘못된 것이 아니라 분석의 대상과 목적이 다른 것이다. 그리고 빅데이터의 분석 결과를 적용할 수 있는 범위에 대하여 고민이 필요함을 보여주는 예시이기도 하다. 한 정치인에 대한 지지도가 뉴스에서의 비난 기사의 양에 비례하는 것이 아니고 개인이 가지고 있는 기준에 영향을 받으므로 다양한 관점에서 평가나 예측이 가능한 시각이 요구된다.
개인화된 데이터의 특성은 단순하게 방대한 양의 데이터가 수집되거나 집계된 것이 아니라 개인의 생활습관이나 행동패턴이 담겨 있다는 것이다. 이러한 특성은 자신도 모르게 노출되는 것이 대부분으로 실제 그 데이터의 당사자인 개인들도 인식하지 못하고 있는 경우가 많다. 필자는 주로 광고회사에서 수집되는 빅데이터를 분석하다가 비즈니스 전략 방향을 수정하기 위한 특수한 목적으로 앱 데이터 분석을 요청 받은 적이 있다. 이 기업이 제공한 데이터는 빅데이터이면서 개인화 된 데이터로 한 개인이 앱을 사용한 기록이 시간순으로 모두 축적되어 있었다. 실제로 이 기업은 주기적으로 앱 사용자들에게 설문조사를 진행하여 서비스를 개선하거나 전략수립에 활용하고 있었지만 VOC(Voice of Customer)로부터 개선할 수 없는 문제들이 여전히 존재했고, 이를 위해 데이터 분석을 의뢰한 것이다.
이 엔터테인먼트 앱이 가진 고민은 크게 세 가지였다. 첫 번째는 앱을 설치하고 일주일만에 삭제하는 사람들이 많았는데, 이들은 이미 앱을 삭제하여 VOC 대상에서 제외되어 이유나 원인을 찾기 어려웠다. 두 번째, 이 앱의 콘텐츠를 소비하기 위해서는 유료결제가 필요했는데, 유료결제로 넘어가는 데 있어 중요한 행동이나 서비스가 무엇인지 찾지 못했다. 마지막으로 매출에 영향을 주는 요인을 모르고 있었다. 필자는 먼저 이 앱 사용자들의 일반적인 사용방식이나 행동패턴을 보기 위해 빅데이터 분석을 진행하고, 사용자들을 특정 그룹으로 구분하여 각기 다른 접근방식을 활용하였다.
빅데이터와 스몰데이터를 모두 활용한 분석결과는 앱 삭제를 하는 사용자들이 주말에는 잘 방문하지 않고, 앱 설치 후 3일까지는 잦은 방문을 하는 반면, 콘텐츠 탐색의 범위가 좁다는 것을 알려 주었다. 특히 스몰데이터 분석에서는 추천된 콘텐츠와 사용자의 선호도와의 일치 정도가 매출에 영향을 주고, 매출이 높은 사용자 사이에서도 마니아와 다양한 취향을 가지는 두 그룹으로 구분됨을 확인할 수 있었다. 사실 우리가 앱을 사용하면서 사용빈도나 사용시간은 스스로 체크가 가능할 수 있지만 나의 취향이 다양한지 또는 로열티 고객인지 아닌지는(멤버십이 없다면) 자기 기록이 아닌 다른 사용자와의 비교를 통해야 알 수 있다. 흥미로운 것은 우리가 소비하는 콘텐츠 데이터로부터 트렌드와 변화를 측정할 수 있다는 점이다.
스마트폰이 보급된 2015년부터 엔터테인먼트 카테고리의 성장이 두드러졌고, 엔터테인먼트 앱 내 콘텐츠 유형별 비중도 사진이나 동영상에서 음악, 웹툰, 영화, 도서 등 다양하게 변화하고 있다(닐슨코리아클릭, 월간토픽 제285-2호). 특히 코로나19를 경험하면서 영화나 웹툰과 같은 소비형 콘텐츠의 활성화 비중은 작년 대비 약 24% 성장했다(대홍기획, 디지털 마켓 리포트 : 콘텐츠 플랫폼). 이러한 방식의 문화소비는 스낵컬처의 경향으로 평가되지만 여가시간 활용의 새로운 트렌드로 바라볼 수 있다. 앞서 소개한 엔터테인먼트 앱 분석으로부터 알게 된 또 하나의 사실은 콘텐츠의 소비가 단순한 킬링타임(killing time)이 아니라는 것이다. 앱의 사용빈도는 콘텐츠 유료결제와 무관하고 방문해서 머문 시간이 길수록 매출에 긍정적인 영향을 주었다. 그리고 이러한 사용자들에게서 콘텐츠 소비가 한 번에 많이 소비되기보다는 자주 방문하지 않아도 꾸준하게 콘텐츠를 소비하는 패턴이 나타났다. 만약 단순한 시간 때우기를 위해 많은 돈과 시간을 들이는 것이 요즘의 킬링타임 문화라면 얘기가 다르지만 말이다.
디지털 콘텐츠가 없던 과거에 취미를 답해야 하는 상황에서는 독서나 음악감상 등 정해진 보기 중 ‘적당히’ 해본 적 있는 취미를 선택해야 했다. 사실 보기에 없는 취미가 많고, 정말 즐기는 것이 무엇인지(뭐가 취미인지) 고민해 본 적이 많지 않을 것이다. 시간과 정성을 많이 들이고, 사람들이 공감할 수 있을 정도로 알려진 것만이 취미에 포함되는 것은 아니다. 마찬가지로 디지털 콘텐츠 소비가 쉽게 이용할 수 있고 종류가 다양하다고 해서 시간을 때우는 데에 주로 이용되는 것도 아니다. 이러한 경향이 보편적일 수는 있지만 특정 앱 내에서 개인이 남기는 콘텐츠 소비 데이터로부터 취미로 활용하는 사용자와 그렇지 않은 사용자를 구분할 수 있다는 점을 강조하고자 한다. 동영상을 공유하는 플랫폼인 유튜브(YouTube)에서 유튜브 크리에이터라는 직업이 생긴 것처럼 지금의 디지털 콘텐츠 소비가 어떤 특성을 가지고 있고 변화를 가져올지에 대한 답은 개인이 남긴 빅데이터에 있다.
이선형은 한국교육개발원 위촉연구원, 연세대학교 디지털사회과학센터 연구교수를 거쳐 퍼포먼스바이TBWA에서 데이터과학자로 근무하고 있다. 연세대학교에서 데이터마이닝 관련 논문으로 박사학위를 받았고 통계분석과 네트워크 분석, 그리고 데이터마이닝 분석기법을 활용한 연구 경력이 있다. 현재는 비즈니스 서비스 확대를 위한 연구개발을 맡고 있고, 텍스트분석, 트래픽분석, 예측 분석 등 다양한 데이터를 활용하여 분석을 수행한다.

COPYRIGHT©2020 한국문화관광연구원 ALL RIGHTS RESERVED.