국내에는 「청옥불(靑玉佛)」(1989)이라는 제목으로 개봉된 홍콩영화 「급동기협(急凍奇俠)」에는 작은 불상인 청옥불로 작동하는 대륜반이 나온다. 아마 불교 관련 설화에서 차용한 설정으로 보이는데 대륜반 위에 앉으면 과거의 죄악을 조견(早見)해 성불하게 된다는 내용이 있다. 대륜반이 일종의 타임머신인 셈이다. 지금 우리에게도 청옥불과 대륜반에 비유할 수 있는 게 있다. 바로 스마트폰과 유튜브다. 앱·리테일 분석서비스를 제공하는 ‘와이즈앱’의 최근 분석 결과를 보면 한국인이 가장 오랜 시간 사용한 앱은 유튜브로 조사됐다. 월 기준 489억 분을 이용해 2위인 넷플릭스(13억 분)와 엄청난 차이를 보였다. 또한 유튜브에는 일 평균 1억 개의 영상이 올라오며 분당 400시간의 새로운 영상이 업로드되고 있다. 이 덕분에 우리는 스마트폰을 통해 시간과 공간을 초월해 유튜브가 제공하는 무한한 콘텐츠의 바다를 유영함으로써 잠시나마 초월적 존재가 되는 즐거움을 누린다. 
유튜브 알고리즘에 갇힌 사고
하지만 유튜브가 제공하는 이러한 즐거움과 재미 속에서 곰곰이 생각해봐야 할 문제가 있다. 핵심을 한 마디로 요약하면 ‘내 생각이 내 생각이 아닐 수도 있다’는 얘기다. 우리는 유튜브가 제공하는 방대한 양의 콘텐츠를 하나하나씩 처리할 시간과 능력이 없다. 그래서 이러한 한계를 우회하는 좀 더 간편한 방법을 선호한다.
구체적인 방법은 다음과 같다. 기존 신념을 강화·지지·보완하는 현상에 주목해 자신의 신념에 반하는 정보를 무시하는 확증편향(confirmation bias)과 선택적 지각(selective thinking)을 적절하게 활용하는 것이다. 이러한 확증편향은 스스로 한 말과 행동을 추종해 같은 방향으로 생각과 행동을 강화하는 소크라테스 효과(Socratic effect)로 나타난다. 여기에 유사한 신념을 공유하는 협소한 공동체 안의 다른 사람을 추종하는 편승효과(bandwagon effect)로 인해 고착화된다. 유튜브의 신비한 알고리즘의 세계 안에서 확증편향의 고착화 과정은 반복되고 있다. 확증편향에 기반한 선택적 지각은 의사결정의 속도를 높여 하루에도 수천수만 건씩 쏟아지는 정보의 홍수 속에서도 우리가 일상생활을 이어갈 수 있도록 도와준다.
자, 문제는 이제부터다. 선택적 지각은 체계적인 오류 가능성을 높여 예상하지 못한 손해를 안겨주기도 한다. 유튜브 알고리즘 세계에서 확증편향을 통해 얻은 신념을 현실 세계의 의사결정에 적용한다면 어떤 일이 발생할까? 생필품의 구매를 예로 들어보자. 해당 정보가 주어지면 일단 구매하고 제품에 대한 판단은 사후적으로 내릴 가능성이 높다. 일종의 습관적 구매의사결정을 따르게 되는 것이다. 라면 사듯 주식투자를 하면 어떤 일이 벌어질까? (대부분은 그러지 않겠지만) 우리가 유튜브의 추천 알고리즘에 의한 확증편향에 빠져 일상을 살아간다면 큰 문제에 직면할 것이다. 이런 사태를 방지하기 위해서는 어떻게 해야 할까?
데이터 학습의 시대가 도래했다.
통계, 숫자, 그래프에 속지 않고
해독하는 힘이 필요하다.
데이터 리터러시, 어떻게 접근할 것인가
최소한의 데이터 리터러시 역량이 있어야 한다. 우선 내가 알고자 하는 정보를 좀 더 수집하고 인과관계를 제대로 살펴보길 추천한다. ‘정보를 좀 더 수집한다’라는 의미는 다시 두 단계로 구분해 이해할 수 있다. 첫째, 비교할 수 있는 정보를 수집해야 한다는 것이다. 어떤 의약품이 효과가 있다고 판단하려면 단순히 투약 전후로 동일한 환자의 증상 완화 여부를 비교하는 것으로는 부족하다. 그 환자와 모든 면에서 똑같지만 실제 투약은 하지 않고 위약(가짜약)을 제공한 다른 환자의 경과 자료를 비교해야 한다. 둘째, 편향되지 않은(unbiased) 방법으로 관찰 대상의 특성이 제대로 반영될 수 있도록 정보를 수집해 확인해야 한다. 다음으로 인과관계가 있다고 판단하기 위해서는 원인은 결과에 비해 시간적으로 먼저 발생하거나 변화해야 하고, 원인이 변하면 결과도 변한다는 점을 잊어선 안 된다.
마지막으로 결과를 원인 이외의 다른 것으로 설명할 수 없어야 한다. 특히 그저 관찰한 값들이 평균을 중심으로 우연히 오르락내리락 했을 뿐인데 인과관계가 있다고 착각하게 되는 우(愚)를 범하는 경우도 있는데 이 점에 유의해야 한다. 맹수에 쫓기던 원시인이 마침 근처에 있던 높은 나무에 올라 맹수를 피한 후에 그 나무를 숭배하게 되는 것과도 유사하다는 얘기다.
세종대왕의 데이터 경영
과거 조선시대에서도 데이터베이스 구축을 시도해 정책이 집행된 사례가 있었다. 데이터 활용의 선구자는 세종대왕이다. 1430년 세종대왕은 토지세금제도인 공법(貢法)을 시행하기에 앞서 백성들에게 직접 가부를 물었다. 백성과 신하 17만 2천8백6명을 대상으로 조사했는데 이는 당시 전 국민의 3%에 해당하는 수치다. 조사결과 찬성이 9만8천6백57명이었고 반대는 7만4천1백49명이었다고 한다. 찬성하는 사람의 수가 반대하는 사람보다 2만여 명이나 더 많았다.
하지만 세종은 공법을 시행하지 않았다. 데이터의 이면을 먼저 보았다. 지역별 조사 결과를 보면 경기도, 전라도, 경상도, 충청도에서는 찬성이 압도적으로 높은 반면 평안도, 황해도, 함길도, 강원도에서는 반대가 압도적으로 높았다.
세종은 이러한 지역별 편차가 있음을 데이터로 파악했고, 공법의 실시를 유보했다. 사실 토지가 비옥한 지역은 세금이 줄어들 것으로 기대한 반면, 척박한 지역은 소출과 관계없이 세금 부담이 늘어날 수밖에 없다고 판단한 것이다. 철저한 데이터 조사, 수집, 분석을 통해 국가를 통치한 세종대왕의 데이터 경영이 돋보이는 부분이다.이와 같이 데이터 리터러시의 본질은 사물이나 현상을 어떻게 들여다보느냐의 문제다. 데이터의 규모가 중요한 게 아니라 그 정보를 어떻게 접근하고 해석하느냐가 중요하다. 특히 요즘과 같은 정보과잉의 시대에서 빠르고 정확하게 정보의 진위를 파악하고 문제해결의 단초를 마련할 수 있는 힘은 데이터 문해력에서 나온다. 데이터 언어를 다루는 데 도움이 되는 R이나 파이썬 등과 같은 프로그래밍 언어를 기술적으로 다루는 것은 배우면 누구나 가능하다. 하지만 정작 중요한 것은 데이터를 보는 관점과 그 안에 숨겨진 의미를 파악해내는 데이터 해독 능력을 길러야 한다는 점을 잊어서는 안 된다.







