일상

의사결정의 임팩트를 높이는 데이터 표현법

림밍밍 2023. 12. 1. 16:08

의사결정의 임팩트를 높이는 데이터 표현법 - PUBLY.pdf
7.72MB

크기를 표현하는 법: '얼마나 많은지'

크기는 데이터의 양이나 규모를 나타내는 요소로, 크기를 나타내는 가장 효과적인 방법은 비교입니다. 데이터의 크기를 비교할 때 활용하는 3가지 방법과 예시를 아래와 같이 보여드리겠습니다.

노하우 1. 다른 특성의 데이터와 묶어서 보여주기

다음 사례는 단순 크기를 비교하는 막대그래프입니다. 하지만 우리 회사가 판매량 6위의 회사라는 점은 임팩트가 없습니다. 그렇다면 어떻게 인상 깊게 만들 수 있을까요? 바로 다른 카테고리의 데이터와 묶어 보는 것입니다. 예를 들면, 아래 이미지의 오른쪽 사례처럼 묶어볼 수 있습니다.

 

단순히 '판매량'이라는 1차원의 데이터에서 '회사연혁'이라는 차원을 추가하여 묶어봄으로써, 급격히 성장하는 스타트업이라는 이미지를 줄 수 있습니다. 또는 '직원 수'라는 카테고리를 추가해서 묶어보면, 인당 매출액이 가장 큰 유니콘 기업으로 어필할 수도 있습니다.

 

노하우 2. 데이터를 나눠보고, 메시지를 던지기

앞서 데이터를 묶어서 봤다면, 이제는 나눠서 볼 차례입니다. 제품별 매출액의 일반적인 막대 그래프를 둘로 나눠보겠습니다. 

전체 비중의 대부분(70~80%)을 차지하는 부분과 그 나머지 부분으로 나누었습니다. 그리고 질문을 '왜?'라고 던집니다. 이러한 질문은 보고받는 사람으로 하여금 '왜 A, B, C 제품 매출액이 전체 매출액의 70%를 차지하는 거지?'라고 생각하게 만듭니다. 

 

이렇게 데이터를 보고 생각하고, 상상하고, 이야기에 빠져들게 만드는 기술은 데이터를 살아 움직이게 만듭니다. 보고받는 사람을 집중시킨 다음, 이어서 D제품 ~ I제품의 매출액이 왜 적은지에 대해 분석하고 해결 방안을 제시하면 논리적인 흐름으로 이해시킬 수 있습니다.

노하우 3. 비교 기준 만들기

기준을 넣지 않은 데이터는 보는 사람으로 하여금 다양한 해석을 하게 만들고, 보고가 예기치 못한 흐름으로 흘러갑니다. 따라서 크기를 비교할 때는 '기준'이 있어야 합니다. 데이터의 평균이나 월별 매출액 같은 시계열 데이터인 경우, 전년도 동월 대비 크기, 동종사나 업계의 평균의 크기를 비교해야겠죠? 

위의 분기별 영업이익 보고 사례를 확인해 보겠습니다. 왼쪽의 데이터 분석 결과는 분기별 제품 1과 2의 영업이익을 나타냈는데요. 보고를 받는 사람은 '둘 간의 영업이익을 비교해야 하는 건지' 아니면 '동종사의 유사한 제품라인은 얼마나 벌고 있는지'와 같은 메시지를 바로 알 수 없습니다. 게다가 높다, 낮다를 판단할 수 있는 기준이 없으니 엉뚱한·창의적인 방향의 질문이 나올 수 있습니다. 

 

반면, 오른쪽 그래프에서는 파란색 영역을 지정하여 '목표 영업이익 3억 원'이라는 기준 데이터를 제시해 줍니다. '두 제품의 분기별 실적이 목표를 초과하였다'는 메시지를 줄 수 있습니다. 또한 그 양이 비교가 되어 자연스레 2분기에 제품 2의 영업이익이 저조했지만 3분기에 만회했다는 표현을 할 수 있고, 보고받는 사람도 빠르게 이해하게 됩니다.

 

✅  비교 기준을 표현하는 법 3가지

 

기준을 잡는 방법 3가지를 구체적으로 소개합니다. 

 

① 비교 대상 선점하기

컵 안에 물이 담겨 있습니다. 여러분은 이 컵에 물이 반쯤 차있다고 보시나요? 아니면 반쯤 비어있다고 보시나요? 

데이터도 마찬가지입니다. 앞서 여러분들의 물 컵과 같은 크기의 막대를 우리가 설명하고자 하는 문제의 현상이라고 해볼게요.

 

[경우 1]에서는 비교의 대상을 더 큰 막대로 삼았습니다. [경우 2]에서는 비교 대상을 더 작은 막대로 바꿔봤어요. 그리고 [경우 3]에서는 더 작은 막대와 더 큰 막대를 그리고 평균을 넣었습니다.

결론적으로 옆에 누가 있느냐에 따라서 달라 보입니다. 저는 여기서 [경우 3]이 맞고, [경우 1] 또는 [경우 2]가 틀렸다는 말씀을 드리려는 것이 아닙니다. 설명하고자 하는 목적에 따라 데이터가 달리 쓰일 수 있음을 이해하고, 데이터의 크기를 비교할 때, 비교 대상을 선점하는 것이 중요하다는 것이 요점입니다.

 

② '익숙한 대상'과 비교하기

기준은 듣는 사람이 이해하기 쉬운 대상이어야 합니다. 크기를 나타내는 첫 번째 종류인 면적에는 일반적으로 사람들이 이해하는 크기의 '여의도' 면적 또는 '축구장' 면적이 있습니다. 

 

예를 들어, 산불 면적 데이터의 크기를 우리가 익숙한 여의도 면적과 비교하여 인포그래픽으로 표현하면 다음과 같습니다.

크기에 해당하는 다른 측정 단위는 거리, 시간, 용량 등이 있습니다. 이 데이터들을 아래 표의 오른쪽처럼 익숙한 대상을 기준으로 표현하면, 훨씬 직관적으로 이해되겠죠. 데이터의 임팩트가 늘어나는 것입니다.

③ 시간과 공간을 비교하기

수도권 지역별 주택매매가격 변화율 비교 ©정경문

왼쪽의 지도는 2021년 대비 현시점의 매매가 변화율을 나타낸 데이터 시각화 결과입니다. 2년 전에 비해서 매매가격이 최대 19.5%가량 상승한 것으로 나타납니다. 
 

반면에 오른쪽 지도는 2022년 대비 매매가 변화율입니다. 이는 약 1년 전과 비교한 값으로써, 많은 지역에서 하락한 것으로 나타납니다. 이 두 그래프가 보여주는 분석 결과는 매매 가격이 많이 내려갔지만, 2년 전에 비하면 여전히 오른 수준이라는 것입니다. 그럼 이렇게 표현할 수 있겠죠?

최근 많이 떨어진 주택 매매 가격, 2년 전보다는 여전히 높아

이처럼 시점과 공간을 동시에 비교하면 듣는 이에게 정확히 말하고자 하는 바를 전달할 수 있습니다.

추세를 표현하는 법: '어떤 패턴을 보이는지'

추세는 변화 패턴을 분석하여 미래의 방향성을 예측하고, 데이터가 보여주는 현상에 대한 통찰력을 제공합니다. 데이터 시각화 방법 중에서 가장 선호하고 많이 사용하는 꺾은선 그래프가 대표적인 예죠. 하지만 이런 쉬운 그래프도 잘못 쓸 수 있습니다. 다음은 하나의 실수로 모든 신뢰를 빼앗긴 잘못된 보고서 사례입니다.

©정경문

위 사례는 정부에서 발표한 유치원 수의 증가 데이터를 표현한 그래프입니다. 왼쪽 그래프에서 문제는 무엇일까요? 바로 Y축이 0에서 시작하지 않았다는 점입니다.

 

추세는 '급격히 상승·하락한다' 또는 '완만히 상승·하락한다'라고 표현하는데, 왼쪽의 사례는 0에서 시작하지 않아 완만한 상승 → 급격한 상승으로 데이터의 해석을 바꿔버렸습니다.

 

이처럼 추세를 나타낼 때는 값이 0부터 시작해야 정확히 데이터를 해석할 수 있습니다. 그럼, 이어서 데이터를 추세로 표현할 때 지켜야 하는 법칙을 아래와 같이 소개합니다.

노하우 1. Y축은 0에서 시작하고, 간격은 일정하게

앞서 소개한 잘못된 예는 Y축을 로그스케일로 표현했습니다. 로그스케일이란, 광범위한 수치 데이터를 1, 10, 100, 1,000 단위로 간결하게 표현하는 눈금을 말합니다. 각 요소 간의 크기 차이가 클 때 사용하는데요. 우리 눈은 높이를 직관적으로 인식하기 때문에 오해를 불러올 수 있어 왼쪽과 같은 로그 스케일 Y축 사용은 지양해야 합니다.

©정경문

오른쪽 그래프와 같이 1)Y축은 0부터 시작해야 하고, 2)동일한 Y축 간격은 동일한 크기를 나타내야 합니다. 그래야 비로소 그 변화의 속도 즉, 기울기를 올바르게 비교할 수가 있습니다.

노하우 2. 변곡점과 교차점에서 인사이트 집어내기

그러면 추세를 보는 데이터에서는 어떻게 인사이트를 얻어야 할까요? 결론부터 말해서 '변곡점과 교차점' 2가지만 있으면 핵심을 짚어낼 수 있습니다. 

©정경문

① 흐름이 변화하는 지점(변곡점)을 설명한다.

꺾은선 그래프는 시간에 따른 수치의 흐름을 보여주기 위함입니다. 따라서 동일한 시간에 얼마나 많이 변했는가? 즉 기울기가 많은 정보를 포함하고 있습니다. 추세를 설명할 때는 '빠르게·서서히 증가·감소한다'라는 표현을 씁니다. 특히나 그 그래프의 기울기가 위로 올라가다가(양+) 내려가는 경우(음-)처럼 변하는 지점에 대해서는 라벨을 표시하고 그 이유를 설명합니다.

 

② 둘 이상의 데이터일 때는 관계를 설명합니다. (동반 상승, 동반 하락, 교차점)

둘 이상의 추세 곡선을 사용한다면 어떤 점에서 '만난다·교차한다'라는 말을 씁니다. 해당 부분이 우리가 찾고 있는 지점이며, 언제인지를 강조할 필요가 있습니다. 

 

데이터에 따라 동반 상승이나 동반 하락과 같이 그 추세가 같은 경우를 볼 수 있습니다. 이러한 경우 두 지표 간의 관계에 관해 설명할 수 있습니다. 반면에 서로 교차점을 형성하면서 그 추세가 서로 엇갈리는 경우에 대해서도 표현해 주며, 어느 시점인지, 이유는 무엇인지 설명하면서 인사이트를 도출할 수 있습니다.

 

앞선 예에서 하나의 수치도 그 변화 추세에 따라 다른 인사이트를 도출할 수 있음을 이해했습니다. 데이터의 숫자 하나가 나타내는 의미는 절대적이지 않음을 이해함으로써 평균의 오류 등 데이터 분석에서 빠질 수 있는 오류에서 벗어날 수 있습니다.

 

데이터에서 추세를 파악하는 것은 올바른 인사이트를 얻기 위한 필수적인 과정이자, 정확한 분석 결과를 도출할 수 있는 강력한 도구임을 강조하고 싶습니다.

편차를 표현하는 법: '얼마나 차이 나는지'

다음 중 4개 그래프 중 데이터를 올바르게 표현한 경우는 어떤 것일까요?

©정경문

막대그래프와 히스토그램의 차이를 아시나요? 히스토그램은 막대그래프와 비슷하게 생긴 탓에 잘못 활용하기 쉽고, 편차를 제대로 드러내기 어려운 경우가 많습니다. 그렇다면 히스토그램과 막대 그래프의 차이점은 무엇일까요? 그리려는 대상 데이터의 유형에서 차이가 있습니다.

  • 히스토그램: 나이, 키와 같이 연속적으로 이루어진 데이터
  • 막대 그래프: 회사명, 제품명과 같은 카테고리

따라서 연속적인 판매량 구간에서의 제품 수를 표현한 그래프 ①과 개별 제품의 판매량을 비교한 그래프 ④가 올바로 쓰인 경우입니다. 이어서 아래에서 편차를 제대로 표현하기 위한 3가지 방법을 알아보겠습니다.

편차를 나타내는 대표적인 3가지 방법

① 히스토그램·분포곡선

기본적으로 구간별 빈도를 나타내는 데이터는 앞서 살펴본 히스토그램으로 편차를 표현합니다. 예를 들면 연령대별 연봉 또는 성적별 분포 학생 수 등이 있습니다.

 

연령은 0~10세, 10~20세, 20~30세의 구간으로 나눌 수 있고, 성적도 마찬가지로 70~80점, 80~90점, 90~100점의 구간(X축)으로 나눌 수 있습니다. 보통 구간별 연봉이나 학생 수 같이 크기에 해당하는 값을 Y축에 표현합니다. 이것을 막대로 표현하면 히스토그램, 곡선으로 표현하면 분포곡선(확률밀도곡선)이 됩니다.

 

② 산점도

산점도는 X축, Y축의 상관관계를 표현할 때 사용합니다. 간혹, 오른쪽 예시와 같이 특히 3개의 변수 간의 관계를 표현해야 할 때는 버블 차트를 이용해 보세요. 기존에 표현할 수 없었던 제3의 요소를 표현할 수 있습니다.

©정경문

③ 상자수염그림

2개 카테고리 간의 차이를 보고 싶다면 보통 모자를 벗어놓은 듯한 분포곡선(확률밀도곡선)을 그립니다. 반면에 3개 이상의 카테고리가 정해져 있다면, 상자수염그림으로 표현하는 것이 유리합니다.

 

예를 들면 남녀의 편차는 분포곡선(확률밀도곡선)으로 표현할 수 있지만, 10대, 20대, 30대, 40대처럼 여러 개의 카테고리라면 상자수염그림 방식을 사용합니다. 또한 상자수염그림은 평균, 중앙값, 사분위수, 이상치 등 통계정보를 추가로 담고자 표현할 때 쓰입니다.

©정경문

비율을 표현하는 법: '어디에 집중해야 하는지'

비율은 데이터 간의 상대적인 비교를 위해 사용되며, 두 변수 간의 관계를 파악하는 데 도움을 줍니다. 비율은 주로 백분율, 비율 그래프, 파이 차트 등으로 보고서에 들어가는데요.

 

보고서를 보는 사람은 이 비율을 보고 '어디에 집중해야 하는지'를 결정할 수 있게 됩니다. 그렇다면, 우리의 데이터는 이 결정을 쉽게 할 수 있는 임팩트를 내야 합니다. 어떻게 해야 비율을 보다 임팩트 있게 나타낼 수 있을까요? 

노하우 1. 비율의 변화를 나타내기

다음은 제품별 판매량에 대한 연도별 비율 데이터를 시각화한 결과입니다.

©정경문

매년 제품의 판매 비중이 늘어나거나 줄어든 것을 볼 수 있습니다. 하지만 어떤 제품이 얼마나 비중이 감소하고 증가했는지는 한눈에 알아내기 어렵습니다. 2021년부터 2023년까지 4개의 파이 그래프를 번갈아 가면서 관찰해야지 하나의 인사이트를 찾을 수 있을 정도입니다. 

 

이 그래프에서 말하고자 하는 바가 제목처럼 '연도별 판매량 비율의 변화'이거나, 또는 '제품1의 성장률 변화'라는 부분에 초점이 맞춰져 있다면, 아래와 같이 표현할 수 있습니다.

이러한 그래프를 누적 막대그래프라고 합니다. 누적 막대그래프는 각 구성요소의 합을 1(100%)로 변환하여 각각의 비율을 분석할 때 사용합니다. 여기서 강조하고 싶은 '꿀팁'은 말하고자 하는 타겟의(제품1) 위치를 그래프의 맨 아래쪽에 두는 것입니다. 연도별 제품 1 막대의 크기가 모두 0에서 시작하여 서로를 비교하기 수월하기 때문입니다.

 

이렇듯 비율은 무조건 원 그래프, 파이 그래프로 고수할 필요는 없습니다. 비율의 변화에 대해 표현할 때는 누적 막대그래프를 사용해보세요.

노하우 2. 비율의 비율까지 한눈에 보이도록 표현하기

사실 비율은 단순해서 누구나 이해하기 좋은 데이터 시각화 방법입니다. 하지만 설명한 대로 조각의 개수가 10개 이상이라면 한눈에 이해하기가 어렵습니다. 이럴 때는 데이터의 비율을 큰 조각들로 나누고, 다시 그 조각을 보다 자세히 탐색해 보는 방법을 쓸 수 있습니다. 아래 데이터 분석은 부서별 영업실적을 비교하는 것이 목적인 상황입니다.

©정경문

이때 각 부서별 매출 비중을 비교하기보다는 위와 같이, 대분류-중분류-소분류 순으로 비율을 확대해 가며 보는 것입니다. 이러한 방식을 드릴 다운이라고도 합니다. 비율의 비율을 확인하면서 비율의 크기나 순위를 한 번에 표현하는 기법입니다.

데이터의 생명은 신뢰도

지금까지 데이터별 특성을 파악하여 데이터를 활용하는 4가지 유형별(크기·추세·변화·비율) 표현하는 데이터와 그래프 종류를 아래와 같이 표로 정리했습니다.

©정경문

이제 데이터 분석 결과를 보고서에 작성하실 때, 분석 목적과 분석하고자 하는 데이터의 특성에 맞게 적절한 방법과 그래프를 선택하실 수 있기를 바랍니다. 올바른 데이터 분석 결과를 통해 의사결정자는 쉽게 인사이트를 파악하여 더욱 빠르고 정확하게 의사결정을 내릴 수 있을 것입니다. 

 

마지막으로, 활용한 데이터의 신뢰도까지 챙기는 팁으로 마무리하겠습니다. 데이터 대한 지표명·정의·출처·기준 시점·조사 방법+기간+대상·샘플 크기를 명시함으로써, 데이터 자체에 대한 의심이나 혼란을 방지할 수 있습니다. 또한 통계에 대한 한계점을 인식하고 정확히 데이터를 활용하는 출발점이 될 수 있습니다.

 

아래 체크리스트를 잊지 마시고, 데이터에 신뢰도까지 챙겨서 한 번에 빈틈없는 보고를 하시길 바랍니다.

©정경문

데이터 분석 결과를 처음 경영진에 보고했던 때가 기억이 납니다. 저처럼 아무 정보도,  사수도 없어 막막한 분들을 위해 '임팩트 있는 데이터 분석'이란 무엇인지에 대해 지금도 고민하며 새로운 방법을 꾸준히 연구해 나가고 있습니다. 여러분도 이 글을 토대로 데이터를 정확히 분석하고 표현하는 역량을 키워가실 수 있으실 거라 확신합니다.

👀 바쁘다면 이거라도!

  • 크기: 얼마나 많은지
    • 다른 특성의 데이터와 묶어서 보여주기
    • 데이터를 나눠보고, 메시지를 던지기
    • 비교 기준 만들기
  • 추세: 어떤 패턴을 보이는지
    • Y축은 0에서 시작하고, 간격은 일정하게
    • 변곡점과 교차점에서 인사이트 집어내기
  • 편차: 얼마나 차이 나는지
    • ① 히스토그램·분포곡선: 구간별 빈도를 나타내는 데이터
    • ② 산점도: X축, Y축의 상관관계를 표현할 때
    • ③ 상자수염그림: 3개 이상 카테고리의 차이를 볼 때
  • 비율: 어디에 집중해야 하는지
    • 비율의 변화를 나타내기
    • 비율의 비율까지 한눈에 보이도록 표현하기