설득력 있는 의사결정을 위한 데이터 시각화 Tool Tableau (1)
2023. 8. 24. 18:43ㆍIT 라이프/패캠 데이터분석 부트캠프 9기
반응형
1. 데이터 시각화의 필요성
- 시각화는 데이터 분석의 최종 단계이다
- data science lifecycle
- business understanding : 상사의 지시가 모호할 때, 무엇을 할지 문제 정의를 명확하게 함
- data mining : 필요한 데이터 가져오기
- data cleaning : garbage data 처리 단계
- EDA : 평균, 분포 등 확인
- feature engineering, modeling
- 데이터 시각화 : 결과를 전부 wrap up
- 결국 앞단에서 데이터분석을 아무리 잘했더라도, 시각화로 표현한 결과를 보고나서 사람들이 '무슨 말을 하는지 모르겠다'고 하면 설득에 실패했다고 보아야 함. 설득하기 위한 목적이 있기에 이해하기 쉬워야 하고, 정확해야 하며, 심플해야 함.
- data science lifecycle
- 내가 focusing을 원하는 정보와 보는 사람들이 듣고 싶어하는 정보에 집중할 수 있도록 도와줌-클리어하게 확인하니 서로가 편안함
- 한눈에 정보를 파악하기가 용이함
- 예시로 방대한 데이터를 담고 있는 엑셀 표로는 한눈에 정보를 파악할 수 없지만, 이를 지도나 그래프 등으로 시각화하여 정보를 효과적으로 전달할 수 있음
- 또 다른 예시로 통계값(평균, 중앙값, 표준편차)이 모두 같아도 시각화해서 확인해보면 양상이 다르게 나타나는 경우가 있음
2. 태블로의 핵심 개념
⌘ 차원과 측정값
- 테이블을 열면 왼쪽에 차원과 측정값으로 태블로가 자동으로 나눈 컬럼들이 생김
- 선을 기준으로 위쪽 컬럼은 차원, 아래쪽 컬럼은 측정값
- 태블로가 자동으로 나눈 것이므로 맞지 않는 컬럼이 있다면 자유롭게 드래그&드롭으로 옮길 수 있음
- 차원은 보통 값이 아닌 범주형 데이터에 해당하는 경우가 많음
- 차원과 측정값은 각각 대부분이 불연속형, 연속형처럼 보여지지만, 꼭 그렇진 않음. 각각 연속형과 불연속형을 모두 가질 수 있음
⌘ 연속형과 불연속형
- 연속형과 불연속형을 구분할 수 있는 방법
- 초록색은 연속형, 파란색은 불연속형임을 알 수 있는 지표가 됨
- 날짜형 컬럼의 경우, 연속형/불연속형을 선택하여 사용가능함
- 날짜형(time까지 들어간 경우에도 같음)은 잘 보면 column에 얹었을 때 + 기호를 확인할 수 있는데, 클릭하면 구조적으로 더 하위에 있는 값으로 쪼개짐(year > quarter(분기) > month > day 순)
- 구조적이기 때문에 불연속형으로 선택한 날짜는 주의해서 사용해야 함
- 예를 들어 year > quarter > month로 펼친 후, year, quarter를 날려버린 경우 month만 남는데 만약 4년치 데이터가 있었다면, 1~12월로 표시된 값이 있을 때, 그 숫자가 의미하는 것은 4년치 각 월의 합계에 해당함(물론 집계가 sum인 경우에)
- 연속형으로 선택된 날짜형의 경우, 구조상 하위 값인 경우, 자동으로 상위 개념을 포함하고 있음
⌘ Level of Detail
- 측정값을 시트에 올리면 기본적으로 집계를 하므로, 태블로의 작업 순서상 그 다음은 집계값을 어느 정도까지 잘게 나눠서 볼 것인지를 정하는 것이며, 이 부분에 해당하는게 Level of Detail.
- 그럼 어떤 Level of Detail로 볼지를 결정해야 하는데, 이건 상대적인 것이며, 무엇보다 목적이 무엇이냐, 무엇을 분석할 것이고 무엇을 보여줄 것인지에 따라 얼마든지 쪼개는 정도가 달라지게 됨(요리에서 무를 써는 정도에 비유)
- 조심할 부분은, Level of Detail이 생긴 이후(예를 들어 총 매출액이 아니라 카테고리별/서브 카테고리별 등으로 쪼갠 매출액을 보고 있는 경우), 집계값에 해당하는 컬럼들을 변수로 사용하여 계산한 값을 새로운 컬럼으로 붙일 수 있는데, 식을 만들 때 자신이 의도한 순서대로 작동하여 나온 값인지 확인할 필요가 있음(row별로 계산을 먼저 수행한 후 집계 함수가 작동하게끔(의도하지 않은) 작성될 가능성이 있기 때문)
⌘ 4가지 종류의 계산(calculation)
- 행(row) 수준 계산 - Level of Detail에서 주의해서 써야 한다고 한 부분과 연관된 내용
- 집계(aggregation) 계산
- (퀵)테이블 계산
- LOD 표현식
⌘ 대시보드
- 바둑판식 vs 부동
- 바둑판식: 드래그&드롭시 자동으로 대시보드를 꽉 채워서 구성할 수 있으며, 필요시 길이, 높이는 드래그로 자유롭게 변경 가능
- 부동: 자유도가 높고, 일일이(세세하게) 사용자가 조정하는 방식으로 원하는 게 딱히 있지 않다면 여기서 힘을 뺄 필요 없이 바둑판식을 사용하길 권장
- 주요 개체
- 빈 페이지를 먼저 삽입하여 버퍼를 확보(맨 마지막에 필요없는 부분(영역)을 삭제
- 텍스트를 상단에 붙여서 제목, 로고, 버튼 등을 넣을 수 있는 영역을 확보 가능
- 가로/세로 컨테이너를 삽입한 후, 그 안에 시트를 드래그&드롭하여 영역을 나눔
- 필터 액션 설정
- 필터 아이콘을 활성화하여 원하는 값으로 필터를 걸어주면 연관있는 다른 시트(대시보드에 함께 얹어져 있는) 유기적으로 필터가 적용됨
- 예시) 4년치 데이터가 들어 있는데, 특정 연도로 필터를 걸면, 나머지 연도가 필터 아웃된 결과들을 확인할 수 있음
- 필터 아이콘을 활성화하여 원하는 값으로 필터를 걸어주면 연관있는 다른 시트(대시보드에 함께 얹어져 있는) 유기적으로 필터가 적용됨
⌘ 스토리
- 스토리는 태블로 내에서 사용하는 PPT와 같은 개념에 해당하며, 장표로 앞서 만든 시트, 대시보드를 모두 얹을 수 있음
정리
태블로는 시각화하는 툴 중 한 가지 방법인데, 이걸 활용해서 얻고자 하는 것은 효과적인 의사소통이다.
분석한 데이터를 명확하게 표현함으로써, 상대방을 설득하고자 하는 명확한 목적이 있다.
내가 데이터분석을 진행한 후 마지막 단계로 시각화를 하기 위해 이 툴을 사용한다고 생각해보니 각 그래프마다 전달하고자 하는 정보가 명확해야 하고, 그러려면 구성단계에서 고려해야 할 게 많을 것 같았다.
우선, 태블로의 특성이 덩어리 > 쪼개서 보기인 만큼, '어떤 측정값'을 '어떤 차원'(또는 차원의 조합)으로 쪼개어 확인하면 좋은지를 알아야 한다. 이건 처음부터 엑셀의 피벗테이블과 굉장히 유사하다고 느끼긴 했는데, 피벗테이블을 그리기 어렵다면 같은 이유로 태블로도 효과적으로 사용하기 힘들 것이다. 여기서 같은 이유라는 건, 내가 작업의 결과로 무엇을 보고싶은지가 명확하지 않다는 점이다.
그리고 여러 종류의 차트 중 어떤 차트를 사용하는게 가장 효과적일지에 대한 고민도 해본 적이 거의 없어서 당분간은 이렇게 저렇게 좀 들여다보면서 짧은 시간이라도 들여서 내가 느끼기에 가장 효과적인 그래프를 고민해보고 선택하는 과정이 필요하겠다 싶었다.
근데, 개인적으로는 시각화를 구성하는 요소들이 여럿 있을텐데, 그림과 디자인이 전부가 아니라고 생각한다.
설득이 목적이기 때문인데, 예시로 여러 범례들의 추이 그래프가 있다고 할 때, 범례가 많아서든 기울기가 한 눈에 차이나게 보이지 않든 하는 이유로 눈에 의지해서 결과를 해석하는건 충분치 않기 때문이다. 기울기가 가장 가파르게 오르거나 떨어진 범례를 3개 찾는다고 가정했을 때, 가장 정확한 것은 증가율/하락율을 구해서 정렬하여 확인하는게 가장 효과적일 것이다. 따라서 이러한 과정이 모두 포함된 시각화 결과가 그려지고 표현되어야 비로소 목적을 달성할 수 있을 것이라고 보인다.
728x90
반응형
'IT 라이프 > 패캠 데이터분석 부트캠프 9기' 카테고리의 다른 글
설득력 있는 의사결정을 위한 데이터 시각화 Tool Tableau (2) (0) | 2023.08.31 |
---|---|
[mySql 프로젝트] Olist 데이터를 활용한 데이터 분석 (0) | 2023.08.23 |
[데이터 분석 부트캠프] SQL 코딩테스트 준비 (0) | 2023.08.08 |
[데이터 분석 부트캠프] 데이터 분석가 필수 Tool SQL (7) (0) | 2023.08.04 |
[데이터 분석 부트캠프] 데이터 분석가 필수 Tool SQL (6) (0) | 2023.08.03 |