국비지원(20)
-
설득력 있는 의사결정을 위한 데이터 시각화 Tool Tableau (2)
1. 차트 그리기 ⌘ 기본차트 바(bar)차트 라인차트 ⌘ 비율차트 파이차트 만들기 측정값 올리기 → 차원 올리기 → 마크-파이차트 선택 → 차원을 마크-색상으로 옮기기 → (각도표현) 측정값을 마크-각도로 옮기기 파이차트의 약점 : 각도를 통해 크기 차이를 확인해야 하므로 직관적이지 않은 차트라는 의견이 많다고 함 cf) 비율 바 차트 : 기준점이 같기 때문에 시각적으로 각도를 보는 것보다 직관적임 비율 바 차트 만들기 바 차트 → 측정값 우클릭하여 퀵테이블-구성비율 cf) 가로 바 차트 내 쪼개서 구성 가로 바 차트 → 차원을 마크카드-색상에 넣기 마크카드에 대한 이해 마크카드 : 측정값을 조각내는 모든 방법을 모아놨다고 생각하면 됨(도구설명 빼고) 레이블 : 차트에 텍스트로 얹기 (N개 얹을 수 있..
2023.08.31 -
설득력 있는 의사결정을 위한 데이터 시각화 Tool Tableau (1)
1. 데이터 시각화의 필요성 시각화는 데이터 분석의 최종 단계이다 data science lifecycle business understanding : 상사의 지시가 모호할 때, 무엇을 할지 문제 정의를 명확하게 함 data mining : 필요한 데이터 가져오기 data cleaning : garbage data 처리 단계 EDA : 평균, 분포 등 확인 feature engineering, modeling 데이터 시각화 : 결과를 전부 wrap up 결국 앞단에서 데이터분석을 아무리 잘했더라도, 시각화로 표현한 결과를 보고나서 사람들이 '무슨 말을 하는지 모르겠다'고 하면 설득에 실패했다고 보아야 함. 설득하기 위한 목적이 있기에 이해하기 쉬워야 하고, 정확해야 하며, 심플해야 함. 내가 focusi..
2023.08.24 -
[mySql 프로젝트] Olist 데이터를 활용한 데이터 분석
mySql 프로젝트가 끝났다. ⌘ 분석에 사용한 데이터 셋 분석에 사용한 데이터는 캐글에 올라와 있는 브라질 이커머스 Olist사의 데이터이다. 원래는 CSV파일들인데, 강사님께서 변환해주셔서 워크벤치에서 바로 import해서 사용했다. ⌘ 분석 과정 브라질의 이커머스, Olist사의 비즈니스 모델 등 배경지식을 조사하는 시간을 가진 후 주어진 테이블들을 검증, EDA하여 이를 발표 및 공유하였다. 아무래도 이 과정에서 결측치 등을 확인하게 되면서 분석에 사용가능해 보이는 컬럼들과 아닌 것들을 판가름하게 된다. 이 과정에서 자연스레(그리고 일정상 EDA도 분석도 각각 하루만에 완료해야 하는 시간적 제약 때문에) 분석 주제가 몇 가지로 추려졌고, 팀 내에서 상의하여 방향을 정해 분석을 진행하였다. 데이터와..
2023.08.23 -
[데이터 분석 부트캠프] SQL 코딩테스트 준비
1. 반복적으로 놓치는 부분 (주의) ⌘ 문제 잘 읽기 출력 부분을 문제의 요구사항대로 넣지 않고 뭐 하나를 빠뜨린다든지, 모든 카테고리가 아니라 지정된 3개 카테고리에 대한 값만 출력하는 부분을 놓친 채 쿼리문을 작성했음 2. JOIN도 결과가 나온다고 아무렇게나 연결하면 안되는 것 같음 ⌘ 문제 16번 제시된 쿼리문과 내가 작성한 쿼리문의 결과값이 달라서 차이를 확인하려고 혼자 좀 파봤다 # 제시된 쿼리문 SELECT CONCAT(CI.city, ', ', CO.country) AS 'Store', ST.store_id AS 'Store ID', SUM(PA.amount) AS 'Total Sales' FROM payment PA JOIN rental RE ON RE.rental_id = PA.ren..
2023.08.08 -
[데이터 분석 부트캠프] 데이터 분석가 필수 Tool SQL (7)
1. 서브쿼리-중급 ⌘ 어렵게 느껴졌던 부분 분석 한 번에 어떻게 작성해야 할지 감이 안오면 divide & conquer를 하라셨는데, 이 부분을 거꾸로 접근해서 계속 길어지는 코드 안에서 길을 잃고, 어디까지 잘되었는지를 반복적으로 보며 시간을 너무 많이 쓰는 경향이 있다고 느꼈다. 가장 작은 조각부터 만들고, 거기에 살을 붙이는 방법이 있겠고, 아니면 큰 조각을 만들더라도 큰 구조만 작성하고, 서브쿼리가 들어가야 할 부분은 비워둔 채로, 해당 부분만 따로 쿼리 작성해서 큰 구조 안에 집어넣는 방식으로 접근하길 반복해봐야겠다. 평균을 막바로 구할 수 있는지, 아니면 그럴 수 없기 때문에 서브쿼리로 먼저 COUNT(*) 등을 집계한 컬럼을 포함하는 테이블을 만들어두고 써야 하는지가 항상 명확하지 않아서..
2023.08.04 -
[데이터 분석 부트캠프] 데이터 분석가 필수 Tool SQL (6)
1. foreign key (제약조건) foreign key는 일종의 제약조건에 해당하기 때문에 데이터를 추가하거나 삭제할 때 ‘데이터 무결성’에 어긋나면 에러를 일으킴 데이터 무결성 = 데이터가 문제없이 잘 들어가 있다는 의미. 즉, 데이터도 순서대로 넣어야 하고, 순서대로 삭제해야 함(그래서 제약조건이라고 하는 것) foreign key를 생성할 때 어떤 테이블을 참조하는지도 명시하는데, 참조대상이 되는 테이블(A)에 없는 key값을 참조하는 쪽의 테이블(B)에서 추가한다거나, 반대로 참조하는 쪽 테이블(B)에는 key값이 남아있는데 참조대상이 되는 테이블(A)에서 해당 key값을 삭제하려고 하면, 결국 동일한 상황이 되고, 같은 이유로 에러를 발생함 2. JOIN JOIN하면, 두 테이블이 오른쪽으..
2023.08.03