[데이터 분석 부트캠프] 데이터 분석을 위한기초 수학/통계(1)

2023. 6. 23. 19:00IT 라이프/패캠 데이터분석 부트캠프 9기

반응형

고등학교 때 수학, 통계 공부에서 요구하는 것과 지금 배우는 것의 학습내용과 목표가 다르다는 점에 집중했다.

고등학교에서는 정확한 계산, 개념과 정리의 수학적 응용, 문제를 풀기 위한 다양한 계산적 스킬을 배웠지만 적용과 수치에 대한 해석은 전혀 배움의 대상이 아니었다.

이 수업에서는 확률과 통계의 개념을 빠르게 정리하고, 통계적 방법론을 활용하여 분석 기법을 활용할 수 있게 되는 것을 목표로 한다니 흥미와 궁금증이 생겼다.

결국 수업에서 아래의 내용에 집중하면 되는 거다.

  • 기본적인 용어와 개념을 이해하고,
  • 수식 자체보다는 수식에 담긴 직관적 의미를 파악하고,
  • 통계량에 대한 해석을 할 수 있게 되는 것

 

1. 데이터 분석과정과 탐색적 데이터 분석(EDA)

⌘ 데이터 분석의 과정

  • 데이터 분석 기획 ← 문제정의, 비즈니스적 목표가 있음, 데이터 분석으로 풀 수 있는 문제인지 확인
  • 데이터 수집 및 정제 ← 데이터의 정합성, 무결성 등 검증
  • 데이터 분석 모델링
    • 탐색적 데이터 분석(EDA) ← 예) 데이터의 비율 등 모델학습에 영향을 미치는 부분을 확인
    • 모델링 ← 예측을 위한 수학적, 통계적 모델링
  • 평가 및 결론 도출
    • 성능평가는 도메인, 비즈니스적 요구에 따라 기준이 달라지며, 과정을 수정해가며 성능개선
  • 분석 결과의 활용

⌘ EDA

  • 기초적인 통계개념으로 데이터 전체를 파악
  • 데이터의 형질에 대한 도메인 개념 축적
  • 전처리 방향성 제시
  • 데이터가 imbalance한지, 분포 등을 시각화하여 확인하는 것도 포함됨
  • 변수가 가지는 특징을 알고나면(by 통계적 기법), 그 특성에 따라 쓸 수 있는 방법론이 어느 정도 정해져 있음

⌘ EDA 방법 (실습한 부분)

  • 대표값(기술통계량) 확인 by 엑셀 피벗차트, 파이썬
  • 차트로 데이터 탐색 사례
    • 분포를 확인할 때 함께 확인해야 하는 수치
      • 분포의 중심 : 평균, 중앙값(=중위값), 최빈값 등
      • 퍼짐 정도 : 분산, 표준편차, 사분위수, 변동계수
      • 분포의 모양(비대칭성) : 왜도(skewness), 첨도(kurtosis)
    • 히스토그램 : 수치형 변수의 분포 파악
    • 산점도 : 상관관계를 잘 보여줌
      • 팁) 변수 간 상관관계를 보기 위해 상관계수를 뽑아보면 파악이 금방 시각화가 정말 강력함
      • 상관관계가 없는 걸 찾아내는 것도 중요함. 모델학습에 노이즈가 될 수 있으므로 빼는게 좋을 수 있음.
    • Box plot : 결측치, 이상치를 한눈에 잘 보여줌
      • 박스 중간을 가로로 나누는 선 = 중앙값
      • IQR : 1 사분위 수 ~ 3 사분위 사이의 간격
      • 이상치: IQR의 1.5배를 벗어난 수
      • 대부분은 2 사분위 수 ~ 3 사분위 수에 포함된다고 보면 됨 (=박스 안)
      • 이상치는 도메인이나 상황에 따라 버릴 수도, 충분히 현실적인 가능성이 있으니 가져가도 된다고 판단이 달라질 수 있음
       

통계학에서 다루는 방법론이나 기법을 알아야 하는 이유

  • 통계의 종류 2가지
    • 기술 통계
      • 요약된 정보를 담고 있는 통계량
      • 시각화된 데이터를 탐색
      • 관측된 데이터의 특성 파악에 좋은 수단
    • 추론 통계 (기술통계보다 훨씬 많이 사용함)
      • 모집단을 조사하기 현실적으로 어려우니 표본을 바탕으로 모집단을 추론(통계량 관찰, 분석기법 활용)
      • p-value 등을 활용하여 추론의 신뢰도 확보까지
  • 데이터 탐색 과정의 목적
    • 어떤 변수가 결론에 많은 영향을 미치는지
      • 유의미한 변수 파악
      • 변수 간 독립성 확보
      • 의미없는 데이터 제거(효율성, 차원 축소)
    • 변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다름
      • 예) 정규분포를 따르느냐에 따라 사용 가능한 통계적 방법론이 다름
        • t-검정을 통해서 정규분포를 따르는지 알 수 있음
        • 정규분포를 안따르면 Mann-Whitney U test, Kruskal-Wallis test 등으로 분석 가능

 

2. 고등학교 기초통계

⌘ 개념

  • 평균과 그로부터 흩어진 정도
    • 평균(mean) = 산술평균 : 변량의 합을 변량의 수로 나눈 값
      • 평균이 전체를 대표하지 못하기도 하므로 중앙값같은 다른 값도 확인해야 한다
      • 경우에 따라 기하, 조화평균을 사용
      • 예) f1 score는 precision, recall의 조화평균
    • 분산(variance) : 변량이 평균에서 얼마나 떨어져있는지를 보기 위한 통계량
      • 변량 - 평균 = 편차(deviation)
      • 편차는 +,-값이 있으므로 편차의 제곱값들의 평균인 분산을 구하는 것임
    • 표준편차(standard deviation) : 분산의 제곱근
      • 변량의 스케일을 표준화(정규분포와 같이 다른 분포를 정규화하여 변환할 때 기준이 되는 통계량이 표준편차)할 수 있는 좋은 수단
  • 정규분포 to 표준정규분포
    • 정규분포
      • 연속형 데이터 분석에 엄청 사용됨
      • 독립적인 확률변수들의 평균은 (항상) 정규분포에 가까워지더라(중심극항정리)
    • 표준정규분포 (=정규화된 틀)
      • 정규분포 중에서 평균이 0, 표준편차가 1인 정규분포
      • 정규분포를 이루더라도 평균과 표준편차가 전부 다르기 때문에 이걸 표준화하는 것
        • 왜 이렇게 표준화를 해야하지? 비교가 목적인가? ← 아니, 관련된 수치들이 이미 표로 작성되어 있는데 그 표(표준정규분포표)를 참고해서 특정 범위의 값이나 면적을 얻을 수 있기 때문.
    • 표준화(작업) : from 다양한 형태의 정규 분포 to 표준 정규 분포로 변환
      • 다양한 데이터를 균일한 기준으로 비교가 가능해짐(키는 150-190, 몸무게는 20-90, 발 사이즈 등 폭, 스케일이 전부 다르기 때문에 표준화 없이는 서로 비교가 불가능)
      • 이후 다양한 통계량을 구하는 과정에서 계속 등장함
  • 추론통계 이해를 위한 용어정리
    • 모집단 vs 표본
    • 모평균 vs 표본평균
    • 모분산 vs 표본분산
      • 모분산과 표본분산을 구하는 식이 다른 이유 : 모평균(μ)을 몰라 표본평균(x̄)을 사용하기 때문에 이때에는 분모에 n이 아닌 n-1을 써야 모분산(𝜎)에 더 잘 맞더라
      • 엑셀 함수에서도 분산을 구분함 : var.p(population)-모분산, var.s(sample)-표본분산

 

정리

엄청 중요하다고 인식하고 있지만 가장 무서웠던 통계부분...을 연속해서 수업들으니 까먹기 전에 계속 연결되어 도움이 된 듯하다.

동시에 들으면서 의문나는 점도 좀 있었고, 일하면서 썼던 f1 score가 조화평균이었단 걸 완전 잊고 있다가 만나니 반갑기도 했다.

의문나는 점은 기하평균 부분이었는데 이건 칸 아카데미에서 따로 빠르게 설명을 들어봐야겠다.

728x90
반응형