[데이터 분석 부트캠프] 데이터 분석을 위한기초 수학/통계(3)
2023. 6. 28. 18:28ㆍIT 라이프/패캠 데이터분석 부트캠프 9기
반응형
앞서 온라인강의를 들으며 궁금한 부분도 생겼고, 따로 이어 공부할 내용도 생겼고, 들었으나 한 번으로는 충분치 않다고 여겨지는 부분도 생겨서 오늘, 내일 있을 실시간 통계강의가 기대되었다. 좀 더 의욕적으로 임하게 되었달까.
오늘 강의에 앞서 강사님이 얘기하신 개념 정의의 중요성은 나도 항상 공감하던 내용이었는데, 오늘 배우는 것도 개념을 정의하고 이해하는 게 중요한 만큼 더 집중해 듣게 되었다(뭐는 안그러겠냐마는...)
1. 통계학의 개념과 목적
⌘ 통계학
- 모집단의 특성 파악을 위하여
- 표본의 특성을 파악 by 표본을 수집, 정리, 요약, 분석
- 이를 이용하여 모집단의 특성에 대해 추론하는 원리와 방법을 배우는 학문
- 따라서 필연적으로 기술 통계학 → 추론 통계학 순서에 따라 일을 하게 됨
2. 기초 통계
⌘ 모집단과 표본
- 확률 분포표의 column : 확률변수, 확률
- 샘플링 방식의 종류 : 복원 샘플링, 비복원 샘플링
⌘ 변수와 도수
- 변수
- 수치형 변수(Numerical Data) : 측정값이 숫자로 표현되고, 숫자의 크기가 의미를 갖는 자료
- 이산형 자료(Discrete Data) : 양의 정수로 셀 수 있는 자료 (예. 빈도수, 개수, 나이)
- 연속형 자료(Continuous Data) : 연속되는 수치로 셀 수 없는 자료 (예. 키, 몸무게, 온도 등)
- 범주형 변수(Categorical Data) : 숫자로 표현할 수 없는 자료를 집단화하여 나타낸 자료
- 명목형 자료(Nominal Data) : 분류만 하여 값을 부여 (예. 종교, 혈액형, 성별)
- 순서형 자료(Ordinal Data) : 순위나 순서는 있으나 간격은 같지 않아 평균을 낼 수 없음 (예. 평점, 만족도(불만족, 중간, 만족), 학년(1~6학년), 연령(10대~90대))
- 자료형에 따라 사용 가능한 통계 tool이 거의 정해져 있음
- 수치형 변수(Numerical Data) : 측정값이 숫자로 표현되고, 숫자의 크기가 의미를 갖는 자료
- 도수 = 데이터가 나타난 횟수 = 빈도를 숫자로 표현
- 도수 분포는 히스토그램으로 나타냄
⌘ 기초 통계량
- 기댓값
- 아직 얻지 못한 모르는 데이터에도 적용 가능한 평균값 (나올 것으로 기대되는 평균값)
- 기댓값 계산시 변수와 도수를 모두 사용 (도수는 확률로 사용)
- 분산
- 데이터가 ‘평균(기댓값)과 얼마나 떨어져 있는가’를 나타내는 지표로 분산이 클수록 데이터들이 평균값에서 멀리 떨어져 있음
⌘ 정규 분포
- 통계학에서의 대표적인 연속 확률 분포
- 그래프의 면적 = 1
- 특징: 평균값 부근의 확률 밀도가 큼(=평균값 주변에 데이터가 많고 그래서 그래프가 종 모양을 가짐)
- 정규 분포도 다양하게 생겼음(높낮이, 분산 정도).
- 기준을 잡기 위해 다양한 정규 분포 중 평균 0, 표준편차 1인 분포인 ‘표준 정규 분포’를 사용
- 정규 분포를 알아야 하는 이유
- 세상이 정규 분포로 이루어져 있어서.
- 자연 현상, 사회 현상이 정규 분포를 따르고 있으므로, 우리가 정규 분포를 잘 이해하면 우리가 겪는 자연 현상, 사회 현상을 더 잘 이해할 수 있음
- 그렇기 때문에 교과과정에 넣은 것임
3. 이상치 탐색
⌘ 이상치는 반드시 제거해야 하는가
- 정답이 없기 때문에 제거 or 다른 값 대체 or 이상치로 보지만 분석에 포함 or 이상치로 보지 않음 중 하나로 실무 담당자와 분석가가 상황에 따라 결정하게 됨
⌘ 평균, 표준편차로 Z-Score 구하기
- Z-Score : 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지를 나타내는 지표
- Z-Score는 이상치 탐색시 사용하며 데이터가 정규분포일 때 사용했던 것으로 기억
- 하지만 요즘은 정규분포인지 아닌지 따지지 않고 이상치 탐색시 다 IQR로 한다고 함
⌘ IQR (보편적으로 이상치 탐색에 많이 쓰임)
- 사분위 수 : 데이터를 4등분
- IQR(Inter Quartile Range) = 3Q - 1Q
- 양쪽 이상치의 범위
- 이상치A < 1Q - 1.5 * IQR
- 3Q + 1.5 * IQR < 이상치B
- 시각화(box plot)
- box plot에서 이상치가 최대값보다 큰 이유(최소값보다 작거나)
- box plot이 그려지는 순서가 IQR 값 모두 구한 후 이상치 값 두 개를 식에 의해 구한 이후 최대,최소값을 구하기 때문
- box plot에서 이상치가 최대값보다 큰 이유(최소값보다 작거나)
4. 통계적 데이터 분석
⌘ 상관 분석
- 상관 계수 (일반적으로 피어슨 상관 계수를 사용)
- 상관계수 r은 -1 ~ 1의 값을 가짐
- 1에 가까울 수록 정비례 / -1에 가까울수록 반비례 / 0에 가까울수록 관계가 없음
- 상관관계가 있다고 인과관계가 있다고 말하면 안됨(하지만 인과관계가 있는 애들은 반드시 강한 상관관계가 있다)
- 예) 광고비, 매출액이 정비례라 하더라도, 우연하게 같이 올라가는 것일 수도 있음
- 인과관계는 경험적으로 입증하는 수밖에 없음. 다른 변수들을 싹 통제한 상태로 변수 하나만 상관관계를 다시 확인해보는 식으로
- 상관계수 실습
- 지표 중 기간을 추가하셨는데 12월 다음의 1월을 컴퓨터가 몰라서 개월수로 표시한 지표
- 실제 데이터에서는 상관계수가 나오는 경우는 극히 드물다고 함(양이든 음이든)

⌘ t-test
- A/B test (에서 가장 많이 쓰는 기법이 t-test)
- 가설 설정
- 귀무가설(우리가 반박해야 할 주장) : 기존 안이 더 좋다
- 대립가설(우리 주장): 레이아웃을 A안에서 B안으로 바꾸면 conversion이 올라갈 것이다
- 대립가설의 종류 2가지
- 양측검정 : 귀무가설에서 주장하는 값이 "아니라"고 대립가설을 세우는 경우
- 단측검정 : 귀무가설에서 주장하는 값보다 "작다" 또는 "크다"고 대립가설을 세우는 경우
- 예시) 귀무가설: 남학생 평균 신장=170, 대립가설(양측 검정): 170 아니다, 대립가설(단측검정): 170보다 작다 or 170보다 크다
- 가설 검정
- 가설 검정의 기준 : p-value(유의 확률)
- p-value: 귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 ‘같거나 더 극단적인’ 통계치가 관측될 확률
- p-value의 쓸모: 0.05보다 낮으면 유의미하구나 정도 까지만 이해하고 더 가면 안됨(이걸 가지고 무조건 대립가설이 맞다!고는 할 수 없다고 함)
- 가설 검정의 기준 : p-value(유의 확률)
- 가설 설정
- t-test : 두 집단의 평균에 통계적으로 유의미한 차이가 있는지를 검정
- 두 집단은 독립변수가 하나 달랐던 집단일 수도 있고, 비교대상 기간일 수도 있음
- t-test의 시행 단계
- 변수 선택 → F검정 → t-test → 결과 해석
- F검정 : 두 집단의 등분산성(분산이 같은지 여부)을 검정
- p-value가 0.05보다 크면 두 집단의 분산은 같고, 0.05보다 작으면 두 집단의 분산은 다르다
- 귀무가설은 “두 집단의 분산은 같다(차이가 없다)”를 주장하는 거고, 대립가설은 “두 집단의 분산은 다르다(차이가 있다)”를 주장하는 것
- F검정을 해보니 등분산(p-value > 0.05)인지 이분산(p-value < 0.05)으로 나왔는지에 따라 t-test를 어떤 걸 할지가 정해짐
- t-test도 하나의 변수를 제외한 나머지 변수를 통제한다는 전제가 세상에서는 불가능하므로 t-test도 결국 참고만 해야 하고, 너무 의지하면 안됨
- 실습


- 문제01. 19년 상반기와 19년 하반기 매출의 평균에 유의미한 차이가 있는지 검정

- 02. 19년 상반기와 20년 상반기 매출의 평균에 유의미한 차이가 있는지 검정
- 결론: 코로나가 발생한 전/후로 매출액 평균에 유의미한 차이가 있었다 (mean을 보면 매출액의 평균이 꽤 줄어든 것을 확인할 수 있다)

⌘ 회귀 분석
- 단순 선형 회귀 분석
- y = ax + b (이건 엄밀히 말하면 독립변수가 하나이므로 단순 선형 회귀 분석 식에 해당)
- 식 자체가 1차 방정식이고, 선형
- 해석을 위해 확인할 값
- 결정계수( r²(r=상관계수)) = 모델의 설명력
- 유의한 F = 유의확률 : 유의확률이 0.05 미만이면 우리 회귀모형이 유의미하다는 것을 의미함
- 여기서 귀무가설은 ‘모든 회귀계수가 0이다’이고, 우리가 분석한 회귀분석에서의 유의확률이 0.05보다 작으면 귀무가설을 기각하여 회귀모형이 유의미하다는 것을 알 수 있게 됨
- 계수(Coefficients)
- b = Y절편
- a = 기울기
- p-value가 0.05 미만인 경우, 독립변수 x가 y를 잘 설명하는 변수라고 봄
- 산점도 그릴 때 팁
- 분산형 차트, 거품형 차트는 x,y 순서가 중요하므로 데이터를 잡지 말고 그래프를 빈 상태로 열어서 데이터를 삽입하는게 빠르고 깔끔
- y = ax + b (이건 엄밀히 말하면 독립변수가 하나이므로 단순 선형 회귀 분석 식에 해당)
(1.1E-14 : 1.1로부터 왼쪽으로 소수점을 14번 더 간 숫자로서 겁나 작다고 생각하면 끝,
4.0E+07: 4.0으로부터 오른쪽으로 소수점을 7번 더 간 숫자로서 겁나 크다고 보면 됨)
- 다중 선형 회귀 분석
- 해석을 위해 확인할 값
- ‘조정된 결정계수’ = 모델의 설명력
- 수식으로 결정되는 게 결정계수이다 보니, 쓸모없는 변수일지라도 x의 개수가 많아지면 결정계수가 다 높아질 수 밖에 없음. 그래서 조정 결정계수를 사용해야 함
- 유의한 F = 유의확률
- 여기서는 y절편쪽을 보지 않고 p-value 확인 : 0.05보다 작은 독립변수 x는 y값을 예측하는데 도움이 됨
- ‘조정된 결정계수’ = 모델의 설명력
- 해석을 위해 확인할 값
정리
수식을 최소한으로 하고 각 분석을 통해 얻은 수치 중 무엇을 확인하고, 어떤 해석을 얻을 수 있는지를 중심으로 보는 건 유익했다. 하지만 한번에 너무 많은 개념을 보니 앞서 통계책을 대략 한 번 뗐음에도 마치 처음 보는 것 같은 개념들도 많았고, 또 어떤 부분은 설명이 더 필요하단 느낌을 받았다. 그래서 따로 쉬는 시간에 구글링해서 확인하기도 하며 좀 더 이해를 도왔다. 이걸 정말 분석 때 가져다 쓸 수 있으려면 여러번 보면서 익숙해지게 만들어야겠고, 다른 분석들에서 어떻게 쓰이는지도 봐야겠다.
728x90
반응형
'IT 라이프 > 패캠 데이터분석 부트캠프 9기' 카테고리의 다른 글
[데이터 분석 부트캠프] 데이터 분석을 위한 핵심 Tool Python(1) (0) | 2023.06.30 |
---|---|
[데이터 분석 부트캠프] 데이터 분석을 위한기초 수학/통계(4), 시각화 (0) | 2023.06.29 |
[데이터 분석 부트캠프] 데이터 분석을 위한기초 수학/통계(2) (0) | 2023.06.27 |
[데이터 분석 부트캠프] 친근한 엑셀로 실무 엑셀 데이터 분석 시작하기(3) (0) | 2023.06.26 |
[데이터 분석 부트캠프] 데이터 분석을 위한기초 수학/통계(1) (0) | 2023.06.23 |