본문 바로가기

Data Analysis/Scipy4

4. [Python] Chi-Square test 4. [Python] Chi-Square test 1. 카이제곱 검정적합도 검정 : 특정 범주형 데이터가 예상한 분포에 맞는지 확인하는 데 사용.독립성 검정 : 두 범주형 변수 간에 독립적인 관계가 있는지 확인하는 데 사용됩니다.가정독립성 : 각 관찰값은 서로 독립적이어야 함기대빈도 : 각 셀의 기대빈도는 5 이상이어야 함무작위 표본 : 표본은 모집단에서 무작위로 추출되어야 함2. 독립성 검정카이제곱 독립성 검정은 두 범주형 변수가 서로 독립적인지 아니면 관련이 있는지 확인하는 통계적 검정카이제곱 독립성 검정의 핵심은 관찰된 빈도와 기대 빈도의 차이를 계산chi square = sigma (O-E)^2/E (관찰빈도 observed, 기대빈도 expected)카이제곱 값이 클수록 빈도 차이가 크다 -> .. 2022. 10. 8.
3. [Python] Time Series Decomposition 3. [Python] Time Series Decomposition  1. 시계열 분해시계열 분해는 시계열 데이터를 여러 구성 요소로 나누어 분석하는 기법이다. 2. 시계열 분해의 구성 요소시계열 데이터는 일반적으로 다음 세 가지 주요 구성 요소로 분해된다.X = T + S + R추세(Trend): 데이터의 장기적인 변화 방향시계열 데이터에서 이동평균 추출계절성(Seasonality): 일정한 주기로 반복되는 패턴주기가 p인 시계열로 분해 시, 인덱스가 0~p-1인 데이터끼리 모아서 평균을 낸다고 생각하면 된다.잔차(Residual): 추세와 계절성으로 설명되지 않는 불규칙한 변동R = X - (T + S)3. Scipy 코드from scipy import statsfrom statsmodels.tsa... 2022. 10. 2.
2. [Python] ANOVA 2. [Python] ANOVA분산분석(ANOVA) 이해하는 가장 좋은 방법(1)분산분석(ANOVA) 이해하는 가장 좋은 방법(2)참고 자료.1. ANOVA세 개 이상의 집단의 평균을 비교할 때 사용되는 분석평균 대신 분산을 사용하여 검정하는 이유t 검정의 한계 : 3개 이상의 집단에서 각각 평균을 비교하는 경우, 신뢰구간이 변화하여 오류를 범하기 쉬워진다.F통계량을 사용하여 검정한다.F 통계량 : 집단 간 분산 / 집단 내 분산집단 간 분산 : (집단1의 크기)*(집단1의 평균-전체평균)^2 + ...집단 내 분산 : (집단1의 표본-집단1의 표본평균)^2 + ... 이 F 통계량이 클수록 집단 간 평균 차이가 유의미하다고 주장할 수 있다.집단에서 데이터는 집단의 평균에 잘 밀집되어있고, 집단 간 평균.. 2022. 9. 25.
1. [Python] T-test 1. [Python] T-test 1. T test모분산을 알 수 없을 때 사용한다.전수 조사는 비용, 시간 등 현실적인 문제로 사용하기 어렵다.모집단에서 표본을 뽑아서 표본 분산을 사용한다.모분산을 아는 경우에는 z 검정을 사용한다.가정독립성 : 표본들이 서로 독립적으로 추출되어야 함 (무작위 표본추출)정규성 : 데이터와 표본 평균이 정규성을 따라야 함.등분산성 : 비교하는 집단들의 분산이 동일해야 함# Shapiro-Wilk 정규성 검정_, p_value = stats.shapiro(data)print(f"정규성 검정 p값: {p_value:.4f}")# P val이 0.05보다 크거나 같아야함... 귀무가설 : 정규분포를 따른다. 2. 단일 표본 T test한 집단의 평균을 검정할 때 사용하는 방법.. 2022. 8. 29.