데이터분석 공부하기
기술통계(descriptive statistics) 본문
자료 분석 : 기초 통개 개념
기술통계 분석 (descriptive statistics)
1. 빈도 분포(frequency distribution) : 도수분포표, 히스토그램을 통해 데이터를 간결하게 정리/요약할 수 있다.
- 도수/빈도 분포(frequency distribution) : 각 점수의 출현 횟수를 나타내는 빈도 분포
- 히스토그램(histogram) : 빈도분포의 그래프 version; x-axis : 관측값, y-axis : 각 값의 빈도(출현 횟수)
- 정규분포(normal distribution) : 벨모양 대칭의 빈도분포; skew = 0, kurtosis = 0
-도수분포표/히스토그램으로 분포 특성을 개략적으로 파악할 수 있으나, 두개 이상 집단의 분표 비교에는 적용하기 어렵다.
따라서, 여러 집단 간 분포 특성을 기술하기 위해서 집중경향을 나타내는 대표값, 분산, 왜곡도 등이 사용된다.
2. 중심경향(centeral tendency) : 대표값(representative value); 분포의 중심을 측정/수량화
- 최빈값(mode)
-범주형자료, 데이터가 큰 경우 의미가 있음 - 중앙값(median)
-연속형이며 일부 자료 관심이 있고 자료 왜곡이 있는 경우 사용 - 산술평균(mean)
-극단점수/skew분포 취약, 구간/비율자료만 계산 가능; 중앙/최빈에 비해 모든 자료를 사용, 서로 다른 표본에서 안정
-연속형/그룹 전체 관심(모든 자료 사용)있거나 최빈/중앙 사용 외 모든 경우 산술평균
3. 분산도(variation/ dispersion) : 산포의 측도(measure of dispersion)
- 표준편차(standard deviation, S) : 자료가 평균을 중심으로 얼마나 퍼져 있는지(중심경향성)
- 분산 정도 표시에 가장 유용/일반적 사용 : 중심경향성- 얼마나 중심에 cluster되어있나를 알려줌(클수록 넓은 분산)
- 표본편차 산출 시 n-1 사용 : 더 정확/ 불편의 추정
- 평균간 거리를 구하기 위해 제곱 + 제곱근으로 상쇄, 제곱금을 씌우지 않은 값은 분산(variation, S²) - 변동계수(coefficient of variation) = (표준편차/ 평균)
- 표준편차의 한계: 절대적 척도로 데이터의 종류(측정단위, 사례 수)가 다른 두 집단의 분산비교에는 비적합
(강수량 : A지역(x̅ =10, s = 4), B지역(x̅ = 60, s=4) -> 4의 편차는 상대적으로 어느 곳에 더 큰가?
s로는 알 수 없음 -> 변동계수(A: 0.36(36%), B: 0.07(7%) : A지역에서 더 불규칙하게 내린다.)
- 분산도의 상대적 효과를 백분율로 알 수 있다(x 100을 하면) - 범위(range) : 최고점-최저점; 극단점수에 취약
- 사분위간 범위(interquartile range) : 극단적 자료가 제외된 값도 계산
- lower quartile(25th%), quartile[(Q3-Q1)/2], upper quartile(75th%), 중앙값(second quartile, 제2사분위수) - 상자그림(box plot, box-and-whisker plot) : 중심성향/분산도를 동시에 나타내는 시각적 표현 ㅂ장법
- 1사분위, 중위수, 3사분위, 최대값, 최소값
- 분산수준, 왜곡도(Q1-Q3의 거리내 중위수 위치)
- Outlier : 이상값(Q3로부터 1.5배이상), 극단값(Q3로부터 3배 이상)은 최대/최소값 밖으로 표시
(4) 형태(shape)
- ★ 왜도(skewness,-3 ~ +3) : 자주사용, 0 : 대칭 , +- 0.25 : 미미한 왜곡
1) 분포의 비대칭 정도 측정 2) 정규성(normality) 검정- 첨도(kurtosis, 대칭 = 3) : 자주사용 X ; 1. 분포의 꼬리에 어떤 점수 들이 있는지, 2. 분포가 얼마나 뾰족한지;
- positive kurtosis(양의 첨도): 꼬리가 두껍(heavy-tailed), a.k.a. leptokurtic(고봉/급첨)
- negative kurtosis(음의 첨도): 꼬리가 얇고 평평, a.k.a. platykurtic(저봉/평성/완첨)
- 평봉(mesokurtic) - 상자수염도/상자그림
- 첨도(kurtosis, 대칭 = 3) : 자주사용 X ; 1. 분포의 꼬리에 어떤 점수 들이 있는지, 2. 분포가 얼마나 뾰족한지;
척도 | 명목(nominal) | 서열(ordinal) | 등간/비율(interval, ratio; 비정규) | 등간/비율(interval, ratio; 정규) |
집중경향 | mode | mode or median | median | mean |
분산 | range/ interquartile | range, interquartile, skewness, kurtosis |
standard deviation, skewness, kurtosis |
출처: 고급통계분석론
출처 및 참고 : '앤디 필드의 유쾌한 R 통계학'
'통계' 카테고리의 다른 글
R - graph(ggplot2) (0) | 2022.01.13 |
---|---|
R- Rstudio in Mas OC (0) | 2022.01.03 |
추론통계(Inferential statistics) : 2) 통계모형과 가설검정 (0) | 2021.12.30 |
추론통계(Inferential statistics) : 1) 확률과 모집단 추정 (0) | 2021.12.28 |
기초 연구방법론 (0) | 2021.12.27 |