Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

데이터분석 공부하기

기술통계(descriptive statistics) 본문

통계

기술통계(descriptive statistics)

Eileen's 2021. 12. 28. 10:13
자료 분석 : 기초 통개 개념
기술통계 분석 (descriptive statistics)

 

1. 빈도 분포(frequency distribution) : 도수분포표, 히스토그램을 통해 데이터를 간결하게 정리/요약할 수 있다.

  • 도수/빈도 분포(frequency distribution) : 각 점수의 출현 횟수를 나타내는 빈도 분포
  • 히스토그램(histogram) : 빈도분포의 그래프 version; x-axis : 관측값, y-axis : 각 값의 빈도(출현 횟수)
  • 정규분포(normal distribution) : 벨모양 대칭의 빈도분포; skew = 0, kurtosis = 0

  -도수분포표/히스토그램으로 분포 특성을 개략적으로 파악할 수 있으나, 두개 이상 집단의 분표 비교에는 적용하기 어렵다.
    따라서, 여러 집단 간 분포 특성을 기술하기 위해서 집중경향을 나타내는 대표값, 분산, 왜곡도 등이 사용된다. 

 

2. 중심경향(centeral tendency) : 대표값(representative value); 분포의 중심을 측정/수량화

  • 최빈값(mode)
    -범주형자료, 데이터가 큰 경우 의미가 있음
  • 중앙값(median)
    -연속형이며 일부 자료 관심이 있고 자료 왜곡이 있는 경우 사용 
  • 산술평균(mean)
    -극단점수/skew분포 취약, 구간/비율자료만 계산 가능; 중앙/최빈에 비해 모든 자료를 사용, 서로 다른 표본에서 안정
    -연속형/그룹 전체 관심(모든 자료 사용)있거나 최빈/중앙 사용 외 모든 경우 산술평균

3. 분산도(variation/ dispersion) : 산포의 측도(measure of dispersion)

  • 표준편차(standard deviation, S) : 자료가 평균을 중심으로 얼마나 퍼져 있는지(중심경향성)
     - 분산 정도 표시에 가장 유용/일반적 사용 : 중심경향성- 얼마나 중심에 cluster되어있나를 알려줌(클수록 넓은 분산)
     - 표본편차 산출 시 n-1 사용 : 더 정확/ 불편의 추정
     - 평균간 거리를 구하기 위해 제곱 + 제곱근으로 상쇄, 제곱금을 씌우지 않은 값은 분산(variation, S²)
  • 변동계수(coefficient of variation) = (표준편차/ 평균)
     - 표준편차의 한계: 절대적 척도로 데이터의 종류(측정단위, 사례 수)가 다른 두 집단의 분산비교에는 비적합
       (강수량 : A지역( =10, s = 4), B지역( = 60, s=4) -> 4의 편차는 상대적으로 어느 곳에 더 큰가?
                   s로는 알 수 없음 -> 변동계수(A: 0.36(36%), B: 0.07(7%) : A지역에서 더 불규칙하게 내린다.)
     - 분산도의 상대적 효과를 백분율로 알 수 있다(x 100을 하면)
  • 범위(range) : 최고점-최저점; 극단점수에 취약
  • 사분위간 범위(interquartile range) : 극단적 자료가 제외된 값도 계산
     -  lower quartile(25th%), quartile[(Q3-Q1)/2], upper quartile(75th%), 중앙값(second quartile, 제2사분위수)
  • 상자그림(box plot, box-and-whisker plot) : 중심성향/분산도를 동시에 나타내는 시각적 표현 ㅂ장법
     - 1사분위, 중위수, 3사분위, 최대값, 최소값 
     - 분산수준, 왜곡도(Q1-Q3의 거리내 중위수 위치)
     - Outlier : 이상값(Q3로부터 1.5배이상), 극단값(Q3로부터 3배 이상)은 최대/최소값 밖으로 표시

(4) 형태(shape)

  1.     ★  왜도(skewness,-3 ~ +3) : 자주사용,  0 : 대칭 , +- 0.25 : 미미한 왜곡
                  1) 분포의 비대칭 정도 측정                2) 정규성(normality) 검정
    • 첨도(kurtosis, 대칭 = 3) : 자주사용 X ; 1. 분포의 꼬리에 어떤 점수 들이 있는지, 2. 분포가 얼마나 뾰족한지;
       - positive kurtosis(양의 첨도): 꼬리가 두껍(heavy-tailed), a.k.a. leptokurtic(고봉/급첨)
       - negative kurtosis(음의 첨도): 꼬리가 얇고 평평, a.k.a. platykurtic(저봉/평성/완첨)
      - 평봉(mesokurtic)
    • 상자수염도/상자그림
척도 명목(nominal) 서열(ordinal) 등간/비율(interval, ratio; 비정규) 등간/비율(interval, ratio; 정규)
집중경향 mode mode or median median mean
분산   range/ interquartile range, interquartile,
skewness, kurtosis
standard deviation,
skewness, kurtosis

출처: 고급통계분석론


출처 및 참고 : '앤디 필드의 유쾌한 R 통계학'