목록전체 글 (26)
데이터분석 공부하기
이변량(bivariate) 상관 - 상관계수 파악 : 측정 전에 가장 먼저 그래프를 통해서 눈으로 상관관계를 파악한다. - 공분산(covariance) 분산(s²) = Σ(xᵢ - xˉ)²/(N-1) -> 한 변수의 분산 : 점수들이 대체로 평균과 어마나 떨어져 있는가? 교차곱 편차(cross-product deviation) : (한 변수의 편차)X(다른 변수의 편차) = (xᵢ - xˉ)(yᵢ - yˉ) -> 편차의 곱이 양일 경우 (positive correlation), 음일 경우(negative correlation- 두 편차의 방향이 다르다) 공분산(cov(x,y)) = Σ(xᵢ - xˉ)(yᵢ - yˉ)/(N-1) -> 교차곱을 모두 합하여 평균을 낸 것 -> 한 변수의 변화가 다른 변수의 ..
모수적 검정(Parametric test) : 모수 추정을 위한 가정 검정 분포의 정규성(normality) : data in each group should be normally distributed 분산의 동질성(homogeneity) : data in each group should have approx. equal variance; 표본들의 분산이 동일한 모집단에서 비롯되었음 구간 척도(interval data) : 적어도 interval data로 측정되어야 한다. 독립성 : 1) independent groups : data in each group should be randomly and independently sampled from the population, 2) repeated mea..
모수적 검정(Parametric test) : 모수 추정을 위한 가정 검정 분포의 정규성(normality) : data in each group should be normally distributed 분산의 동질성(homogeneity) : data in each group should have approx. equal variance; 표본들의 분산이 동일한 모집단에서 비롯되었음 구간 척도(interval data) : 적어도 interval data로 측정되어야 한다. 독립성 : 1) independent groups : data in each group should be randomly and independently sampled from the population, 2) repeated mea..
* 명목변수의 경우 항상 요인(factor)으로 변수를 등록해야하는 것을 잊지 말자 자료를 시각적으로 표현하여 그 모습을 더 잘 파악한 후, 더 중요한 통계량을 해석해야한다. 좋은 그래프의 조건 (Tufte, 2001) -자료를 잘 보여줘야 한다. -그래프가 제시하는 데이터에 관해 독자가 뭔가 생각하게 만들어야한다 -자료를 왜곡하지 않아야 한다 -최소한의 잉크로 많은 수치를 제시해야한다 -큰 자료 집합들의 일관성을 보여주어야 한다(일관성이 있다면) -서로 다른 자료 조각들을 비교할 수 있게 해야한다. -자료의 숨겨진 본성을 드러내야 한다. 나쁜 그래프의 사례(Wainer, 1984) -y-axis 조정으로 잘못된 인상을 주지 X -무늬, 3차원 효과, 그림자, 비장그림 ggplot2 패키지 (1) qpl..
R_basics 작업 디렉토리(Working directory) - 작업 디렉토리 설정 : setwd("") *R : Misc -> Changing Working Directory(or Command+D) - 현재 지정된 작업 디렉터리 찾기 : getwd() 패키지(Package) : R을 새버전으로 업그레이트 한 것이 아니라면, 설치는 1번, 참조는 매 R세션마다 진행 -설치(install) : install.packages("") *R: Packages & Data -> Package Installer -참조(reference) : library() * 함수의 중의성 : 동일한 함수가 두 패키지에 있는 경우, 패키지 :: 함수로 소속을 명시해야한다. 도움말 기능 : help(함수이름), ?함수이름 *..
연구는 모집단에 some kind of 효과(effect)가 존재하는지 확인하는 과정이다. ex> 효과(effect) : 우울증약을 투입한 모집단과 우울증약을 투입하지 않은 모집단에 차이가 있다(서로 다른 집단이다) Statistical model : 통계모형 통계학의 가장 핵심이 되는 방정식 결과ᵢ = 모형 + 오차ᵢ 통계모형 : approximation of a real data Fitting statistical model to data : 데이터를 가장 잘 대표하는/ 가장 적합한 모형을 선택하는 것/ 모수를 잘 예측할 수 있는 것(예 - 선형모형을 만들기 위해 표본데이터를 사용해서 slope, intercept을 정하는 것) model fit : how well does our model 'fit..
추론통계(inferential statistics) : generalizing from a sample to a population 추론통계는 1) 모집단 추정(estimation), 2) 가설검정(testing hypothesis)으로 나뉜다. Probability : 확률 확률의 개념 추론통계 분석방법의 토대 : 통계 검정에서 표본(조사대상의 일부)만 관측하고도 모집단(조사대상 전체)에 대한 결론을 내릴 수 있는 논리의 근거 (신뢰성/정확성 주장) 어떤 사건(event)이 일어날 확률 - 그 사건이 일어날 확실성(certainty)의 정도 베이지안 정리(Bayes theorem): 조건불 확률 개념을 발전시킨 이론; 표본자료로 모집단을 추론할 방법에 대한 이론 - '우연이라는 원칙으로 문제를 해결하려..
자료 분석 : 기초 통개 개념 기술통계 분석 (descriptive statistics) 1. 빈도 분포(frequency distribution) : 도수분포표, 히스토그램을 통해 데이터를 간결하게 정리/요약할 수 있다. 도수/빈도 분포(frequency distribution) : 각 점수의 출현 횟수를 나타내는 빈도 분포 히스토그램(histogram) : 빈도분포의 그래프 version; x-axis : 관측값, y-axis : 각 값의 빈도(출현 횟수) 정규분포(normal distribution) : 벨모양 대칭의 빈도분포; skew = 0, kurtosis = 0 -도수분포표/히스토그램으로 분포 특성을 개략적으로 파악할 수 있으나, 두개 이상 집단의 분표 비교에는 적용하기 어렵다. 따라서, 여..
사회과학, 특히 심리학 분야의 기초 연구방법론에 대해 다룬다. 연구란 무엇인가? 초기 관측 -> 이론 생성 및 검증 연구방법론을 이해하기 앞서, 무엇이 '연구(Research)'인지 알아야한다. 연구(Research)는 'a detailed study of a subject, especially in order to discover (new) information or reach a (new) understanding'이다. 즉, 우리는 모집단(real world)에 대해 어떠한 궁금증이 생기고, 그것을 분석을 통해 맞는지 확인하고 싶다. 그런데 모든 사람/상황을 조사할 수 없기에, 모집단을 대표하는 표본으로 우리의 질문이 맞는지 확인하고, 그것을 모집단에 '일반화(generalization)'한다. 이..
1. ~ & isin 활용 : m = m[~m['번호'].isin(target)] 2. .loc 활용 (Row별 selection): oil_18 = oil_18.loc[oil_18['휘발유'] != 0, :] unique_count = oil_18.groupby('번호')[['지역','상표','셀프여부']].nunique() target = unique_count.loc[(unique_count != 1).sum(axis = 1) != 0] #행별로 한 개라도 1이 아니면 True반환, 모두 1이라면 False oil_18.loc[oil_18['번호'].isin(target.index)] -특정 column 내 특정 조건을 추출하고 싶은 경우 3. [] = [] 4. drop 5. List Compre..