[내용 정리]
1. 데이터 유형
모집단과 표본
- 전수조사 대상인 모집단이든, 또는 통계적 추론의 표본이든, 모두 데이터로 취급하여 분석한다.
변수
- 변수 : 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값
- 변수의 개수는 '차원'이라 표현되기도 함
다양한 데이터 유형
- 변수의 유형마다 분석 방법이 달라지기 때문에, 데이터를 수집할 때나 분석을 할 때는 변수가 어떤 유형인지 주의 깊게 고려해야함
- 양적변수 (수치형 변수) : 숫자로 나타낼 수 있는 변수
- 이산형 : 얻을 수 있는 값이 점점이 있는 변수 (ex. 주사위 눈의 값, 정수, 횟수, 사람 수 등)
- 연속형 : 간격없이 이어지는 값으로 나타낼 수 있는 변수 (ex. 키, 몸무게)
- 질적 변수 (범주형 변수) : 숫자가 아닌 범주로 변수를 나타낼 때, 이를 질적 변수 또는 범주형 변수라 함
- ex. 예/아니오, 동전의 앞/뒤 등
2. 데이터 분포
그림으로 데이터 분포 표현하기
- '데이터가 어떻게 분포되어 있는지'를 그래프 등으로 시각화하여, 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계
- 일반적으로 도수분포포(히스토그램) 사용
- 이산형 양적 변수의 히스토그램
- 연속형 양적 변수의 히스토그램
- 범주형 변수의 히스토그램
cf. 이미지는 생략한다. 교재를 참고할 것
히스토그램은 그림으로 나타낸 것일 뿐
- 따라서, 데이터에 대해 다양한 계산을 수행하고, 수치적으로 다루는 통계분석이 필요
- 히스토그램을 통한 시각화와 수치적인 분석 결과 모두를 이용하여 상호보완적으로 데이터를 바라보아야 한다.
3. 통계량
데이터 특징 짓기
- 기술통계량(요약통계량) : 데이터 그 자체의 성질을 기술하고 요약하는 통계량 (ex. 평균)
- 통계량과 정보 : 1개 또는 몇 개의 통계량으로 요약한다는 것은, 데이터에 있는 정보 중 버리는 부분이 있다는 것을 의미한다.
다양한 기술통계량
- 대푯값(representative value) : 대략적인 분포 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량
- 평균값(mean)
- 중앙값(median) : 크기 순으로 값을 정렬했을 때 한가운데 위치한 값
- 최빈값(mode) : 데이터 중 가장 자주 나타나는 값
- 분산과 표준편차 : 데이터의 퍼짐 정도를 나타내는 값
- 분산(variance)
- 표준편차(standard deviation)
분산을 확인할 수 있는 상자 수염 그림
- 상자 수염 그림(box-and-whisker plot)
- 분포를 시각화하는 다양한 방법 : 오차막대, 상자수염그림, 바이올린 플롯, 스웜플롯 등
이상값
- 평균값에서 표준편차의 2배 또는 3배 이상 벗어난 숫자를 이상값으로 봄 (명확한 정의는 없음)
4. 확률
확률을 배우기 전에
- 통계학에서는 확률론이 중요, 다만, 우선 개념을 잘 이해하는 것으로 충분
- 전공이나 전문가가 되려면 계산할 줄도 알아야함
확률의 기본 사고방식
- 확률 : (발생 여부가) 불확실한 사건의 발생 가능성을 숫자로 표현한 것
- 확률변수
- 실현값
- 확률분포
- 확률밀도함수
추론통계와 확률분포
- 현실 세계의 모집단을 수학 세계의 확률분포로 가정하고, 표본 데이터는 그 확률분포에서 생성도니 실현값인 것으로 가정하여 분석 진행
- '모집단과 표본 데이터' 처럼 다루기 어려운 대상이 '확률분포와 그 실현값'처럼 다룰 수 있는 대상으로 치환됨
- 기댓값
- 분산과 표준편차
- 왜도와 첨도
확률변수가 2개일 때
- 독립
- 조건부확률
5. 이론적인 확률분포
확률분포와 파라미터
- 이론적인 확률분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(parameter, 모수)를 가짐
- 파라미터를 알면 확률분포의 형태를 알 수 있음
정규분포
- 통계학에서 가장 자주 등장하는 중요한 확률 분포 = 정규분포 (normal distribution) = 가우스 분포(Gaussian distribution)
표준화
- 평균 0, 표준편차 1로 변환하는 것. 이를 표준화라고 하며, 변환된 새로운 값은 z값이라고 부름
다양한 확률분포
- 균등분포, 이항분포, 푸아송분포, 음이항 분포, 지수분포, 가우스 분포 등
[알아야 할 키워드]
- 변수
- 양적변수
- 질적변수
- 히스토그램
- 기술통계량
- 대푯값 : 평균값, 중앙값, 최빈값
- 분산
- 표준편차
- 상자 수염 그림
- 이상값
- 확률
- 확률분포
- 왜도와 첨도
- 파라미터
- 정규분포
- 표준화
[리뷰]
데이터분석과 통계학을 다루는 모든 책들이 그렇듯, 급발진하는 챕터라는 생각이 든다. 하나하나 차근차근 잘 설명하다가, 이제 데이터를 보고 분석을 곧 해야한다는 생각이 들었는지, 기초적인 통계용어들을 잔뜩 때려박는다. 필요없는 용어가 없긴하지만... 그렇게 이해못할 내용도 아니지만, 막상 이해해도 어따 쓰지 싶을 수 있어, 일단은 알아야할 용어들만 정리했다. 모르는 용어가 있다면, 검색하면서 공부하는게 정신건강에 이롭다.
이상치, 혹은 이상값이라고 불리는 건 실무에서 매우 중요하다. 나는 보통 '튀는 데이터'라고 표현하는데, 정상적으로 볼 수 없는 이상한 데이터들을 이상치라고 부른다. 이런 이상치는 굉장히 예외적인 케이스로 왜 발생했는지, 혹은 왜 측정되었는지 확인해보는 것이 중요하다. 통계학이나 데이터분석에 담지 못하는 실무적인 인사이트를 담고 있을 확률이 높다 정도로.. 정리해두자.
'대신 공부해드립니다 > 통계101x데이터분석' 카테고리의 다른 글
4장. 추론통계 ~ 신뢰구간 (1) | 2024.09.18 |
---|---|
2장. 모집단과 표본 (0) | 2024.09.08 |
1장. 통계학이란? (1) | 2024.09.07 |
댓글