[내용 정리]
1. 추론통계를 배우기 전에
전수조사와 표본조사
- 전수조사 : 모집단의 모든 요소를 조사
- 표본조사 : 모집단의 일부인 표본으로 모집단의 성질을 추정
* 표본조사는 추론통계 방법을 통해 모집단을 추정하는 분석에 기반을 두고 있음
데이터를 얻는다는 것
- 데이터(표본)를 얻는다는 것 = 모집단에 포함된 전체 값으로 구성된 분포에서 일부를 추출하는 것
cf) 모집단분포 : 모집단을 나타내는 분포
- 모집단분포를 특징 짓는 양을 모수 또는 파리미터라 부름 (ex. 모평균, 모분산)
- 확률분포와 실현값
- 확률분포 : 가로축에 확률변수의 값을, 세로축에는 그 확률을 나타낸 분포
- 확률분포 형태를 결정하면, 그 확률분포를 따르는 실현값이 발생하도록 할 수 있음
- 확률분포와 실현값의 관계는 모집단과 표본의 관계와 매우 비슷
- '모집단 = 확률분포', '표본 = 확률분포를 따르는 실현값' 이라 생각해도 무방
- 데이터로부터 그 발생원의 확률분포 추정하기
- "얻은 표본으로 모집단을 추정한다" => "얻은 실현값으로 이 값을 발생시킨 확률분포를 추정한다"
- 모집단분포 모형화
- 모형화 : 현실 세계 모집단분포의 실제 모습은 약간 삐뚤거나 들쑥날쑥 => 정규분포로 모형화 하여 수학적으로 이상적인 분포(모형)로 근사함으로써 다룰 수 있는 형태로 바꿈
- 무작위추출
- 데이터를 얻을 때 모집단에 포함된 요소를 하나씩 무작위로 선택하여 추출하는 방식
- 무작위추출 방법
- 단순무작위추출법 : 모든 요소를 목록으로 만들고, 난수를 이용하여 표본을 정하는 것 / 노력과 시간이 많이 들 때가 있음
- 층화추출법 : 실제로 자주 사용하는 방법. 모집단을 몇 개 의 층(집단)으로 미리 나눈 뒤, 각 층에서 필요한 수의 조사대상을 무작위로 추출하는 방법
- 기타 : 계통추출법, 군집추출법 등
- 편향된 추출로는 올바른 추정이 어려움
- 데이터 얻는 법
- 알고자 하는 대상에 맞추어 모집단을 설정 하면 됨
- 다만, 표본은 모집단에서 추출할 필요가 있으므로, 모집단을 너무 넓게 설정하면 무작위추출이 안 될 때가 있음
- 모집단에 대해 추정한 결과를 어느 정도 일반화할 수 있는가는, 각 분야 고유의 지식(도메인 지식)에 따라 달라짐
추론통계를 직감적으로 이해하기
- 된장국의 맛을 보는 행위는 추론통계와 유사
- 정말로 알고자 하는 것은 국자로 뜬 된장국이 아닌 냄비 안에 든 된장국 -> 정말로 알고자 하는 것은 표본 데이터가 아니라 모집단
- 냄비 안의 된장국을 다 먹고 맛을 조사하기는 어려움 -> 모집단의 모든 요소를 다 조사하는 전수조사는 어려움
- 국자로 뜬 약간의 된장국으로 냄비 안의 된장국 맛을 '거의' 확인할 수 있음 -> 작은 크기의 표본으로도 모집단을 추론할 수 있음
- 국자로 된장국을 뜰 때는 먼저 잘 섞어야 한다 -> 표본을 추출할 때는 무작위로 추출해야 한다.
표본오차와 신뢰구간
모집단과 데이터 사이의 오차 고려하기
- 정말로 알고 싶은 것 = 모집단 평균 μ
- 모집단을 직접 알 수 없으므로 모집단의 일부인 크기 n인 표본을 모집단에서 무작위로 추출하여, 이 표본(데이터)에서 모집단평균 μ를 추정함
표본오차
- 일반적으로 표본평균은 모집단평균 μ과 일치하지 않음
- 즉, '정말로 알고 싶은 것'과 '실제로 손 안에 있는 데이터'에는 '오차'가 생김
이러한 오차를 '표본오차'라고 함. 표본오차는 표본을 추출할 때의 인위적인 실수나 잘못으로 생기는 오차가 아니라, 데이터 퍼짐이 있는 모집단에서 확률적으로 무작위 표본을 고르는 데서 발생하는 피할 수 없는 오차.
- 표본오차는 확률적으로 바뀜
- 표본은 모집단의 성잘과 정확히 일치하지 않고, 확률오차를 수반함
- 표본으로 모집단의 성질을 정확히 알아맞히기는 불가능
- 하지만, 오차에 대해 파고들어 생각하는 것으 중요함 (통계학을 '오차의 학문'이라 해도 과언이 아님)
- 큰 수의 법칙(law of large numbers)
- 표본크기n이 커질수록 표본평균이 모집단평균 μ에 한없이 가까워진다는 법칙
표본오차의 확률분포
- 표본오차의 확률분포를 알면 어느 정도 크기의 오차가, 어느 정도의 확률로 나타나는지 알 수 있음
- 중심극한정리(central limit theorem)
- 모집단이 어떤 분포이든 간에, 표본크기 n이 커질수록 표본평균의 분포는 정규분포로 근사할 수 있다를 의미
- 추정량
- 모집단의 성질을 추정하는 데 사용하는 통계량을 추정량이라고 함
- 일치추정량 : 표본크기 n을 무한대로 했을 때, 모집단의 성질과 일치하는 추정량
- 비편향추정량 : 추정량의 평균값이 모집단의 성질과 일치할 때의 추정량
- 비편향추정량은 매번 얻을 때마다 확률적으로 다른 값이 되지만, 평균으로 보면 모집단의 성질을 과대하지도 과소하지도 않게 나타내는 양을 뜻함
- 표본오차의 분포
신뢰구간이란?
- 오차를 정량화하기 위해, 신뢰구간(confidece interval) 개념 도입
- 신뢰구간의 해석
- 00% 신뢰구간을 해석하면 "00%의 확률로 이 구간에 모집단평균 μ가 있다"
- 신뢰구간은 표본에서 구한 모집단 μ의 추정값을 어느 정도 신뢰할 수 있는지를 나타냄
- t분포와 95% 신뢰구간
- t분포는 모집단이 정규분포라는 가정하에 미지의 모집단 표준편차를 표본으로 계산한 비편향표준편차로 대용하여 표준화한 값
- t분포 자체는 정규분포와 매우 비슷
- 정밀도를 높이려면
- 표준오차에 주목하여, 표준오차를 작게만들려는 노력을 해야함
- 비편향표준편차를 작게하거나, 분모인 표본크기를 크게하는 방법이 있음
- 표준오차에 주목하여, 표준오차를 작게만들려는 노력을 해야함
신뢰구간과 가설검정
- 가설검정은 신뢰구간을 구하는 것과 동전의 양면 관계
[알아야할 키워드]
- 전수조사
- 표본조사
- 확률분포
- 표본
- 무작위추출
- 단순무작위추출
- 층화추출
- 표본오차
- 큰 수의 법칙
- 중심극한정리
- 일치추정량
- 비편향추정량
- 신뢰구간
- t분포
[리뷰]
블로그에 수식이나 그래프를 표현하는게 어렵다. 어려울 수도 있는 내용을 된장국 간보는 것에 비유해 직관적으로 이해하게 구성한 것이 마음에 들었다. 기본적인 통계에 대한 용어들과 설명이므로 앞선 챕터와 같이, 모르는 용어가 있다면 검색하면서 공부하는게 정신건강에 이롭다. 검색이 귀찮거든 ChatGPT에게 설명해달라고 해도 좋을 것 같다.
'대신 공부해드립니다 > 통계101x데이터분석' 카테고리의 다른 글
3장. 통계분석의 기초 (1) | 2024.09.10 |
---|---|
2장. 모집단과 표본 (0) | 2024.09.08 |
1장. 통계학이란? (1) | 2024.09.07 |
댓글