본문 바로가기
대신 공부해드립니다/통계101x데이터분석

3장. 통계분석의 기초

by Couldi 2024. 9. 10.
반응형

[내용 정리]

1. 데이터 유형

모집단과 표본

- 전수조사 대상인 모집단이든, 또는 통계적 추론의 표본이든, 모두 데이터로 취급하여 분석한다.

변수

- 변수 : 데이터 중 공통의 측정 방법으로 얻은 같은 성질의 값

- 변수의 개수는 '차원'이라 표현되기도 함

다양한 데이터 유형

- 변수의 유형마다 분석 방법이 달라지기 때문에, 데이터를 수집할 때나 분석을 할 때는 변수가 어떤 유형인지 주의 깊게 고려해야함

  • 양적변수 (수치형 변수) : 숫자로 나타낼 수 있는 변수
    • 이산형 : 얻을 수 있는 값이 점점이 있는 변수 (ex. 주사위 눈의 값, 정수, 횟수, 사람 수 등)
    • 연속형 : 간격없이 이어지는 값으로 나타낼 수 있는 변수 (ex. 키, 몸무게)
  • 질적 변수 (범주형 변수) : 숫자가 아닌 범주로 변수를 나타낼 때, 이를 질적 변수 또는 범주형 변수라 함
    • ex. 예/아니오, 동전의 앞/뒤 등

2. 데이터 분포

그림으로 데이터 분포 표현하기

- '데이터가 어떻게 분포되어 있는지'를 그래프 등으로 시각화하여, 대략적인 데이터 경향을 파악하는 것이 데이터 분석의 첫 단계

- 일반적으로 도수분포포(히스토그램) 사용

  • 이산형 양적 변수의 히스토그램
  • 연속형 양적 변수의 히스토그램
  • 범주형 변수의 히스토그램
cf. 이미지는 생략한다. 교재를 참고할 것

히스토그램은 그림으로 나타낸 것일 뿐

- 따라서, 데이터에 대해 다양한 계산을 수행하고, 수치적으로 다루는 통계분석이 필요

- 히스토그램을 통한 시각화와 수치적인 분석 결과 모두를 이용하여 상호보완적으로 데이터를 바라보아야 한다.

3. 통계량

데이터 특징 짓기

- 기술통계량(요약통계량) : 데이터 그 자체의 성질을 기술하고 요약하는 통계량 (ex. 평균)

  • 통계량과 정보 : 1개 또는 몇 개의 통계량으로 요약한다는 것은, 데이터에 있는 정보 중 버리는 부분이 있다는 것을 의미한다.

다양한 기술통계량

  • 대푯값(representative value) : 대략적인 분포 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량
    • 평균값(mean)
    • 중앙값(median) : 크기 순으로 값을 정렬했을 때 한가운데 위치한 값
    • 최빈값(mode) : 데이터 중 가장 자주 나타나는 값
  • 분산과 표준편차 : 데이터의 퍼짐 정도를 나타내는 값
    • 분산(variance)
    • 표준편차(standard deviation)

분산을 확인할 수 있는 상자 수염 그림

- 상자 수염 그림(box-and-whisker plot)

- 분포를 시각화하는 다양한 방법 : 오차막대, 상자수염그림, 바이올린 플롯, 스웜플롯 등

이상값

- 평균값에서 표준편차의 2배 또는 3배 이상 벗어난 숫자를 이상값으로 봄 (명확한 정의는 없음)

4. 확률

확률을 배우기 전에

- 통계학에서는 확률론이 중요, 다만, 우선 개념을 잘 이해하는 것으로 충분

- 전공이나 전문가가 되려면 계산할 줄도 알아야함

확률의 기본 사고방식

- 확률 : (발생 여부가) 불확실한 사건의 발생 가능성을 숫자로 표현한 것

  • 확률변수
  • 실현값
  • 확률분포
  • 확률밀도함수

추론통계와 확률분포

- 현실 세계의 모집단을 수학 세계의 확률분포로 가정하고, 표본 데이터는 그 확률분포에서 생성도니 실현값인 것으로 가정하여 분석 진행

- '모집단과 표본 데이터' 처럼 다루기 어려운 대상이 '확률분포와 그 실현값'처럼 다룰 수 있는 대상으로 치환됨

  • 기댓값
  • 분산과 표준편차
  • 왜도와 첨도

확률변수가 2개일 때

  • 독립
  • 조건부확률

5. 이론적인 확률분포

확률분포와 파라미터

- 이론적인 확률분포는 수식으로 표현되며, 분포의 형태를 정하는 숫자인 파라미터(parameter, 모수)를 가짐

- 파라미터를 알면 확률분포의 형태를 알 수 있음

정규분포

- 통계학에서 가장 자주 등장하는 중요한 확률 분포 = 정규분포 (normal distribution) = 가우스 분포(Gaussian distribution)

표준화

- 평균 0, 표준편차 1로 변환하는 것. 이를 표준화라고 하며, 변환된 새로운 값은 z값이라고 부름

다양한 확률분포

- 균등분포, 이항분포, 푸아송분포, 음이항 분포, 지수분포, 가우스 분포 등

[알아야 할 키워드]

  • 변수
  • 양적변수
  • 질적변수
  • 히스토그램
  • 기술통계량
  • 대푯값 : 평균값, 중앙값, 최빈값
  • 분산
  • 표준편차
  • 상자 수염 그림
  • 이상값
  • 확률
  • 확률분포
  • 왜도와 첨도
  • 파라미터
  • 정규분포
  • 표준화

[리뷰]

데이터분석과 통계학을 다루는 모든 책들이 그렇듯, 급발진하는 챕터라는 생각이 든다. 하나하나 차근차근 잘 설명하다가, 이제 데이터를 보고 분석을 곧 해야한다는 생각이 들었는지, 기초적인 통계용어들을 잔뜩 때려박는다. 필요없는 용어가 없긴하지만... 그렇게 이해못할 내용도 아니지만, 막상 이해해도 어따 쓰지 싶을 수 있어, 일단은 알아야할 용어들만 정리했다. 모르는 용어가 있다면, 검색하면서 공부하는게 정신건강에 이롭다.

이상치, 혹은 이상값이라고 불리는 건 실무에서 매우 중요하다. 나는 보통 '튀는 데이터'라고 표현하는데, 정상적으로 볼 수 없는 이상한 데이터들을 이상치라고 부른다. 이런 이상치는 굉장히 예외적인 케이스로 왜 발생했는지, 혹은 왜 측정되었는지 확인해보는 것이 중요하다. 통계학이나 데이터분석에 담지 못하는 실무적인 인사이트를 담고 있을 확률이 높다 정도로.. 정리해두자.

 

 

 

 

반응형

'대신 공부해드립니다 > 통계101x데이터분석' 카테고리의 다른 글

4장. 추론통계 ~ 신뢰구간  (1) 2024.09.18
2장. 모집단과 표본  (0) 2024.09.08
1장. 통계학이란?  (1) 2024.09.07

댓글