본문 바로가기
대신 공부해드립니다/통계101x데이터분석

1장. 통계학이란?

by Couldi 2024. 9. 7.
반응형

[내용 정리]

1. 데이터를 분석하다

데이터와 통계학

- 대상을 관찰하고 측정함을쏘, 그 대상의 정보, '데이터'를 얻을 수 있음

- '데이터'는 수치의 모음 (*문자로 이루어진 데이터도 있음)

데이터 분석의 목적

  1. 데이터를 요약하는 것
    • 데이터를 요약하고 정리 (ex. 평균값)
  2. 대상을 설명하는 것
    • 대상이 가진 성질과 관계성을 명확히 밝히고 이를 이해
    • 설명에는 수준이 있음
      • 일반적으로 데이터 분석에서 말하는 관계성에는 '인과관계'와 '상관관계'가 있음
      • 인과관계 : 원인을 변화시키면 결과도 바뀌는 관계
      • 한쪽이 크면 다른 한쪽도 큰 관계, 인과가 있다고 단정할 수 없음
  3. 새로 얻을 데이터를 예측하는 것
    • 이미 얻은 데이터를 기반으로, 이후 새롭게 얻을 데이터를 예측하는 것
    • 기계학습도 이 목적을 이루기 위한 수단 중 하나

2. 통계학의 역할

통계학은 데이터 퍼짐 정도가 클수록 힘을 발휘한다

- 데이터 분석에서 통계학의 중요한 역할 = 퍼짐(산포, dispersion)이 있는 데이터에 대해 설명이나 예측을 하는 것

- 확률을 사용하자

  • 데이터 퍼짐이나 불확실성에 대처하는 방법 = '확률론'

3. 통계학의 전체 모습

기술통계와 추론 통계

- 기술통계(descriptive statistics) : 수집된 데이터를 정리하고 요약하는 방법

- 추론통계(inferential statistics) : 수집한 데이터로부터 데이터의 발생원을 추정하는 방법

확률모형

- 데이터가 비교적 단순한 확률 장치에서 생성되었다고 가정하는 것

통계적 추론과 가설검정

- 통계적 추론(statistical inference) : 데이터에서 가정한 확률 모형의 성질을 추정하는 방법

- 가설검정(statistical test) : 세운 가설과 얻은 데이터가 얼마나 들어맞는지를 평가하여, 가설을 채택할 것인가를 판단하는 방법

다양한 분석 방법

- 통계분석에는 다양한 방법이 있음

- 데이터 유형이나 변수의 개수, 가정하는 확률 모형 등에 따라 이용하는 방법이 다르기 때문

 

[알아야할 키워드]

- 데이터

- 인과관계 vs 상관관계

- 산포(dispersion)

- 확률론

- 기술통계 vs 추론통계

- 확률모형

- 통계적 추론

- 가설검정

 

[리뷰]

통계학을 '퍼짐이 있는 데이터에 대한 설명이나 예측하는 것'으로 한 문장 정리한 것이 굉장히 뜻깊게 다가왔다. 통계학이 뭐냐는 질문에 참 명확한 답변이라는 생각이 든다. 그 외에도 통계학에서 다루고 있는 중요한 키워드들을 쉽게 설명하고 있어, 공부하기 나쁘지 않은 책이라는 생각이 든다.

반응형

댓글