HOME
home
About
home
📕

1장. 통계학의 기초 개념

1.1 통계학의 정의와 목적

통계학이란?

*통계학(Statistics)**은 데이터를 수집, 정리, 분석하여 의미 있는 정보를 도출하고, 이를 바탕으로 합리적인 의사결정을 내리는 학문입니다.

통계학의 주요 목적

1.
데이터 요약: 방대한 자료를 이해하기 쉽게 정리
2.
패턴 발견: 데이터 속 숨겨진 경향과 관계 파악
3.
예측과 추론: 표본을 통해 모집단의 특성 추정
4.
의사결정 지원: 불확실성 하에서 최적의 결정 도출

실생활 활용 예시

의료: 신약의 효과 검증, 질병 발생률 분석
경영: 소비자 만족도 조사, 매출 예측
공학: 제품 품질관리, 공정 최적화
사회과학: 여론조사, 선거 예측

1.2 기술통계와 추론통계

통계학은 크게 기술통계추론통계 두 분야로 나뉩니다.

기술통계 (Descriptive Statistics)

정의: 수집한 데이터를 정리하고 요약하여 데이터의 특성을 기술하는 통계
주요 방법:
표와 그래프로 시각화
평균, 중앙값, 표준편차 등 요약 통계량 계산
데이터의 분포 형태 파악
예시:
우리 반 학생 30명의 키를 측정하여 평균 키가 170cm이고, 표준편차가 5cm라는 것을 계산 → 기술통계

추론통계 (Inferential Statistics)

정의: 표본 데이터를 분석하여 모집단의 특성을 추정하고 가설을 검정하는 통계
주요 방법:
신뢰구간 추정
가설검정
예측 및 모델링
예시:
우리 반 학생 30명(표본)의 평균 키를 바탕으로 전교생(모집단)의 평균 키를 추정 → 추론통계

비교표

구분
기술통계
추론통계
목적
데이터 요약 및 기술
모집단 특성 추정
범위
수집된 데이터 내
표본 → 모집단 일반화
대표 기법
평균, 그래프, 표
가설검정, 신뢰구간
예시
"우리 반 평균 점수는 85점"
"전교생 평균은 83~87점 사이일 것"

1.3 모집단과 표본

모집단 (Population)

정의: 연구 대상이 되는 전체 집단
특징:
관심 있는 모든 개체를 포함
일반적으로 크기가 매우 크거나 무한
N으로 표기
예시:
대한민국 전체 성인
특정 공장에서 생산되는 모든 제품
서울시에 거주하는 모든 가구

표본 (Sample)

정의: 모집단에서 선택된 일부 개체의 집합
특징:
모집단을 대표할 수 있도록 선택
실제 조사 및 분석의 대상
n으로 표기
예시:
대한민국 성인 중 무작위로 선택된 1,000명
공장 생산품 중 매 시간 추출한 100개
서울시 가구 중 조사에 응한 500가구

왜 표본을 사용할까?

1.
비용 절감: 모집단 전체 조사는 막대한 비용 소요
2.
시간 단축: 신속한 의사결정 가능
3.
실용성: 전수조사가 불가능한 경우 (무한 모집단, 파괴 검사 등)
4.
정확성: 작은 표본을 정밀하게 조사하는 것이 더 정확할 수 있음

모수와 통계량

구분
모수 (Parameter)
통계량 (Statistic)
대상
모집단
표본
성격
고정된 값 (미지수)
표본마다 변하는 값
표기
그리스 문자 (μ, σ)
로마 문자 (x̄, s)
예시
모평균 μ = 170cm
표본평균 x̄ = 168cm
핵심: 추론통계의 목표는 통계량을 이용해 모수를 추정하는 것입니다.

1.4 변수의 종류

변수(Variable)란?

관찰이나 측정을 통해 얻어지는 특성으로, 개체마다 다른 값을 가질 수 있는 속성

변수의 분류 체계

변수(Variable) │ ├─ 질적변수(범주형, Categorical) │ ├─ 명목형(Nominal) │ └─ 순서형(Ordinal) │ └─ 양적변수(수치형, Numerical) ├─ 이산형(Discrete) └─ 연속형(Continuous) ├─ 구간형(Interval) └─ 비율형(Ratio)
Plain Text
복사

명목형 변수 (Nominal Variable)

정의: 단순히 범주나 이름을 구분하는 변수 (순서 없음)
특징:
숫자로 표현해도 크기 비교 무의미
동등(=), 불일치(≠) 관계만 성립
예시:
성별: 남성, 여성
혈액형: A형, B형, AB형, O형
거주 지역: 서울, 부산, 대구...
전공: 경영학, 공학, 의학...
결혼 여부: 기혼, 미혼
분석 방법: 빈도, 최빈값, 카이제곱 검정

순서형 변수 (Ordinal Variable)

정의: 범주 간 순서나 서열이 있는 변수
특징:
순서는 있지만 간격이 일정하지 않음
크다/작다(>, <) 관계 성립
차이의 크기는 측정 불가
예시:
학년: 1학년 < 2학년 < 3학년 < 4학년
만족도: 매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족
교육 수준: 초졸 < 중졸 < 고졸 < 대졸
등급: Bronze < Silver < Gold < Platinum
경기 순위: 1위, 2위, 3위...
분석 방법: 중앙값, 사분위수, 스피어만 상관계수

구간형 변수 (Interval Variable)

정의: 값 간 간격이 일정하지만 절대적 영점(0)이 없는 수치형 변수
특징:
사칙연산 중 덧셈, 뺄셈만 의미 있음
비율 계산 불가 (2배, 3배 표현 불가)
0이 "없음"을 의미하지 않음
예시:
온도(섭씨, 화씨): 0°C는 온도가 없다는 뜻이 아님
20°C는 10°C보다 10도 높음 ✓
20°C가 10°C의 2배 따뜻하다 ✗
IQ 점수: IQ 0은 존재하지 않음
연도: 서기 0년은 시작점일 뿐
분석 방법: 평균, 표준편차, 상관분석, t-검정

비율형 변수 (Ratio Variable)

정의: 값 간 간격이 일정하고 절대적 영점(0)이 존재하는 수치형 변수
특징:
모든 사칙연산 가능
비율 계산 가능 (2배, 1/2 등)
0은 "없음"을 의미
예시:
키: 180cm는 90cm의 2배
몸무게: 0kg은 무게가 없음
나이: 40세는 20세의 2배
소득: 연봉 0원은 소득이 없음
시간: 10분은 5분의 2배
판매량: 0개는 판매가 없음
분석 방법: 모든 통계 분석 가능 (평균, 표준편차, 회귀분석 등)

변수 종류 비교표

변수
순서
간격 일정
절대영점
예시
가능 연산
명목형
성별, 혈액형
=, ≠
순서형
만족도, 등급
=, ≠, >, <
구간형
온도(°C), IQ
+, -
비율형
키, 나이, 소득
+, -, ×, ÷

실전 팁

"이 변수는 0이 의미 있는가?"
YES → 비율형
NO → 구간형
"숫자가 크기를 나타내는가?"
YES → 양적변수 (구간형/비율형)
NO → 질적변수 (명목형/순서형)

1.5 데이터의 수집과 표본추출 방법

데이터 수집 방법

1. 1차 자료 (Primary Data)

연구자가 직접 수집한 자료
수집 방법:
설문조사: 온라인/오프라인 설문
실험: 통제된 환경에서 데이터 수집
관찰: 자연 상태에서 행동 관찰
면접: 심층 인터뷰
장점: 연구 목적에 맞춤, 신뢰성 높음
단점: 시간과 비용 소요

2. 2차 자료 (Secondary Data)

기존에 수집된 자료를 활용
출처:
정부 통계 (통계청, 한국은행 등)
학술 논문 및 연구 보고서
기업 데이터베이스
공공 데이터 포털
장점: 비용 효율적, 신속
단점: 연구 목적과 불일치 가능성

표본추출 방법 (Sampling Methods)

표본추출은 확률표본추출비확률표본추출로 구분됩니다.

확률표본추출 (Probability Sampling)

모집단의 모든 개체가 동일한 확률로 표본에 선택될 수 있는 방법

단순무작위추출 (Simple Random Sampling)

방법: 모든 개체에 번호를 부여하고 무작위로 선택
예시:
학생 명부에서 난수표를 이용해 100명 선택
추첨을 통한 경품 당첨자 선정
장점: 편향 없음, 통계적 추론 가능
단점: 모집단 명단 필요, 실행 어려움

층화추출 (Stratified Sampling)

방법: 모집단을 동질적인 **층(stratum)**으로 나눈 후, 각 층에서 무작위 추출
예시:
학년별(층)로 나눠 각 학년에서 동일 인원 추출
지역별(서울/경기/부산...)로 나눠 인구 비례 추출
장점: 모집단 특성 반영, 정밀도 향상
단점: 층 구분 기준 필요
활용: 여론조사, 선거 예측

집락추출 (Cluster Sampling)

방법: 모집단을 **집단(cluster)**으로 나눈 후, 일부 집단을 무작위 선택하여 그 안의 모든 개체 조사
예시:
전국 학교 중 20개 학교를 무작위 선택 → 선택된 학교의 모든 학생 조사
아파트 단지 중 5개 단지 선택 → 해당 단지 전체 조사
장점: 비용 절감, 실행 용이
단점: 정밀도 낮음, 집단 내 유사성 높을 경우 편향
활용: 지역 기반 조사, 대규모 조사

체계적 추출 (Systematic Sampling)

방법: 일정 간격(k)마다 개체를 선택
예시:
1,000명 중 100명 추출 시 → k=10, 매 10번째 사람 선택
생산 라인에서 매 50번째 제품 검사
장점: 간편, 빠름
단점: 주기성 있으면 편향 발생 가능

비확률표본추출 (Non-probability Sampling)

연구자의 판단이나 편의에 따라 표본을 선택하는 방법 (통계적 추론 제한)

편의추출 (Convenience Sampling)

방법: 접근하기 쉬운 대상 선택
예시:
길거리 설문조사
온라인 자발적 응답자
장단점: 간편하지만 편향 심함

판단추출 (Judgement Sampling)

방법: 전문가가 의도적으로 선택
예시:
전문가 심층 인터뷰
특정 조건 충족하는 대상 선정

할당추출 (Quota Sampling)

방법: 특성별 비율을 정한 후, 비확률적으로 선택
예시:
성별 50:50, 연령대별 20% 할당

눈덩이추출 (Snowball Sampling)

방법: 초기 응답자가 다음 응답자 소개
예시:
희귀 질환자 조사
특정 집단 연구 (탈북자, 마약 중독자 등)

표본추출 방법 비교

방법
유형
편향
비용
통계적 추론
활용
단순무작위
확률
낮음
높음
가능
실험연구
층화추출
확률
낮음
중간
가능
여론조사
집락추출
확률
중간
낮음
가능
대규모 조사
체계적
확률
낮음
낮음
가능
품질관리
편의추출
비확률
높음
매우낮음
불가
예비조사
판단추출
비확률
중간
낮음
불가
전문가 조사

표본 크기 결정 요인

1.
모집단의 이질성: 다양할수록 큰 표본 필요
2.
원하는 정밀도: 높은 정확도 요구 시 큰 표본
3.
신뢰수준: 95%, 99% 등 높을수록 큰 표본
4.
예산과 시간: 현실적 제약 고려
일반적 기준 (중심극한정리):
표본 크기 n ≥ 30: 정규분포 가정 가능
비율 조사: n·p ≥ 5, n·(1-p) ≥ 5

핵심 요약

반드시 기억할 5가지

1.
기술통계는 데이터 요약, 추론통계는 모집단 추정
2.
표본을 통해 모집단의 특성을 파악
3.
변수는 명목-순서-구간-비율 순으로 정보량 증가
4.
확률표본추출만 통계적 추론 가능
5.
표본 크기가 클수록 정확하지만 비용 증가

연습문제

문제 1

다음 중 비율형 변수가 아닌 것은?
1.
몸무게
2.
온도(섭씨)
3.
연간 소득
4.
달리기 기록
정답: 2번 (온도는 구간형 변수)

문제 2

모집단이 남성 6,000명, 여성 4,000명으로 구성될 때, 층화추출로 1,000명을 추출한다면 남성은 몇 명?
정답: 600명 (비례배분: 6,000/10,000 × 1,000)

문제 3

다음 중 1차 자료 수집 방법이 아닌 것은?
1.
설문조사
2.
실험
3.
통계청 자료 활용
4.
심층 면접
정답: 3번 (2차 자료)
이것으로 1장. 통계학의 기초 개념을 마칩니다. 다음 장에서는 수집한 데이터를 어떻게 정리하고 시각화하는지 배우게 됩니다!