1.1 통계학의 정의와 목적
통계학이란?
•
*통계학(Statistics)**은 데이터를 수집, 정리, 분석하여 의미 있는 정보를 도출하고, 이를 바탕으로 합리적인 의사결정을 내리는 학문입니다.
통계학의 주요 목적
1.
데이터 요약: 방대한 자료를 이해하기 쉽게 정리
2.
패턴 발견: 데이터 속 숨겨진 경향과 관계 파악
3.
예측과 추론: 표본을 통해 모집단의 특성 추정
4.
의사결정 지원: 불확실성 하에서 최적의 결정 도출
실생활 활용 예시
•
의료: 신약의 효과 검증, 질병 발생률 분석
•
경영: 소비자 만족도 조사, 매출 예측
•
공학: 제품 품질관리, 공정 최적화
•
사회과학: 여론조사, 선거 예측
1.2 기술통계와 추론통계
통계학은 크게 기술통계와 추론통계 두 분야로 나뉩니다.
기술통계 (Descriptive Statistics)
정의: 수집한 데이터를 정리하고 요약하여 데이터의 특성을 기술하는 통계
주요 방법:
•
표와 그래프로 시각화
•
평균, 중앙값, 표준편차 등 요약 통계량 계산
•
데이터의 분포 형태 파악
예시:
우리 반 학생 30명의 키를 측정하여 평균 키가 170cm이고, 표준편차가 5cm라는 것을 계산 → 기술통계
추론통계 (Inferential Statistics)
정의: 표본 데이터를 분석하여 모집단의 특성을 추정하고 가설을 검정하는 통계
주요 방법:
•
신뢰구간 추정
•
가설검정
•
예측 및 모델링
예시:
우리 반 학생 30명(표본)의 평균 키를 바탕으로 전교생(모집단)의 평균 키를 추정 → 추론통계
비교표
구분 | 기술통계 | 추론통계 |
목적 | 데이터 요약 및 기술 | 모집단 특성 추정 |
범위 | 수집된 데이터 내 | 표본 → 모집단 일반화 |
대표 기법 | 평균, 그래프, 표 | 가설검정, 신뢰구간 |
예시 | "우리 반 평균 점수는 85점" | "전교생 평균은 83~87점 사이일 것" |
1.3 모집단과 표본
모집단 (Population)
정의: 연구 대상이 되는 전체 집단
특징:
•
관심 있는 모든 개체를 포함
•
일반적으로 크기가 매우 크거나 무한
•
N으로 표기
예시:
•
대한민국 전체 성인
•
특정 공장에서 생산되는 모든 제품
•
서울시에 거주하는 모든 가구
표본 (Sample)
정의: 모집단에서 선택된 일부 개체의 집합
특징:
•
모집단을 대표할 수 있도록 선택
•
실제 조사 및 분석의 대상
•
n으로 표기
예시:
•
대한민국 성인 중 무작위로 선택된 1,000명
•
공장 생산품 중 매 시간 추출한 100개
•
서울시 가구 중 조사에 응한 500가구
왜 표본을 사용할까?
1.
비용 절감: 모집단 전체 조사는 막대한 비용 소요
2.
시간 단축: 신속한 의사결정 가능
3.
실용성: 전수조사가 불가능한 경우 (무한 모집단, 파괴 검사 등)
4.
정확성: 작은 표본을 정밀하게 조사하는 것이 더 정확할 수 있음
모수와 통계량
구분 | 모수 (Parameter) | 통계량 (Statistic) |
대상 | 모집단 | 표본 |
성격 | 고정된 값 (미지수) | 표본마다 변하는 값 |
표기 | 그리스 문자 (μ, σ) | 로마 문자 (x̄, s) |
예시 | 모평균 μ = 170cm | 표본평균 x̄ = 168cm |
핵심: 추론통계의 목표는 통계량을 이용해 모수를 추정하는 것입니다.
1.4 변수의 종류
변수(Variable)란?
관찰이나 측정을 통해 얻어지는 특성으로, 개체마다 다른 값을 가질 수 있는 속성
변수의 분류 체계
변수(Variable)
│
├─ 질적변수(범주형, Categorical)
│ ├─ 명목형(Nominal)
│ └─ 순서형(Ordinal)
│
└─ 양적변수(수치형, Numerical)
├─ 이산형(Discrete)
└─ 연속형(Continuous)
├─ 구간형(Interval)
└─ 비율형(Ratio)
Plain Text
복사
명목형 변수 (Nominal Variable)
정의: 단순히 범주나 이름을 구분하는 변수 (순서 없음)
특징:
•
숫자로 표현해도 크기 비교 무의미
•
동등(=), 불일치(≠) 관계만 성립
예시:
•
성별: 남성, 여성
•
혈액형: A형, B형, AB형, O형
•
거주 지역: 서울, 부산, 대구...
•
전공: 경영학, 공학, 의학...
•
결혼 여부: 기혼, 미혼
분석 방법: 빈도, 최빈값, 카이제곱 검정
순서형 변수 (Ordinal Variable)
정의: 범주 간 순서나 서열이 있는 변수
특징:
•
순서는 있지만 간격이 일정하지 않음
•
크다/작다(>, <) 관계 성립
•
차이의 크기는 측정 불가
예시:
•
학년: 1학년 < 2학년 < 3학년 < 4학년
•
만족도: 매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족
•
교육 수준: 초졸 < 중졸 < 고졸 < 대졸
•
등급: Bronze < Silver < Gold < Platinum
•
경기 순위: 1위, 2위, 3위...
분석 방법: 중앙값, 사분위수, 스피어만 상관계수
구간형 변수 (Interval Variable)
정의: 값 간 간격이 일정하지만 절대적 영점(0)이 없는 수치형 변수
특징:
•
사칙연산 중 덧셈, 뺄셈만 의미 있음
•
비율 계산 불가 (2배, 3배 표현 불가)
•
0이 "없음"을 의미하지 않음
예시:
•
온도(섭씨, 화씨): 0°C는 온도가 없다는 뜻이 아님
◦
20°C는 10°C보다 10도 높음 ✓
◦
20°C가 10°C의 2배 따뜻하다 ✗
•
IQ 점수: IQ 0은 존재하지 않음
•
연도: 서기 0년은 시작점일 뿐
분석 방법: 평균, 표준편차, 상관분석, t-검정
비율형 변수 (Ratio Variable)
정의: 값 간 간격이 일정하고 절대적 영점(0)이 존재하는 수치형 변수
특징:
•
모든 사칙연산 가능
•
비율 계산 가능 (2배, 1/2 등)
•
0은 "없음"을 의미
예시:
•
키: 180cm는 90cm의 2배
•
몸무게: 0kg은 무게가 없음
•
나이: 40세는 20세의 2배
•
소득: 연봉 0원은 소득이 없음
•
시간: 10분은 5분의 2배
•
판매량: 0개는 판매가 없음
분석 방법: 모든 통계 분석 가능 (평균, 표준편차, 회귀분석 등)
변수 종류 비교표
변수 | 순서 | 간격 일정 | 절대영점 | 예시 | 가능 연산 |
명목형 | ✗ | ✗ | ✗ | 성별, 혈액형 | =, ≠ |
순서형 | ✓ | ✗ | ✗ | 만족도, 등급 | =, ≠, >, < |
구간형 | ✓ | ✓ | ✗ | 온도(°C), IQ | +, - |
비율형 | ✓ | ✓ | ✓ | 키, 나이, 소득 | +, -, ×, ÷ |
실전 팁
"이 변수는 0이 의미 있는가?"
•
YES → 비율형
•
NO → 구간형
"숫자가 크기를 나타내는가?"
•
YES → 양적변수 (구간형/비율형)
•
NO → 질적변수 (명목형/순서형)
1.5 데이터의 수집과 표본추출 방법
데이터 수집 방법
1. 1차 자료 (Primary Data)
연구자가 직접 수집한 자료
수집 방법:
•
설문조사: 온라인/오프라인 설문
•
실험: 통제된 환경에서 데이터 수집
•
관찰: 자연 상태에서 행동 관찰
•
면접: 심층 인터뷰
장점: 연구 목적에 맞춤, 신뢰성 높음
단점: 시간과 비용 소요
2. 2차 자료 (Secondary Data)
기존에 수집된 자료를 활용
출처:
•
정부 통계 (통계청, 한국은행 등)
•
학술 논문 및 연구 보고서
•
기업 데이터베이스
•
공공 데이터 포털
장점: 비용 효율적, 신속
단점: 연구 목적과 불일치 가능성
표본추출 방법 (Sampling Methods)
표본추출은 확률표본추출과 비확률표본추출로 구분됩니다.
확률표본추출 (Probability Sampling)
모집단의 모든 개체가 동일한 확률로 표본에 선택될 수 있는 방법
단순무작위추출 (Simple Random Sampling)
방법: 모든 개체에 번호를 부여하고 무작위로 선택
예시:
•
학생 명부에서 난수표를 이용해 100명 선택
•
추첨을 통한 경품 당첨자 선정
장점: 편향 없음, 통계적 추론 가능
단점: 모집단 명단 필요, 실행 어려움
층화추출 (Stratified Sampling)
방법: 모집단을 동질적인 **층(stratum)**으로 나눈 후, 각 층에서 무작위 추출
예시:
•
학년별(층)로 나눠 각 학년에서 동일 인원 추출
•
지역별(서울/경기/부산...)로 나눠 인구 비례 추출
장점: 모집단 특성 반영, 정밀도 향상
단점: 층 구분 기준 필요
활용: 여론조사, 선거 예측
집락추출 (Cluster Sampling)
방법: 모집단을 **집단(cluster)**으로 나눈 후, 일부 집단을 무작위 선택하여 그 안의 모든 개체 조사
예시:
•
전국 학교 중 20개 학교를 무작위 선택 → 선택된 학교의 모든 학생 조사
•
아파트 단지 중 5개 단지 선택 → 해당 단지 전체 조사
장점: 비용 절감, 실행 용이
단점: 정밀도 낮음, 집단 내 유사성 높을 경우 편향
활용: 지역 기반 조사, 대규모 조사
체계적 추출 (Systematic Sampling)
방법: 일정 간격(k)마다 개체를 선택
예시:
•
1,000명 중 100명 추출 시 → k=10, 매 10번째 사람 선택
•
생산 라인에서 매 50번째 제품 검사
장점: 간편, 빠름
단점: 주기성 있으면 편향 발생 가능
비확률표본추출 (Non-probability Sampling)
연구자의 판단이나 편의에 따라 표본을 선택하는 방법 (통계적 추론 제한)
편의추출 (Convenience Sampling)
방법: 접근하기 쉬운 대상 선택
예시:
•
길거리 설문조사
•
온라인 자발적 응답자
장단점: 간편하지만 편향 심함
판단추출 (Judgement Sampling)
방법: 전문가가 의도적으로 선택
예시:
•
전문가 심층 인터뷰
•
특정 조건 충족하는 대상 선정
할당추출 (Quota Sampling)
방법: 특성별 비율을 정한 후, 비확률적으로 선택
예시:
•
성별 50:50, 연령대별 20% 할당
눈덩이추출 (Snowball Sampling)
방법: 초기 응답자가 다음 응답자 소개
예시:
•
희귀 질환자 조사
•
특정 집단 연구 (탈북자, 마약 중독자 등)
표본추출 방법 비교
방법 | 유형 | 편향 | 비용 | 통계적 추론 | 활용 |
단순무작위 | 확률 | 낮음 | 높음 | 가능 | 실험연구 |
층화추출 | 확률 | 낮음 | 중간 | 가능 | 여론조사 |
집락추출 | 확률 | 중간 | 낮음 | 가능 | 대규모 조사 |
체계적 | 확률 | 낮음 | 낮음 | 가능 | 품질관리 |
편의추출 | 비확률 | 높음 | 매우낮음 | 불가 | 예비조사 |
판단추출 | 비확률 | 중간 | 낮음 | 불가 | 전문가 조사 |
표본 크기 결정 요인
1.
모집단의 이질성: 다양할수록 큰 표본 필요
2.
원하는 정밀도: 높은 정확도 요구 시 큰 표본
3.
신뢰수준: 95%, 99% 등 높을수록 큰 표본
4.
예산과 시간: 현실적 제약 고려
일반적 기준 (중심극한정리):
•
표본 크기 n ≥ 30: 정규분포 가정 가능
•
비율 조사: n·p ≥ 5, n·(1-p) ≥ 5
핵심 요약
반드시 기억할 5가지
1.
기술통계는 데이터 요약, 추론통계는 모집단 추정
2.
표본을 통해 모집단의 특성을 파악
3.
변수는 명목-순서-구간-비율 순으로 정보량 증가
4.
확률표본추출만 통계적 추론 가능
5.
표본 크기가 클수록 정확하지만 비용 증가
연습문제
문제 1
다음 중 비율형 변수가 아닌 것은?
1.
몸무게
2.
온도(섭씨)
3.
연간 소득
4.
달리기 기록
정답: 2번 (온도는 구간형 변수)
문제 2
모집단이 남성 6,000명, 여성 4,000명으로 구성될 때, 층화추출로 1,000명을 추출한다면 남성은 몇 명?
정답: 600명 (비례배분: 6,000/10,000 × 1,000)
문제 3
다음 중 1차 자료 수집 방법이 아닌 것은?
1.
설문조사
2.
실험
3.
통계청 자료 활용
4.
심층 면접
정답: 3번 (2차 자료)
이것으로 1장. 통계학의 기초 개념을 마칩니다. 다음 장에서는 수집한 데이터를 어떻게 정리하고 시각화하는지 배우게 됩니다! 
