2.1 자료의 종류
데이터를 효과적으로 분석하려면 먼저 자료의 유형을 파악해야 합니다.
자료의 분류 체계
자료(Data)
│
├─ 질적 자료 (Qualitative Data / Categorical Data)
│ ├─ 명목형: 성별, 혈액형, 지역
│ └─ 순서형: 만족도, 등급, 학년
│
└─ 양적 자료 (Quantitative Data / Numerical Data)
├─ 이산형(Discrete): 가족 수, 판매량, 불량품 개수
└─ 연속형(Continuous): 키, 몸무게, 온도, 시간
Plain Text
복사
질적 자료 (범주형 자료)
정의: 범주나 속성으로 표현되는 자료 (숫자가 아닌 특성)
특징:
•
개수를 셀 수 있음 (빈도)
•
산술 평균 계산 불가
•
그래프: 막대그래프, 원그래프
예시:
•
좋아하는 색깔: 빨강, 파랑, 노랑
•
직업: 학생, 회사원, 자영업
•
선호 브랜드: A, B, C
양적 자료 (수치형 자료)
정의: 숫자로 측정되는 자료
특징:
•
산술연산 가능
•
평균, 표준편차 계산 가능
•
그래프: 히스토그램, 상자그림
이산형 (Discrete)
셀 수 있는 정수 값
•
예: 자녀 수(0, 1, 2, 3...), 판매 대수
연속형 (Continuous)
무한히 많은 값 가능 (소수점 포함)
•
예: 키(170.5cm), 시간(3.14초)
자료 유형별 정리 방법
자료 유형 | 정리 방법 | 시각화 도구 | 대표값 |
명목형 | 빈도표 | 막대그래프, 원그래프 | 최빈값 |
순서형 | 빈도표 | 막대그래프 | 중앙값, 최빈값 |
이산형 | 도수분포표 | 막대그래프, 점그래프 | 평균, 중앙값 |
연속형 | 계급별 도수분포표 | 히스토그램, 상자그림 | 평균, 중앙값 |
2.2 도수분포표 (Frequency Distribution Table)
도수분포표란?
정의: 자료를 몇 개의 구간(계급)으로 나누어 각 구간에 속하는 자료의 개수를 정리한 표
주요 용어
•
계급(Class): 자료를 나누는 구간
•
도수(Frequency): 각 계급에 속하는 자료의 개수
•
계급값(Class Midpoint): 계급의 중간값
•
계급의 크기(Class Width): 구간의 폭
도수분포표 작성 단계
STEP 1: 계급의 개수 결정
Sturges 공식 (권장):
계급 개수(k) = 1 + 3.3 × log₁₀(n)
Plain Text
복사
•
n = 표본 크기
•
일반적으로 5~20개 사이
예시:
•
n = 50 → k ≈ 7개
•
n = 100 → k ≈ 8개
•
n = 500 → k ≈ 10개
STEP 2: 계급의 크기 결정
계급의 크기 = (최댓값 - 최솟값) / 계급 개수
Plain Text
복사
STEP 3: 계급 구간 설정
•
첫 계급의 하한 ≤ 최솟값
•
마지막 계급의 상한 ≥ 최댓값
STEP 4: 도수 세기
각 계급에 속하는 자료의 개수 집계
도수분포표 예제
상황: 학생 30명의 수학 시험 점수
원 데이터:
45, 52, 58, 62, 65, 67, 68, 70, 72, 73,
75, 75, 76, 78, 80, 81, 82, 84, 85, 86,
87, 88, 90, 91, 92, 93, 94, 95, 96, 98
Plain Text
복사
도수분포표 작성:
계급 (점수) | 계급값 | 도수 | 상대도수 | 누적도수 |
40 ~ 50 | 45 | 1 | 0.033 | 1 |
50 ~ 60 | 55 | 2 | 0.067 | 3 |
60 ~ 70 | 65 | 5 | 0.167 | 8 |
70 ~ 80 | 75 | 8 | 0.267 | 16 |
80 ~ 90 | 85 | 8 | 0.267 | 24 |
90 ~ 100 | 95 | 6 | 0.200 | 30 |
합계 | - | 30 | 1.000 | - |
계급값 계산 예:
•
40~50 구간 계급값 = (40 + 50) / 2 = 45
도수분포표 작성 시 주의사항
1.
계급의 크기는 동일하게 (특별한 경우 제외)
2.
계급 간 중복 방지: "이상 ~ 미만" 또는 "초과 ~ 이하"
3.
계급 개수: 너무 적으면 정보 손실, 너무 많으면 복잡
4.
개방 계급 피하기: "100 이상" 같은 표현 지양
2.3 상대도수, 누적도수, 백분율
상대도수 (Relative Frequency)
정의: 전체 자료에서 각 계급이 차지하는 비율
공식:
상대도수 = 도수 / 전체 자료 수
Plain Text
복사
특징:
•
0과 1 사이 값
•
모든 상대도수의 합 = 1
•
비율 비교에 유용
예시:
•
70~80점 구간: 8명 / 30명 = 0.267 (26.7%)
누적도수 (Cumulative Frequency)
정의: 그 계급까지의 도수를 모두 합한 값
계산:
누적도수 = 이전 계급까지의 누적도수 + 현재 계급의 도수
Plain Text
복사
활용:
•
"~점 이하가 몇 명인가?" 질문에 답변
•
백분위수 계산
예시 (위 표 참고):
•
80점 미만 학생: 16명
•
90점 미만 학생: 24명
백분율 (Percentage)
정의: 상대도수를 100배한 값
공식:
백분율(%) = 상대도수 × 100
Plain Text
복사
예시:
•
80~90점: 0.267 × 100 = 26.7%
종합 예제
50명 학생의 출석 일수 조사
출석일수 | 도수 | 상대도수 | 백분율 | 누적도수 | 누적백분율 |
0 ~ 5 | 3 | 0.06 | 6% | 3 | 6% |
5 ~ 10 | 7 | 0.14 | 14% | 10 | 20% |
10 ~ 15 | 15 | 0.30 | 30% | 25 | 50% |
15 ~ 20 | 18 | 0.36 | 36% | 43 | 86% |
20 ~ 25 | 7 | 0.14 | 14% | 50 | 100% |
합계 | 50 | 1.00 | 100% | - | - |
해석:
•
출석 15일 미만: 25명 (50%)
•
출석 15~20일: 18명 (36%)
•
출석 10일 이상: 40명 (80%)
2.4 시각화 방법
히스토그램 (Histogram)
정의: 연속형 자료의 도수분포를 막대그래프로 표현
특징:
•
X축: 계급 구간
•
Y축: 도수 (또는 상대도수)
•
막대 사이 간격 없음 (연속성 표현)
히스토그램 예시 (위 시험 점수 자료):
도수
8 | ████ ████
7 | ████ ████
6 | ████ ████ ████
5 | ████████ ████ ████
4 | ████████ ████ ████
3 | ████████ ████ ████
2 | ████████ ████ ████
1 |██████████ ████████████████
0 |________________________________
40 50 60 70 80 90 100 (점수)
Plain Text
복사
해석:
•
70~90점 구간에 학생들이 집중
•
좌우 대칭에 가까운 분포
•
평균 근처에 밀집
줄기잎그림 (Stem-and-Leaf Plot)
정의: 원 데이터의 값을 유지하면서 분포를 시각화
구성:
•
줄기(Stem): 앞자리 숫자
•
잎(Leaf): 뒷자리 숫자
예제: 학생 20명의 키(cm)
원 데이터:
152, 155, 158, 160, 162, 163, 165, 167, 168, 170,
171, 172, 175, 176, 178, 180, 182, 185, 188, 190
Plain Text
복사
줄기잎그림:
줄기 | 잎
-----------
15 | 2 5 8
16 | 0 2 3 5 7 8
17 | 0 1 2 5 6 8
18 | 0 2 5 8
19 | 0
Plain Text
복사
장점:
•
원 데이터 값 확인 가능 (15|2 → 152cm)
•
분포 형태 한눈에 파악
•
작은 데이터셋에 적합
단점:
•
데이터가 많으면 복잡
•
소수점 있는 데이터는 처리 번거로움
상자수염그림 (Box Plot / Boxplot)
정의: 5가지 요약 통계량으로 자료의 분포를 시각화
5가지 요약 통계량:
1.
최솟값 (Minimum)
2.
제1사분위수 Q1 (25%)
3.
중앙값 Q2 (Median, 50%)
4.
제3사분위수 Q3 (75%)
5.
최댓값 (Maximum)
상자그림 구조:
최댓값
|
* ← 이상치(Outlier)
|
┌──────┴──────┐
│ │
Q3 ├─────────────┤
│ │
Q2 ├─────────────┤ (중앙값)
│ │
Q1 ├─────────────┤
│ │
└──────┬──────┘
|
* ← 이상치
|
최솟값
Plain Text
복사
구성 요소:
•
상자(Box): Q1 ~ Q3 (중간 50% 데이터)
•
중간선: 중앙값 (Q2)
•
수염(Whisker): 정상 범위 최댓값/최솟값
•
점(•): 이상치
상자그림 예제
학생 15명의 시험 점수:
60, 65, 68, 70, 72, 75, 78, 80, 82, 85, 88, 90, 92, 95, 100
Plain Text
복사
5가지 요약 통계량 계산:
1.
최솟값: 60점
2.
Q1 (25% 위치): 70점
3.
Q2 (중앙값, 50%): 80점
4.
Q3 (75% 위치): 90점
5.
최댓값: 100점
IQR (사분위수 범위):
IQR = Q3 - Q1 = 90 - 70 = 20
Plain Text
복사
이상치 경계:
하한 = Q1 - 1.5 × IQR = 70 - 30 = 40
상한 = Q3 + 1.5 × IQR = 90 + 30 = 120
Plain Text
복사
→ 모든 데이터가 40~120 범위 내 → 이상치 없음
상자그림 해석 방법
분포의 형태
좌우 대칭:
├───┼───┤
Plain Text
복사
•
Q2가 상자 중앙
•
수염 길이 비슷
왼쪽으로 치우침 (음의 왜도):
├─┼─────┤
Plain Text
복사
•
Q2가 왼쪽으로 치우침
•
오른쪽 수염이 김
오른쪽으로 치우침 (양의 왜도):
├─────┼─┤
Plain Text
복사
•
Q2가 오른쪽으로 치우침
•
왼쪽 수염이 김
여러 그룹 비교
예제: 세 반의 수학 성적 비교
A반 |───────┼───────|
B반 |───┼────|
C반 |──┼───|
50 60 70 80 90 100
Plain Text
복사
해석:
•
A반: 점수 분포가 가장 넓음 (산포 큼)
•
B반: 중앙값이 가장 높음
•
C반: 분포가 집중되어 있음 (산포 작음)
시각화 방법 비교
그래프 | 자료 유형 | 장점 | 단점 | 활용 |
히스토그램 | 연속형 | 분포 형태 명확 | 원 데이터 손실 | 도수분포 표현 |
줄기잎그림 | 양적 | 원 데이터 유지 | 큰 데이터셋 부적합 | 소규모 데이터 |
상자그림 | 양적 | 5가지 요약, 비교 용이 | 상세 분포 불명 | 그룹 간 비교 |
막대그래프 | 범주형 | 직관적, 비교 용이 | - | 범주별 빈도 |
원그래프 | 범주형 | 비율 시각화 | 범주 많으면 복잡 | 구성비 표현 |
2.5 교차표와 범주형 자료 요약
교차표 (Cross Tabulation / Contingency Table)
정의: 두 개 이상의 범주형 변수 간 관계를 표로 정리
목적:
•
변수 간 연관성 파악
•
독립성 검정 준비
교차표 기본 구조
예제: 성별과 스마트폰 선호도 조사 (200명)
단순 교차표 (빈도):
iPhone | Samsung | 기타 | 합계 | |
남성 | 35 | 45 | 20 | 100 |
여성 | 50 | 30 | 20 | 100 |
합계 | 85 | 75 | 40 | 200 |
백분율 교차표
행 백분율 (Row Percentage)
각 행의 합을 기준으로 백분율 계산
iPhone | Samsung | 기타 | 합계 | |
남성 | 35% | 45% | 20% | 100% |
여성 | 50% | 30% | 20% | 100% |
해석:
•
남성: Samsung 선호 45%
•
여성: iPhone 선호 50%
열 백분율 (Column Percentage)
각 열의 합을 기준으로 백분율 계산
iPhone | Samsung | 기타 | |
남성 | 41.2% | 60.0% | 50.0% |
여성 | 58.8% | 40.0% | 50.0% |
합계 | 100% | 100% | 100% |
해석:
•
iPhone 사용자 중 58.8%가 여성
•
Samsung 사용자 중 60%가 남성
전체 백분율 (Total Percentage)
전체 표본을 기준으로 백분율 계산
iPhone | Samsung | 기타 | 합계 | |
남성 | 17.5% | 22.5% | 10.0% | 50.0% |
여성 | 25.0% | 15.0% | 10.0% | 50.0% |
합계 | 42.5% | 37.5% | 20.0% | 100% |
해석:
•
전체 중 25%가 "여성 + iPhone"
•
전체 중 22.5%가 "남성 + Samsung"
교차표 분석 실전 예제
상황: 흡연 여부와 폐질환 발생 연구 (500명)
교차표:
폐질환 O | 폐질환 X | 합계 | |
흡연자 | 80 | 120 | 200 |
비흡연자 | 40 | 260 | 300 |
합계 | 120 | 380 | 500 |
행 백분율로 비교:
폐질환 O | 폐질환 X | 합계 | |
흡연자 | 40% | 60% | 100% |
비흡연자 | 13.3% | 86.7% | 100% |
해석:
•
흡연자의 폐질환 발생률: 40%
•
비흡연자의 폐질환 발생률: 13.3%
•
→ 흡연자가 폐질환 발생 확률 3배 높음
막대그래프로 시각화
단순 막대그래프
각 범주의 빈도 표현
빈도
100 | ████
90 | ████
80 | ████ ████
70 | ████ ████
60 | ████ ████
50 | ████ ████ ████
40 | ████ ████ ████
30 | ████ ████ ████
20 | ████ ████ ████████
10 | ████ ████ ████████
0 |_____________________
남성 여성 (성별)
Plain Text
복사
묶은 막대그래프 (Grouped Bar Chart)
두 변수를 함께 비교
빈도
50 | □□
45 | □□ ■■
40 | □□ ■■
35 | □□ ■■
30 | □□□□■■■■
25 | □□□□■■■■
20 | □□□□■■■■□□■■
15 | □□□□■■■■□□■■
10 | □□□□■■■■□□■■
5 | □□□□■■■■□□■■
0 |________________________
남성 여성
□ = iPhone ■ = Samsung
Plain Text
복사
누적 막대그래프 (Stacked Bar Chart)
전체 구성 비율 표현
100%| 기타(20%) | 기타(20%) |
80%|─────────────────────────|
| Samsung | |
60%| (45%) | iPhone |
| | (50%) |
40%|─────────────────────────|
| | Samsung |
20%| iPhone | (30%) |
| (35%) | |
0%|_________________________|
남성 여성
Plain Text
복사
원그래프 (Pie Chart)
사용 시기:
•
하나의 범주형 변수
•
전체에 대한 구성비 표현
•
범주가 5~7개 이하일 때
예제: 선호 스마트폰 브랜드 (전체 200명)
기타 20%
╱ ╲
╱ ╲
╱ ╲
Samsung iPhone
37.5% 42.5%
Plain Text
복사
장점: 비율 직관적
단점: 범주 많으면 복잡, 정확한 비교 어려움
시각화 선택 가이드
자료 유형별 추천 그래프
상황 | 추천 그래프 |
하나의 범주형 변수 | 막대그래프, 원그래프 |
두 범주형 변수 비교 | 묶은/누적 막대그래프 |
하나의 연속형 변수 | 히스토그램, 상자그림 |
여러 그룹 비교 | 상자그림, 묶은 막대그래프 |
시간에 따른 변화 | 선그래프 |
두 연속형 변수 관계 | 산점도 |
시각화 시 주의사항
1.
축의 시작점: Y축은 0에서 시작 (왜곡 방지)
2.
색상 사용: 색맹 고려, 대비 명확히
3.
제목과 범례: 명확한 라벨 표시
4.
과도한 3D 효과 지양: 정확한 비교 방해
5.
적절한 그래프 선택: 자료 특성에 맞게
종합 실습 예제
문제: 다음 자료를 정리하고 시각화하시오
50명 학생의 수학 점수:
45, 52, 55, 58, 60, 62, 65, 67, 68, 70,
72, 73, 75, 75, 76, 78, 80, 81, 82, 84,
85, 86, 87, 88, 90, 91, 92, 93, 94, 95,
95, 96, 96, 97, 98, 98, 98, 99, 100, 100,
100, 100, 100, 100, 100, 100, 100, 100, 100, 100
Plain Text
복사
해답
도수분포표 작성
계급 개수: k = 1 + 3.3 × log₁₀(50) ≈ 6~7개 → 7개 선택
계급 크기: (100 - 45) / 7 ≈ 8 → 10으로 설정
계급 | 계급값 | 도수 | 상대도수 | 누적도수 | 백분율 |
40~50 | 45 | 1 | 0.02 | 1 | 2% |
50~60 | 55 | 3 | 0.06 | 4 | 6% |
60~70 | 65 | 5 | 0.10 | 9 | 10% |
70~80 | 75 | 7 | 0.14 | 16 | 14% |
80~90 | 85 | 8 | 0.16 | 24 | 16% |
90~100 | 95 | 11 | 0.22 | 35 | 22% |
100~110 | 105 | 15 | 0.30 | 50 | 30% |
합계 | - | 50 | 1.00 | - | 100% |
히스토그램
도수
15 | ████████
14 | ████████
13 | ████████
12 | ████████
11 | ████████████
10 | ████████████
9 | ████████████
8 | ████████████████
7 | ████████████████████
6 | ████████████████████
5 | ████████████████████████
4 | ████████████████████████
3 |████████████████████████████
2 |████████████████████████████
1 |████████████████████████████
0 |_____________________________
40 50 60 70 80 90 100
Plain Text
복사
분포 형태: 오른쪽으로 치우침 (많은 학생이 고득점)
5가지 요약 통계량
•
최솟값: 45점
•
Q1: 75점 (하위 25%)
•
Q2 (중앙값): 92.5점
•
Q3: 100점 (상위 25%)
•
최댓값: 100점
해석:
•
중간 50% 학생: 75~100점
•
상위 25% 학생: 만점
•
하위 25% 학생: 75점 이하
핵심 요약
반드시 기억할 7가지
1.
질적 자료: 범주로 표현 → 빈도표, 막대/원그래프
2.
양적 자료: 숫자로 측정 → 도수분포표, 히스토그램
3.
도수분포표: 계급 개수 5~20개, 크기 동일
4.
상대도수: 비율 (합 = 1), 누적도수: 이하 개수
5.
히스토그램: 연속형 자료의 분포 형태 파악
6.
상자그림: 5가지 요약으로 그룹 비교에 최적
7.
교차표: 두 범주형 변수의 관계 분석
연습문제
문제 1
다음 중 히스토그램과 막대그래프의 차이점은?
정답: 히스토그램은 막대 사이 간격이 없고 (연속형), 막대그래프는 간격이 있음 (범주형)
문제 2
도수분포표에서 상대도수의 합은?
정답: 1 (또는 100%)
문제 3
상자그림에서 상자의 길이는 무엇을 나타내는가?
정답: IQR (사분위수 범위 = Q3 - Q1), 즉 중간 50% 자료의 산포
문제 4
100명 중 60점 미만이 20명, 60~80점이 50명, 80점 이상이 30명일 때, 80점 미만의 누적도수는?
정답: 70명 (20 + 50)
문제 5
다음 교차표에서 남성 중 찬성 비율은?
찬성 | 반대 | 합계 | |
남성 | 40 | 60 | 100 |
여성 | 70 | 30 | 100 |
정답: 40% (40/100)
실전 팁
시험/과제에서 자주 나오는 질문
1.
"이 자료를 정리하는데 가장 적합한 그래프는?"
•
자료 유형 파악 → 그래프 선택
2.
"Q1과 Q3는 얼마인가?"
•
데이터 정렬 → 25%, 75% 위치 값
3.
"상대도수가 가장 큰 계급은?"
•
도수가 가장 큰 계급과 동일
4.
"누적백분율이 50%인 값은?"
•
중앙값 (Q2)
이것으로 2장. 자료의 정리와 시각화를 마칩니다!
다음 장에서는 정리한 자료를 하나의 수치로 요약하는 기술통계량(평균, 표준편차 등)을 배우게 됩니다. 
