HOME
home
About
home
📕

2장. 자료의 정리와 시각화

2.1 자료의 종류

데이터를 효과적으로 분석하려면 먼저 자료의 유형을 파악해야 합니다.

자료의 분류 체계

자료(Data) │ ├─ 질적 자료 (Qualitative Data / Categorical Data) │ ├─ 명목형: 성별, 혈액형, 지역 │ └─ 순서형: 만족도, 등급, 학년 │ └─ 양적 자료 (Quantitative Data / Numerical Data) ├─ 이산형(Discrete): 가족 수, 판매량, 불량품 개수 └─ 연속형(Continuous): 키, 몸무게, 온도, 시간
Plain Text
복사

질적 자료 (범주형 자료)

정의: 범주나 속성으로 표현되는 자료 (숫자가 아닌 특성)
특징:
개수를 셀 수 있음 (빈도)
산술 평균 계산 불가
그래프: 막대그래프, 원그래프
예시:
좋아하는 색깔: 빨강, 파랑, 노랑
직업: 학생, 회사원, 자영업
선호 브랜드: A, B, C

양적 자료 (수치형 자료)

정의: 숫자로 측정되는 자료
특징:
산술연산 가능
평균, 표준편차 계산 가능
그래프: 히스토그램, 상자그림

이산형 (Discrete)

셀 수 있는 정수 값
예: 자녀 수(0, 1, 2, 3...), 판매 대수

연속형 (Continuous)

무한히 많은 값 가능 (소수점 포함)
예: 키(170.5cm), 시간(3.14초)

자료 유형별 정리 방법

자료 유형
정리 방법
시각화 도구
대표값
명목형
빈도표
막대그래프, 원그래프
최빈값
순서형
빈도표
막대그래프
중앙값, 최빈값
이산형
도수분포표
막대그래프, 점그래프
평균, 중앙값
연속형
계급별 도수분포표
히스토그램, 상자그림
평균, 중앙값

2.2 도수분포표 (Frequency Distribution Table)

도수분포표란?

정의: 자료를 몇 개의 구간(계급)으로 나누어 각 구간에 속하는 자료의 개수를 정리한 표

주요 용어

계급(Class): 자료를 나누는 구간
도수(Frequency): 각 계급에 속하는 자료의 개수
계급값(Class Midpoint): 계급의 중간값
계급의 크기(Class Width): 구간의 폭

도수분포표 작성 단계

STEP 1: 계급의 개수 결정

Sturges 공식 (권장):
계급 개수(k) = 1 + 3.3 × log₁₀(n)
Plain Text
복사
n = 표본 크기
일반적으로 5~20개 사이
예시:
n = 50 → k ≈ 7개
n = 100 → k ≈ 8개
n = 500 → k ≈ 10개

STEP 2: 계급의 크기 결정

계급의 크기 = (최댓값 - 최솟값) / 계급 개수
Plain Text
복사

STEP 3: 계급 구간 설정

첫 계급의 하한 ≤ 최솟값
마지막 계급의 상한 ≥ 최댓값

STEP 4: 도수 세기

각 계급에 속하는 자료의 개수 집계

도수분포표 예제

상황: 학생 30명의 수학 시험 점수
원 데이터:
45, 52, 58, 62, 65, 67, 68, 70, 72, 73, 75, 75, 76, 78, 80, 81, 82, 84, 85, 86, 87, 88, 90, 91, 92, 93, 94, 95, 96, 98
Plain Text
복사
도수분포표 작성:
계급 (점수)
계급값
도수
상대도수
누적도수
40 ~ 50
45
1
0.033
1
50 ~ 60
55
2
0.067
3
60 ~ 70
65
5
0.167
8
70 ~ 80
75
8
0.267
16
80 ~ 90
85
8
0.267
24
90 ~ 100
95
6
0.200
30
합계
-
30
1.000
-
계급값 계산 예:
40~50 구간 계급값 = (40 + 50) / 2 = 45

도수분포표 작성 시 주의사항

1.
계급의 크기는 동일하게 (특별한 경우 제외)
2.
계급 간 중복 방지: "이상 ~ 미만" 또는 "초과 ~ 이하"
3.
계급 개수: 너무 적으면 정보 손실, 너무 많으면 복잡
4.
개방 계급 피하기: "100 이상" 같은 표현 지양

2.3 상대도수, 누적도수, 백분율

상대도수 (Relative Frequency)

정의: 전체 자료에서 각 계급이 차지하는 비율
공식:
상대도수 = 도수 / 전체 자료 수
Plain Text
복사
특징:
0과 1 사이 값
모든 상대도수의 합 = 1
비율 비교에 유용
예시:
70~80점 구간: 8명 / 30명 = 0.267 (26.7%)

누적도수 (Cumulative Frequency)

정의: 그 계급까지의 도수를 모두 합한 값
계산:
누적도수 = 이전 계급까지의 누적도수 + 현재 계급의 도수
Plain Text
복사
활용:
"~점 이하가 몇 명인가?" 질문에 답변
백분위수 계산
예시 (위 표 참고):
80점 미만 학생: 16명
90점 미만 학생: 24명

백분율 (Percentage)

정의: 상대도수를 100배한 값
공식:
백분율(%) = 상대도수 × 100
Plain Text
복사
예시:
80~90점: 0.267 × 100 = 26.7%

종합 예제

50명 학생의 출석 일수 조사
출석일수
도수
상대도수
백분율
누적도수
누적백분율
0 ~ 5
3
0.06
6%
3
6%
5 ~ 10
7
0.14
14%
10
20%
10 ~ 15
15
0.30
30%
25
50%
15 ~ 20
18
0.36
36%
43
86%
20 ~ 25
7
0.14
14%
50
100%
합계
50
1.00
100%
-
-
해석:
출석 15일 미만: 25명 (50%)
출석 15~20일: 18명 (36%)
출석 10일 이상: 40명 (80%)

2.4 시각화 방법

히스토그램 (Histogram)

정의: 연속형 자료의 도수분포를 막대그래프로 표현
특징:
X축: 계급 구간
Y축: 도수 (또는 상대도수)
막대 사이 간격 없음 (연속성 표현)
히스토그램 예시 (위 시험 점수 자료):
도수 8 | ████ ████ 7 | ████ ████ 6 | ████ ████ ████ 5 | ████████ ████ ████ 4 | ████████ ████ ████ 3 | ████████ ████ ████ 2 | ████████ ████ ████ 1 |██████████ ████████████████ 0 |________________________________ 40 50 60 70 80 90 100 (점수)
Plain Text
복사
해석:
70~90점 구간에 학생들이 집중
좌우 대칭에 가까운 분포
평균 근처에 밀집

줄기잎그림 (Stem-and-Leaf Plot)

정의: 원 데이터의 값을 유지하면서 분포를 시각화
구성:
줄기(Stem): 앞자리 숫자
잎(Leaf): 뒷자리 숫자
예제: 학생 20명의 키(cm)
원 데이터:
152, 155, 158, 160, 162, 163, 165, 167, 168, 170, 171, 172, 175, 176, 178, 180, 182, 185, 188, 190
Plain Text
복사
줄기잎그림:
줄기 | 잎 ----------- 15 | 2 5 8 16 | 0 2 3 5 7 8 17 | 0 1 2 5 6 8 18 | 0 2 5 8 19 | 0
Plain Text
복사
장점:
원 데이터 값 확인 가능 (15|2 → 152cm)
분포 형태 한눈에 파악
작은 데이터셋에 적합
단점:
데이터가 많으면 복잡
소수점 있는 데이터는 처리 번거로움

상자수염그림 (Box Plot / Boxplot)

정의: 5가지 요약 통계량으로 자료의 분포를 시각화
5가지 요약 통계량:
1.
최솟값 (Minimum)
2.
제1사분위수 Q1 (25%)
3.
중앙값 Q2 (Median, 50%)
4.
제3사분위수 Q3 (75%)
5.
최댓값 (Maximum)
상자그림 구조:
최댓값 | * ← 이상치(Outlier) | ┌──────┴──────┐ │ │ Q3 ├─────────────┤ │ │ Q2 ├─────────────┤ (중앙값) │ │ Q1 ├─────────────┤ │ │ └──────┬──────┘ | * ← 이상치 | 최솟값
Plain Text
복사
구성 요소:
상자(Box): Q1 ~ Q3 (중간 50% 데이터)
중간선: 중앙값 (Q2)
수염(Whisker): 정상 범위 최댓값/최솟값
점(•): 이상치

상자그림 예제

학생 15명의 시험 점수:
60, 65, 68, 70, 72, 75, 78, 80, 82, 85, 88, 90, 92, 95, 100
Plain Text
복사
5가지 요약 통계량 계산:
1.
최솟값: 60점
2.
Q1 (25% 위치): 70점
3.
Q2 (중앙값, 50%): 80점
4.
Q3 (75% 위치): 90점
5.
최댓값: 100점
IQR (사분위수 범위):
IQR = Q3 - Q1 = 90 - 70 = 20
Plain Text
복사
이상치 경계:
하한 = Q1 - 1.5 × IQR = 70 - 30 = 40 상한 = Q3 + 1.5 × IQR = 90 + 30 = 120
Plain Text
복사
→ 모든 데이터가 40~120 범위 내 → 이상치 없음

상자그림 해석 방법

분포의 형태

좌우 대칭:
├───┼───┤
Plain Text
복사
Q2가 상자 중앙
수염 길이 비슷
왼쪽으로 치우침 (음의 왜도):
├─┼─────┤
Plain Text
복사
Q2가 왼쪽으로 치우침
오른쪽 수염이 김
오른쪽으로 치우침 (양의 왜도):
├─────┼─┤
Plain Text
복사
Q2가 오른쪽으로 치우침
왼쪽 수염이 김

여러 그룹 비교

예제: 세 반의 수학 성적 비교
A반 |───────┼───────| B반 |───┼────| C반 |──┼───| 50 60 70 80 90 100
Plain Text
복사
해석:
A반: 점수 분포가 가장 넓음 (산포 큼)
B반: 중앙값이 가장 높음
C반: 분포가 집중되어 있음 (산포 작음)

시각화 방법 비교

그래프
자료 유형
장점
단점
활용
히스토그램
연속형
분포 형태 명확
원 데이터 손실
도수분포 표현
줄기잎그림
양적
원 데이터 유지
큰 데이터셋 부적합
소규모 데이터
상자그림
양적
5가지 요약, 비교 용이
상세 분포 불명
그룹 간 비교
막대그래프
범주형
직관적, 비교 용이
-
범주별 빈도
원그래프
범주형
비율 시각화
범주 많으면 복잡
구성비 표현

2.5 교차표와 범주형 자료 요약

교차표 (Cross Tabulation / Contingency Table)

정의: 두 개 이상의 범주형 변수 간 관계를 표로 정리
목적:
변수 간 연관성 파악
독립성 검정 준비

교차표 기본 구조

예제: 성별과 스마트폰 선호도 조사 (200명)
단순 교차표 (빈도):
iPhone
Samsung
기타
합계
남성
35
45
20
100
여성
50
30
20
100
합계
85
75
40
200

백분율 교차표

행 백분율 (Row Percentage)

각 행의 합을 기준으로 백분율 계산
iPhone
Samsung
기타
합계
남성
35%
45%
20%
100%
여성
50%
30%
20%
100%
해석:
남성: Samsung 선호 45%
여성: iPhone 선호 50%

열 백분율 (Column Percentage)

각 열의 합을 기준으로 백분율 계산
iPhone
Samsung
기타
남성
41.2%
60.0%
50.0%
여성
58.8%
40.0%
50.0%
합계
100%
100%
100%
해석:
iPhone 사용자 중 58.8%가 여성
Samsung 사용자 중 60%가 남성

전체 백분율 (Total Percentage)

전체 표본을 기준으로 백분율 계산
iPhone
Samsung
기타
합계
남성
17.5%
22.5%
10.0%
50.0%
여성
25.0%
15.0%
10.0%
50.0%
합계
42.5%
37.5%
20.0%
100%
해석:
전체 중 25%가 "여성 + iPhone"
전체 중 22.5%가 "남성 + Samsung"

교차표 분석 실전 예제

상황: 흡연 여부와 폐질환 발생 연구 (500명)
교차표:
폐질환 O
폐질환 X
합계
흡연자
80
120
200
비흡연자
40
260
300
합계
120
380
500
행 백분율로 비교:
폐질환 O
폐질환 X
합계
흡연자
40%
60%
100%
비흡연자
13.3%
86.7%
100%
해석:
흡연자의 폐질환 발생률: 40%
비흡연자의 폐질환 발생률: 13.3%
→ 흡연자가 폐질환 발생 확률 3배 높음

막대그래프로 시각화

단순 막대그래프

각 범주의 빈도 표현
빈도 100 | ████ 90 | ████ 80 | ████ ████ 70 | ████ ████ 60 | ████ ████ 50 | ████ ████ ████ 40 | ████ ████ ████ 30 | ████ ████ ████ 20 | ████ ████ ████████ 10 | ████ ████ ████████ 0 |_____________________ 남성 여성 (성별)
Plain Text
복사

묶은 막대그래프 (Grouped Bar Chart)

두 변수를 함께 비교
빈도 50 | □□ 45 | □□ ■■ 40 | □□ ■■ 35 | □□ ■■ 30 | □□□□■■■■ 25 | □□□□■■■■ 20 | □□□□■■■■□□■■ 15 | □□□□■■■■□□■■ 10 | □□□□■■■■□□■■ 5 | □□□□■■■■□□■■ 0 |________________________ 남성 여성 □ = iPhone ■ = Samsung
Plain Text
복사

누적 막대그래프 (Stacked Bar Chart)

전체 구성 비율 표현
100%| 기타(20%) | 기타(20%) | 80%|─────────────────────────| | Samsung | | 60%| (45%) | iPhone | | | (50%) | 40%|─────────────────────────| | | Samsung | 20%| iPhone | (30%) | | (35%) | | 0%|_________________________| 남성 여성
Plain Text
복사

원그래프 (Pie Chart)

사용 시기:
하나의 범주형 변수
전체에 대한 구성비 표현
범주가 5~7개 이하일 때
예제: 선호 스마트폰 브랜드 (전체 200명)
기타 20% ╱ ╲ ╱ ╲ ╱ ╲ Samsung iPhone 37.5% 42.5%
Plain Text
복사
장점: 비율 직관적
단점: 범주 많으면 복잡, 정확한 비교 어려움

시각화 선택 가이드

자료 유형별 추천 그래프

상황
추천 그래프
하나의 범주형 변수
막대그래프, 원그래프
두 범주형 변수 비교
묶은/누적 막대그래프
하나의 연속형 변수
히스토그램, 상자그림
여러 그룹 비교
상자그림, 묶은 막대그래프
시간에 따른 변화
선그래프
두 연속형 변수 관계
산점도

시각화 시 주의사항

1.
축의 시작점: Y축은 0에서 시작 (왜곡 방지)
2.
색상 사용: 색맹 고려, 대비 명확히
3.
제목과 범례: 명확한 라벨 표시
4.
과도한 3D 효과 지양: 정확한 비교 방해
5.
적절한 그래프 선택: 자료 특성에 맞게

종합 실습 예제

문제: 다음 자료를 정리하고 시각화하시오

50명 학생의 수학 점수:
45, 52, 55, 58, 60, 62, 65, 67, 68, 70, 72, 73, 75, 75, 76, 78, 80, 81, 82, 84, 85, 86, 87, 88, 90, 91, 92, 93, 94, 95, 95, 96, 96, 97, 98, 98, 98, 99, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100, 100
Plain Text
복사

해답

도수분포표 작성

계급 개수: k = 1 + 3.3 × log₁₀(50) ≈ 6~7개 → 7개 선택
계급 크기: (100 - 45) / 7 ≈ 8 → 10으로 설정
계급
계급값
도수
상대도수
누적도수
백분율
40~50
45
1
0.02
1
2%
50~60
55
3
0.06
4
6%
60~70
65
5
0.10
9
10%
70~80
75
7
0.14
16
14%
80~90
85
8
0.16
24
16%
90~100
95
11
0.22
35
22%
100~110
105
15
0.30
50
30%
합계
-
50
1.00
-
100%

히스토그램

도수 15 | ████████ 14 | ████████ 13 | ████████ 12 | ████████ 11 | ████████████ 10 | ████████████ 9 | ████████████ 8 | ████████████████ 7 | ████████████████████ 6 | ████████████████████ 5 | ████████████████████████ 4 | ████████████████████████ 3 |████████████████████████████ 2 |████████████████████████████ 1 |████████████████████████████ 0 |_____________________________ 40 50 60 70 80 90 100
Plain Text
복사
분포 형태: 오른쪽으로 치우침 (많은 학생이 고득점)

5가지 요약 통계량

최솟값: 45점
Q1: 75점 (하위 25%)
Q2 (중앙값): 92.5점
Q3: 100점 (상위 25%)
최댓값: 100점
해석:
중간 50% 학생: 75~100점
상위 25% 학생: 만점
하위 25% 학생: 75점 이하

핵심 요약

반드시 기억할 7가지

1.
질적 자료: 범주로 표현 → 빈도표, 막대/원그래프
2.
양적 자료: 숫자로 측정 → 도수분포표, 히스토그램
3.
도수분포표: 계급 개수 5~20개, 크기 동일
4.
상대도수: 비율 (합 = 1), 누적도수: 이하 개수
5.
히스토그램: 연속형 자료의 분포 형태 파악
6.
상자그림: 5가지 요약으로 그룹 비교에 최적
7.
교차표: 두 범주형 변수의 관계 분석

연습문제

문제 1

다음 중 히스토그램과 막대그래프의 차이점은?
정답: 히스토그램은 막대 사이 간격이 없고 (연속형), 막대그래프는 간격이 있음 (범주형)

문제 2

도수분포표에서 상대도수의 합은?
정답: 1 (또는 100%)

문제 3

상자그림에서 상자의 길이는 무엇을 나타내는가?
정답: IQR (사분위수 범위 = Q3 - Q1), 즉 중간 50% 자료의 산포

문제 4

100명 중 60점 미만이 20명, 60~80점이 50명, 80점 이상이 30명일 때, 80점 미만의 누적도수는?
정답: 70명 (20 + 50)

문제 5

다음 교차표에서 남성 중 찬성 비율은?
찬성
반대
합계
남성
40
60
100
여성
70
30
100
정답: 40% (40/100)

실전 팁

시험/과제에서 자주 나오는 질문

1.
"이 자료를 정리하는데 가장 적합한 그래프는?"
자료 유형 파악 → 그래프 선택
2.
"Q1과 Q3는 얼마인가?"
데이터 정렬 → 25%, 75% 위치 값
3.
"상대도수가 가장 큰 계급은?"
도수가 가장 큰 계급과 동일
4.
"누적백분율이 50%인 값은?"
중앙값 (Q2)
이것으로 2장. 자료의 정리와 시각화를 마칩니다!
다음 장에서는 정리한 자료를 하나의 수치로 요약하는 기술통계량(평균, 표준편차 등)을 배우게 됩니다.