Data Analysis Base

What is EDA?

EDA(Exploratory Data Analysis, 탐색적 데이터 분석)는 데이터를 분석하고 이해하는 과정에서 매우 중요한 단계입니다. EDA의 목적은 주어진 데이터의 구조, 이상치, 패턴, 관계 등을 발견하고 이해함으로써, 데이터에 대한 직관을 가지는 것 입니다. 추후 분석이나 모델링 단계에서의 가정과 전략을 수립하는데 도움이됩니다

EDA에는 주요 단계가 있으며, 이 단계들은 데이터의 특성과 분석 목적에 따라 조정될 수 있습니다.

일반적 단계

데이터 수집: 분석할 데이터를 수집하는 초기 단계입니다. 이 단계에서는 다양한 출처에서 데이터를 수집하고, 필요한 경우 데이터를 병합하여 분석을 위한 데이터셋을 준비합니다.

데이터 정제: 수집한 데이터에서 누락된 값, 중복된 값, 오류 또는 이상치를 식별하고 처리하는 단계입니다. 데이터의 품질을 높이는 것이 주 목적입니다.

데이터 탐색: 데이터의 기본적인 통계적 특성을 파악하는 단계입니다. 평균, 중앙값, 표준편차, 최댓값, 최솟값 등의 기술통계를 사용하여 데이터의 중심 경향성과 분산을 파악합니다.

데이터 시각화: 데이터를 그래프, 차트, 히스토그램, 상자 그림 등을 사용하여 시각적으로 표현하는 단계입니다. 데이터 시각화는 패턴, 이상치, 그룹 간의 관계 등을 더 쉽게 이해할 수 있게 해줍니다.

다변량 분석: 두 변수 이상의 관계를 탐색하는 단계입니다. 상관 분석, 군집 분석, 주성분 분석(PCA) 등을 사용하여 변수 간의 상호작용과 연관성을 파악합니다.

가설 검정 및 모델링 준비: EDA 과정에서 발견된 패턴이나 관계에 대해 가설을 세우고, 이를 검증하기 위한 준비 단계입니다. 이 단계는 데이터를 모델링에 적합하게 만드는 데 필요한 변환을 식별하고 수행하는 것을 포함할 수 있습니다.

EDA는 데이터를 좀 더 유연하게 이해하려는 시도이고, 이를 통해 분석가가 유용한 통찰을 얻으며, 효과적인 데이터 기반 결정을 내리는 데 도움을 줍니다. 데이터의 종류와 분석의 목적에 따라 위의 단계들은 조정되거나 확장될 수 있습니다.

EDA의 목적은 데이터를 더 잘 이해하고, 데이터에서 유의미한 정보를 추출하여 의사 결정 과정을 지원하는 데 있습니다. 데이터 시각화는 EDA 과정에서 중요한 역할을 하며, 히스토그램, 산점도, 상자 그림 등 다양한 그래픽을 사용하여 데이터의 분포, 관계 등을 직관적으로 이해할 수 있게 돕습니다.

EDA는 데이터 과학 프로젝트의 초기 단계에서 매우 중요한 단계로, 데이터에 숨겨진 패턴이나 특성을 발견하고, 후속 분석이나 모델링 전략을 수립하는 데 필수적인 토대를 제공합니다. 또한, 데이터의 품질을 향상시키고 분석 결과의 신뢰도를 높이는 데에도 기여합니다. EDA를 통해 얻은 인사이트는 비즈니스 문제 해결, 제품 개발, 고객 이해 등 다양한 분야에 활용될 수 있습니다.

데이터 분석 프로세스

문제정의 → 가설설정 → 데이터 수집 → 데이터 분석 → 가설 증명 → 인사이트 도출

데이터 시각화 프로세스

문제정의 → 데이터 수집 →데이터 전처리(중복값제거 , 결측치 제거 ,Feature Engeenring)→ 데이터 시각화 → 대시보드 구축

What is EDA

EDA example

•

Kaggle

•

데이콘

•

예시

가설 증명 방법

가설 증명은 데이터 분석에서 중요한 단계입니다. 일반적으로 다음과 같은 방법을 사용하여 가설을 검증합니다:

통계적 가설 검정: 데이터를 사용하여 가설을 통계적으로 검정합니다. 이를 통해 가설이 통계적으로 유의미한지 확인할 수 있습니다.

A/B 테스트: 두 가지 또는 그 이상의 조건을 비교하여 가설을 검증합니다. 이를 통해 다른 조건이나 변화가 결과에 미치는 영향을 확인할 수 있습니다.

예측 모델링: 데이터를 사용하여 예측 모델을 구축하고, 가설을 검증합니다. 모델을 사용하여 예측하고, 예측 결과를 실제 결과와 비교하여 가설을 확인할 수 있습니다.

시각화 및 데이터 탐색: 데이터를 시각화하고 탐색하여 가설을 검증합니다. 시각화를 통해 데이터의 패턴이나 상관 관계를 확인하고, 가설을 검증할 수 있습니다.

가설 증명은 데이터 분석에서 중요한 단계이며, 이를 통해 인사이트를 도출하고 의사 결정을 지원할 수 있습니다.

데이터 분석은 많은 이야기를 데이터로부터 추출할 수 있는 과정입니다. 데이터는 정보와 인사이트를 제공하며, 이를 통해 더 나은 의사 결정을 할 수 있습니다.

데이터는 다양한 형태와 속성을 가지고 있으며, 이를 효과적으로 분석하여 유용한 정보를 도출합니다. 데이터 분석은 문제를 정의하고 가설을 세우며, 필요한 데이터를 수집하여 분석합니다. 데이터 시각화는 데이터를 시각적으로 표현하여 패턴과 상관 관계를 파악하고, 대시보드를 구축하여 결과를 시각화합니다.

데이터 분석에서 가설 증명은 중요한 단계입니다. 통계적 가설 검정을 통해 데이터를 사용하여 가설의 유의성을 확인하고, A/B 테스트를 통해 다른 조건이나 변화가 결과에 미치는 영향을 확인할 수 있습니다. 예측 모델링을 통해 데이터로부터 예측 모델을 구축하고, 가설을 검증할 수 있습니다. 또한, 데이터를 시각화하고 탐색하여 데이터의 패턴이나 상관 관계를 확인하며, 가설을 검증할 수도 있습니다.

데이터 분석은 인사이트 도출과 의사 결정을 지원하는 중요한 단계입니다. 데이터를 통해 트렌드를 파악하고, 문제를 해결하며, 비즈니스에 가치를 창출할 수 있습니다.

전자상거래에서의 데이터분석 A/B test

AB 테스트는 두 가지 또는 그 이상의 조건을 비교하여 가설을 검증하는 방법입니다. 예를 들어, 웹사이트의 디자인이나 마케팅 전략의 효과를 비교하기 위해 사용될 수 있습니다. AB 테스트는 다음과 같은 절차로 진행됩니다:

문제 정의: AB 테스트를 통해 검증하고자 하는 가설을 정의합니다. 예를 들어, "웹사이트의 CTA 버튼 디자인이 구매율에 영향을 미칠까?"와 같은 가설을 설정할 수 있습니다.

조건 설정: 테스트할 조건을 설정합니다. 이는 A 그룹과 B 그룹으로 나누어집니다. A 그룹은 기존의 조건(예: 현재 버튼 디자인)을 유지하고, B 그룹은 변화된 조건(예: 새로운 버튼 디자인)을 적용합니다.

데이터 수집: A 그룹과 B 그룹에서 데이터를 수집합니다. 예를 들어, 각 그룹의 방문자 수, 구매량 등을 기록합니다.

결과 분석: 수집한 데이터를 분석하여 두 조건 간의 차이를 확인합니다. 예를 들어, B 그룹의 구매율이 A 그룹보다 높은지 확인할 수 있습니다.

AB 테스트는 통계적인 방법을 사용하여 가설을 검정합니다. 통계적인 유의성 분석을 통해 두 조건 간의 차이가 우연히 발생한 것인지, 아니면 실제로 유의미한 차이가 있는지를 확인합니다. 이를 통해 새로운 조건의 효과를 확인하고, 의사 결정에 활용할 수 있습니다.

예시: 예를 들어, 전자상거래 사이트에서 AB 테스트를 통해 상품 페이지의 레이아웃을 비교해보겠습니다. A 그룹은 현재의 레이아웃을 사용하고, B 그룹은 변경된 레이아웃을 사용합니다. 이후, 두 그룹의 방문자 수, 클릭율, 구매율 등을 측정하여 분석합니다. 결과적으로 B 그룹이 A 그룹보다 높은 클릭율과 구매율을 보인다면, 새로운 레이아웃이 더 효과적인 것으로 판단할 수 있습니다.

용어정리

BI tool

대시보드

Datalake

Datawarwhouse

데이터의 분류

수치형/범주형

→ 막대차트, 통계모델에서 중요

시각화하는 과정은 데이터 분석에서 중요한 단계입니다. 시각화는 데이터를 시각적으로 표현하여 패턴과 상관 관계를 파악하고, 대시보드를 구축하여 결과를 시각화하는 과정입니다.

시각화하는 과정은 다음과 같습니다:

문제 정의: 시각화를 통해 해결하고자 하는 문제를 정의합니다. 예를 들어, "매출의 추이를 시각화하여 패턴을 파악하고 비즈니스 성과를 평가하고자 합니다."라는 문제를 정의할 수 있습니다.

데이터 수집: 시각화에 필요한 데이터를 수집합니다. 예를 들어, 매출 데이터, 고객 정보, 시간대별 판매량 등의 데이터를 수집합니다.

데이터 전처리: 수집한 데이터를 정제하고 전처리합니다. 중복값 제거, 결측치 제거, Feature Engineering 등의 작업을 수행합니다.

시각화 기법 선택: 시각화를 위해 적절한 시각화 기법을 선택합니다. 막대 그래프, 선 그래프, 원 그래프, 히트맵 등 다양한 시각화 기법을 활용할 수 있습니다.

데이터 시각화: 선택한 시각화 기법을 사용하여 데이터를 시각화합니다. 예를 들어, 매출 추이를 선 그래프로 표현하거나, 지역별 판매량을 막대 그래프로 표현할 수 있습니다.

대시보드 구축: 시각화한 결과를 대시보드에 구축합니다. 대시보드는 여러 시각화 요소를 한눈에 볼 수 있는 형태로 구성됩니다. 예를 들어, 매출 추이와 지역별 판매량을 함께 표시하는 대시보드를 구축할 수 있습니다.

시각화하는 과정을 통해 데이터의 패턴과 상관 관계를 파악할 수 있습니다. 이를 통해 인사이트를 도출하고 의사 결정을 지원할 수 있습니다. 데이터 시각화는 많은 이해관계자들에게 정보를 전달하고 시각화를 통해 효과적으로 데이터를 이해할 수 있도록 도와줍니다.

1973년에 ＂Graphs in Statistical Analysis＂ 논문에 발표되었는데, 미국의 통계학자 프란시스 앤스콤(Francis Anscombe)에 의해 ＂Anscombe＇s Quartet＂으로 알려진 이 논문은 통계학에서 데이터 시각화와 요약 통계량의 중요성을 강조하는 데 큰 역할을 하였습니다. 이 논문의 주요 목적은 데이터의 시각적 표현이 통계 분석에서 얼마나 중요한지를 보여주기 위해 네 가지 서로 다른 데이터 세트를 사용한 것입니다.

Anscombe의 Quartet은 네 개의 서로 다른 데이터 세트로 구성되어 있으며, 각 데이터 세트는 다른 통계적 특성이 있지만, 평균, 분산, 상관 관계 및 회귀 선형 모델 등의 기본 통계량이 거의 같다는 특징을 보입니다. 이를 통해 Anscombe은 데이터 분석을 위해 단순히 통계량을 사용하는 것이 아니라 데이터를 시각화하고 검토해야 한다는 중요한 교훈을 제공했습니다.

Anscombe의 Quartet은 데이터 분석에 있어서 요약 통계량만으로는 충분하지 않고, 데이터의 분포와 패턴을 이해하기 위해 시각화가 필요하다는 점을 강조하는데 사용됩니다. 이 논문은 통계 교육 및 데이터 과학 분야에서 데이터 시각화의 중요성을 강조하고, 통계 결과를 해석할 때 데이터의 문맥을 고려해야 함을 알려주는 중요한 개념을 제시했습니다.

참고자료

Anscombe, Francis J. "Graphs in statistical analysis." The american statistician 27.1 (1973): 17-21.