Python

Python Dataprep 라이브러리를 이용한 EDA 자동화하기

miniverse-lab 2025. 4. 14. 10:00

어찌 보면 우리가 실무에서 데이터 분석을 하는 과정은 Data를 모으고, 전처리 하고, EDA (Exploratory Data Analysis) 하는 과정의 반복이라고 볼 수 있습니다. 하지만 수십 개의 컬럼과 수천 개의 데이터가 주어졌을 때, 일일이 통계를 내고 시각화를 만드는 건 생각보다 번거로운 일이죠

이런 문제를 해결하기 위해 파이썬에는 다양한 전처리 및 EDA(Exploratory Data Analysis) 도구가 존재하지만, 그중에서도 초보자부터 중급 분석가까지 빠르게 활용할 수 있는 도구 "Dataprep" 에 대해서 소개해보겠습니다

Dataprep이란?

Dataprep은 파이썬 기반의 오픈소스 라이브러리로, EDA(Exploratory Data Analysis)를 손쉽게 자동화할 수 있도록 설계된 도구입니다. 내부적으로는 pandas를 기반으로 작동하며, 몇 줄의 코드만으로도 시각적인 분석 리포트를 제공해 준다는 장점을 가지고 있기에 데이터 분석을 처음 접하는 분들이나, 반복적인 데이터 정리를 자동화하고 싶은 실무자들에게 적합한 도구입니다.

 

Dateprep 설치 방법 및 기본사용법

 

Dataprep 설치 방법

Dataprep의 설치방법은 정말 간단합니다 아래의 "pip install dataprep" 코드를 셀에 입력해주면 설치가 됩니다

 

pip install dataprep

 

from dataprep.datasets import load_dataset
from dataprep.eda import create_report

# 데이터셋 불러오기
df = load_dataset("titanic")

 

Dataprep의 기본적인 사용법을 위해 dataprep.dataset에 저장된 "titanic" Data를 통해서 예시를 들어보겠습니다

 

 

Titanic 데이터셋은 1912년 침몰한 타이타닉 호에 탑승한 승객들 중에서 누가 생존했고 누가 그렇지 않았는지에 대한 정보를 담고 있는 데이터셋입니다. df.info()를 통해서 12개의 Column 중에서 null값이 존재하는 몇 개의 Column이 확인되네요

 

from dataprep.eda import plot

# 컬럼 하나만 시각화
plot(df, "Age")

 

예시로 Titanic 데이터셋에서 탑승객의 나이인 "Age" Column에 대한 EDA를 하고싶다면, "from dataprep.eda import plot"을 이용하면 됩니다

 

 

상단의 이미지처럼 "plot(df, "Age")" 코드 한줄만으로 Titanic 데이터셋의 "Age" Column에 대한 기술통계, 히스토그램, BOXPLOT, Q-Q PLOT 등의 다양한 EDA 정보를 제공해 줍니다.

Dataprep 사용법
(모든 Column만 분석 시)
from dataprep.eda import create_report

#모든 Column에 대한 EDA
df_report=create_report(df,title="타이타닉 Data")

#브라우저 창으로 EDA결과 확인하기
df_report.show_browser()

 

특정 Column 말고 Data의 모든 Column에 대한 EDA 결과를 보고 싶다면, "from dataprep.eda import create_report" 을 이용하면 됩니다."df_report.show_browser()"을 통해 파이썬 환경이 아닌 새로운 브라우저창에서 EDA결과를 확인이 가능하고 Dateprep에서 제공하는 EDA의 결과는 다음과 같습니다

 

1.Overview : 전반적인 Data의 Summary

2. Variables : 각 Column에 대한 기술통계 제공

3. Interactions : Column 간의 Scatter plot 제공
4. Correlation : Column간의 상관관계 heatmap 제공

5.Missing Values : Missing Value 시각화 제공

 

dataprep 라이브러리는 EDA(탐색적 데이터 분석) 과정을 자동화해 주는 훌륭한 도구입니다. 물론 100 만행 이상의 방대한 Data Set에 대해서 Dataprep을 이용하기 어렵다는 단점이 존재하지만, 실무에서 간단한 Dataset들에 대하여 복잡한 코딩 없이 한 줄로 데이터가 어떤 특성을 갖고 있는지 빠르게 파악하고 싶다면 dataprep 라이브러리를 한 번 사용해 보시는 걸 추천드립니다.