데이터 분석에서 시각화는 필수적인 과정입니다. 데이터를 그래프로 표현하면 트렌드 분석, 패턴 발견, 인사이트 도출이 훨씬 쉬워집니다. R 언어에서 가장 강력한 시각화 라이브러리는 바로 ggplot2입니다.
이번 글에서는 ggplot2를 활용한 데이터 시각화 기본 개념과 실전 예제를 소개하겠습니다.
ggplot2는 R의 가장 강력한 시각화 패키지로, 데이터를 직관적으로 표현하는 그래프를 만들 수 있는 라이브러리입니다.
ggplot2는 Grammar of Graphics(그래픽 문법) 개념을 기반으로 만들어졌으며, 레이어(layer) 개념을 사용하여 차트를 단계별로 구성할 수 있습니다.
✅ ggplot2의 주요 특징
이제 ggplot2를 활용한 데이터 시각화를 직접 만들어보겠습니다.
ggplot2의 기본 구조는 다음과 같습니다.
r복사편집ggplot(데이터셋, aes(변수 설정)) +
기하학적 객체(geom_함수) +
테마 및 추가 요소
예제 데이터셋: mpg
(자동차 연비 데이터)
r복사편집library(ggplot2)
# 기본 산점도
ggplot(mpg, aes(x=displ, y=hwy)) +
geom_point()
✅ 결과: 엔진 배기량(displ
)과 고속도로 연비(hwy
)의 관계를 보여주는 산점도
r복사편집ggplot(mpg, aes(x=class)) +
geom_bar(fill="skyblue") +
labs(title="자동차 종류별 개수")
✅ 결과: 자동차 종류별 개수를 나타내는 막대그래프
r복사편집ggplot(economics, aes(x=date, y=unemploy)) +
geom_line(color="blue") +
labs(title="실업률 추이", x="연도", y="실업자 수")
✅ 결과: 연도별 실업자 수 변화 추이를 나타내는 선그래프
r복사편집ggplot(mpg, aes(x=displ, y=hwy, color=class)) +
geom_point(size=3) +
labs(title="자동차 배기량과 연비 관계")
✅ 결과: 자동차 종류별 색상을 추가하여 배기량과 연비 관계 시각화
r복사편집ggplot(mpg, aes(x=hwy)) +
geom_histogram(binwidth=2, fill="purple", color="white") +
labs(title="고속도로 연비 분포")
✅ 결과: 고속도로 연비의 분포를 보여주는 히스토그램
r복사편집ggplot(mpg, aes(x=class, y=hwy, fill=class)) +
geom_boxplot() +
labs(title="자동차 종류별 연비 비교")
✅ 결과: 자동차 종류별 연비를 비교하는 상자그래프
ggplot2는 다양한 옵션을 제공하여 그래프를 더욱 세련되게 만들 수 있습니다.
r복사편집ggplot(mpg, aes(x=displ, y=hwy, color=class)) +
geom_point(size=3) +
theme_minimal() +
labs(title="깔끔한 디자인의 산점도")
✅ 결과: theme_minimal()
을 사용하여 더욱 깔끔한 스타일 적용
r복사편집ggplot(mpg, aes(x=displ, y=hwy)) +
geom_point() +
geom_text(aes(label=model), vjust=-0.5) +
labs(title="자동차 모델별 연비 분석")
✅ 결과: 산점도 위에 각 자동차 모델명을 표시
r복사편집library(plotly)
ggplotly(ggplot(mpg, aes(x=displ, y=hwy)) + geom_point())
✅ 결과: 마우스 움직임에 반응하는 동적 그래프
Windows에서 파일 탐색기를 열 때 "이 컴퓨터에 연결된 디스크 드라이브 및 하드웨어를 표시합니다"라는 메시지가 나타나는…
해외에 있는 가족, 친구 또는 비즈니스 파트너와 통화해야 할 때, 국제전화 요금이 부담될 수 있습니다.…
공기 오염은 현대 사회에서 중요한 환경 문제 중 하나이며, 이를 예측하는 시스템은 빅데이터, AI, 기상…
엡손 프린터 L3216 모델의 주요 특징과 성능 엡손 프린터 L3216 모델은 소규모 사무실이나 가정에서 효율적인…