데이터 시각화
히스토그램Histogram
수치형 데이터의 구간별 빈도수를 나타내는 시각화 기법
데이터 집합의 중심, 값의 분포 및 형태를 알 수 있어서 가장 기본적으로 활용되는 시각화 기법
분포차트Density Plot
수치형 데이터의 구간별 빈도수를 나타내는 시각화 기법
박스차트 Boxplot
수치형 데이터 통계정보를 기반으로 그 분포를 박스 모양으로 나타낸 시각 기법
데이터 분포와 이상치 같은 통계적 특성을 한 눈에 파악 가능
카운트플롯 Countplot - 막대그래프
범주형 데이터에 대한 값의 개수를 보여주는 시각화 기
히스토그램과 카운트플롯의 차이점?
카운트플롯은 수치형 데이터가 아닌, 범주형 데이터를 활용
산점도 Scatterplot
두 수치형 데이터 사이의 관계를 보여주는 시각화 기
수치를 좌표평면 상의 점으로 표시, 회귀선을 그어 상관관계 확인
히트맵Heatmap
두 수치형 데이터 사이의 관계 표현
색상 활용, 데이터 간 상관관계 표시
상관관계 - 상관계수(Correlation) → -1 ~ +1 범위 내의 숫자다. 상관계수가 -1에 가까우며 음의 상관관계, +1에 가까우면 양의 상관관계, 0에 가까우면 상관관계가 없다는 의미다.
따라서 잘 구분하기 위해 색의 음영으로 시각화했다.
1에 가까울수록 붉은 색이고 0에 가까울 수록 흰색, -1에 가까울수록 파란색을 띈다.
구현 환경에 따라 색상 변화
일반적으로 색인을 참고하여 히트맵 해석한다.
데이터 전처리
- 결측치 처리
- 이상치 처리
결측치 처리
데이터 형태 파악 및 시각화 진행 과정 중 빈 값(결측치)이 포함 된 경우?
후속 데이터 분석 및 AI 모델링 진행 불가 → 추가적인 조사 및 정확한 예측을 통한 처리 필요
결측치 처리 방법 : 제거, 대체
제거drop - 데이터가 충분히 많은 경우, 결측치가 영향을 미치지 않는 경우
정보가 반드시 손실될 수 있음
대체fill - 데이터가 충분하지 않은 경우 결측치를 채워 AI 학습 시켜야한다.
결측치의 특성이 무작위로 관찰되지 않음 → 상관관게, 예측모델 사용, 예측값으로 대체
정보 손실이 없이 빠르게 채울 수 있으나 채워진 값에 의해 전체 데이터의 통계량 및 상관관계 영향을 미침
이상치 처리
이상치 : 전체 데이터의 추세, 패턴 등에서 벗어난 값을 가진 데이터
데이터에 이상치 존재 → 추세, 패턴을 벗어나는 데이터에도 반영 → 모델 성능에 좋지 않은 영향
이상치를 찾고 처리하는(탐지) 방법?
IQR(InterQuartile Range) 값 활용하기 : 통계적으로 이상치의 범위를 IQR을 활용해서 계산
이상치 처리 시 주의해야 할 점은?
타켓 변수가 분류 모델일 경우 카테고리 별 박스 차트 그리기 → 타겟 변수의 카테고리에 이상치 분포 확인하기
분포에 따라서 의미있는 이상치가 될 수 있으믐로 함부로 제거하면 안됨
이상치가 타겟 변수의 카테고리 별로 유사한 비중으로 들어가 있으면 의미가 없는 이상치 이지만, 특정 카테고리 값으로만 구성되어 있으면 의미가 있는 이상치다.
모든 컬럼에 대해서 IQR을 계산해보거나 박스차트를 그려야 할까?
컬럼이 너무 많으면 모든 컬럼을 다 확인하기 어렵다.
평균값과 중앙값이 차이가 나는 컬럼 확인하거나 평균과 중앙값 대비 최소, 최댓값이 차이가 나는 컬럼을 확인해야 한다.
이상치 처리 방법?
적당한 스케일링 기법을 사용하여 그대로 사용, 이상치 포함 행 삭제, 이상치 경계값 치환
이상치가 경계 근처에 몰린 경우에는 적당한 스케일링 기법을 적용하여 그대로 사용
이상치를 포함한 행의 개수가 적다면 이상치 포함 행을 삭제
이상치를 포함한 행의 개수가 많다면 이상치 경계값 치환
인코딩(Encoding)
문자 데이터는 숫자 데이터로 바꿔줘야 한다. 그 과정을 인코딩이라고 한다.
데이터 간 순서 여부에 따른 분류 → Ordinal Encoding, One-Hot Encoding
Ordinal Encoding : 데이터 간에 순서가 있는 카테고리 데이터에 대해 적용(차례대로 맵핑)
One-Hot Encoding : 데이터 간 순서가 없는 카테고리 데이터, 카테고리 수만큼 0과 1로만 구성된 새로운 컬럼을 만들어 맵핑 → 카테고리형 데이터를 수치형인 0과 1로 가공
스케일링(Scaling)
수치형 데이터에 사용, 변수 간 비교를 위해 수치 단위를 맞추려고 수치의 크기 변경
Min-Max Scaling : 해당 컬럼의 최솟값과 최댓값 이용
(모든데이터-최솟값) / (최댓값-최솟값) → 모든 데이터를 0~1로 맞추기
Standard Scaling : 해당 컬럼의 평균과 표준편차를 이용
(모든데이터-평균값) / 표준편차 → 평균은 0, 표준편차는 1로 맞추기
이상치가 없거나, 박스 차트 상/하단 경계 근처에 있음 →Min-Max Scaling, Standard Scaling 둘 다 사용 가능
경계가 벗어난 이상치가 있다면 주의 필요! → Standard Scaling 이상치에 영향을 간접적으로 받는다. 따라서 이상치에 직접적인 영향을 받는 Min-Max Scaling보다 Standard Scaling을 써야한다.
'자격증 > AICE BASIC' 카테고리의 다른 글
AICE 합격 후기 (0) | 2024.04.04 |
---|---|
[실습편] 코딩이 필요 없는 AIDU ez 활용 (0) | 2024.04.01 |
업무 적용 (0) | 2024.03.31 |
AI 이해 (1) | 2024.03.29 |
AICE Basic 자격증 소개 (0) | 2024.03.28 |