본문 바로가기

분류 전체보기712

6. 데이터 불균형 처리 (Data Imbalance Handling) 데이터 불균형 처리 (Data Imbalance Handling)1. 개요분류 문제(Classification)에서 특정 클래스(레이블)의 데이터 수가 심하게 불균형할 경우 발생주로 구매/비구매, 사기/정상거래, 질병/비질병 등 극소수 클래스를 예측할 때 문제가 됨모델이 다수 클래스를 과적합(overfit)하거나, 소수 클래스를 무시하게 되어 성능 악화2. 해결 방법2-1. 데이터 레벨 접근Oversampling: 소수 클래스 데이터를 복제하거나, 새로운 데이터를 생성하여 클래스 균형 맞추기단순 복제 (Random Oversampling)SMOTE (Synthetic Minority Over-sampling Technique)ADASYN 등Undersampling: 다수 클래스 데이터를 임의로 제거하여 .. 2025. 4. 26.
5. 피처 인코딩 (Feature Encoding) 피처 인코딩 (Feature Encoding)1. 개요모델이 문자형, 범주형 데이터를 직접 이해하지 못하므로 수치형으로 변환 필요범주 수, 순서 유무, 희소성 등 데이터 특성에 따라 인코딩 방식 선택특히 트리 계열 vs 선형 계열 모델에서 인코딩 전략이 달라짐2. 인코딩 종류2-1. 라벨 인코딩 (Label Encoding)명목척도(Nominal) 또는 서열척도(Ordinal) 모두 사용 가능하지만, 주의 필요범주형 데이터를 정수로 치환 (예: A → 0, B → 1, C → 2)순서가 의미 없는 경우엔 비추천 (모델이 잘못된 순서를 학습할 수 있음)from sklearn.preprocessing import LabelEncoder# 자동 라벨 인코딩label_encoder = LabelEncoder().. 2025. 4. 26.
[파이썬] 백준 27211 : 도넛 행성 (골드5) [파이썬] 백준 27211 : 도넛 행성 (골드5)백준 27211 : 도넛 행성 (골드5)풀이방향성 생각영역의 개수를 BFS/DFS로 세주기.영역 범위를 벗어나면 %연산을 통해서 영역 내부로 처리해주기.파이썬from collections import dequeimport sysinput = sys.stdin.readlinedires = [(1,0),(0,1),(-1,0),(0,-1)]H,W = map(int,input().split())arr = [list(map(int,input().split())) for _ in range(H)]V = [[False]*W for _ in range(H)]def bfs(x,y): V[y][x] = True Q = deque([(x,y)]) while .. 2025. 4. 24.
[파이썬] 백준 1175 : 배달 (골드1) [파이썬] 백준 1175 : 배달 (골드1)백준 1175 : 배달 (골드1)풀이방향성 생각비트마스킹 + 상태관리 BFS배달 완료한거는 비트마스킹으로, 이전 방향까지 고려해서 4차원 BFS 사용하기.혹은, C1 -> C2 / C2 -> C1 중 최소값을 고려해도 풀릴 듯 한데, 예외처리가 필요해보인다. (S.C.C 같은 경우)전체코드from collections import dequeimport sysinput = lambda : sys.stdin.readline().strip()inside = lambda x,y : 0코멘트. 쉬운문제 2025. 4. 24.