본문 바로가기

Machine Learning/Model7

7. CatBoost 7. CatBoost1. CatBoostCatBoost는 Yandex에서 개발한 그래디언트 부스팅 라이브러리로, 범주형 변수를 효과적으로 처리하고 높은 성능을 제공하는 알고리즘이다. 장점범주형 변수의 자동 처리과적합에 강한 내성기본 파라미터로도 좋은 성능GPU 학습 지원결측치 자동 처리단점다른 부스팅 알고리즘에 비해 학습 속도가 느림메모리 사용량이 큼대규모 데이터셋에서 시간이 많이 소요2. CatBoost의 주요 특징순서형 부스팅(Ordered Boosting): 데이터 순서에 따른 편향을 줄이는 알고리즘대칭 트리(Symmetric Trees): 같은 분할 조건을 가진 균형 잡힌 트리 생성범주형 변수 인코딩: 타겟 통계량 기반의 자동 인코딩GPU 지원: 병렬 학습을 통한 성능 향상3. 코드 실습impor.. 2024. 10. 2.
6. LightGBM 6. LightGBM1. LightGBMLightGBM은 Microsoft에서 개발한 그래디언트 부스팅 프레임워크로, 빠른 학습 속도와 높은 효율성이 특징인 알고리즘이다. 특히 대용량 데이터 처리에 강점이 있다. 장점매우 빠른 학습 및 예측 속도적은 메모리 사용량범주형 변수 자동 처리병렬 학습 지원대규모 데이터셋에 효과적단점작은 데이터셋에서는 과적합 위험파라미터 튜닝이 까다로움데이터가 적을 경우 XGBoost보다 성능이 떨어질 수 있음2. LightGBM의 주요 특징리프 중심 트리 분할(Leaf-wise growth): 최대 손실 감소를 가져오는 리프를 찾아 분할GOSS(Gradient-based One-Side Sampling): 그래디언트가 큰 데이터에 중점을 둔 샘플링EFB(Exclusive Fea.. 2024. 4. 16.
5. XGBoost 5. XGBoost1. XGBoostXGBoost(eXtreme Gradient Boosting)는 그래디언트 부스팅의 고성능 구현체로, 여러 개의 결정 트리를 순차적으로 학습하여 강력한 예측 모델을 만드는 알고리즘이다. 장점높은 예측 정확도병렬 처리를 통한 빠른 수행 속도과적합에 강한 내성결측치 자동 처리다양한 하이퍼파라미터 제공단점하이퍼파라미터 튜닝이 복잡함메모리 사용량이 큼작은 데이터셋에서 과적합 위험2. XGBoost의 주요 특징캐시 최적화: 중간 계산 결과를 캐시에 저장하여 빠른 접근 가능스파스 데이터 처리: 결측치나 희소 데이터를 효율적으로 처리정규화: L1, L2 정규화를 통한 과적합 방지트리 가지치기: 불필요한 분할을 제거하여 모델 단순화3. 코드 실습import numpy as npimp.. 2024. 2. 7.
4. Random Forest 4. Random Forest1. Random Forest랜덤 포레스트는 여러 개의 의사결정 나무(Decision Tree)를 생성하고 그들의 예측을 종합하여 최종 결과를 도출하는 앙상블 학습 방법이다.각각의 트리는 데이터의 서브셋과 특성의 서브셋을 사용하여 학습되며, 이를 통해 모델의 다양성을 확보하고 과적합을 방지한다.장점높은 예측 정확도과적합에 강한 내성특성 중요도 평가 가능병렬 처리가 가능하여 학습 속도가 빠름단점모델의 해석이 어려움메모리 사용량이 큼학습 데이터가 많이 필요함2. Random Forest의 작동 원리1. 부트스트랩 샘플링으로 여러 개의 훈련 데이터셋 생성2. 각 노드에서 무작위로 선택된 특성들만 사용하여 분기3. 각 트리의 예측을 집계하여 최종 결과 도출 (분류는 다수결, 회귀는 .. 2024. 1. 29.