본문 바로가기

[파이썬]/머신러닝11

[머신러닝] 앙상블 모델과 학습방법(배깅, 부스팅)+랜덤 포레스트 모델 구축 및 성능 평가 이번 글에서는 "앙상블(Ensemble) 모델에 대한 개념부터 이를 적용한 랜덤 포레스트 모델 구축 및 성능 평가"에 대한 내용들을 살펴보려 한다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 앙상블(Ensemble) 모델이란? 두 번째, 앙상블 모델을 사용하는 이유 세 번째, 앙상블 모델의 학습 방법 - 배깅(Bagging) 네 번째, 앙상블 모델의 학습 방법 - 부스팅(Boosting) 다섯 번째, 랜덤 포레스트(Randomforest) - 모델 구축 및 성능 평가 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경 [사용 라이브러리 및 모듈] 데이터 분석 라이브러리: pandas 연산 라이브러리: numpy 머신러닝 라이브러리 및 모델: scikit-lea.. 2024. 1. 8.
[머신러닝] 트리(Tree) 구조의 이해 이번 글에서는 " 트리(Tree)의 개념부터 트리 구조의 작동원리"에 대한 내용들을 살펴보려 한다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 트리(Tree)란? 두 번째, 트리의 중요성 세 번째, 트리의 구조 네 번째, 트리 구조의 작동 원리 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경 트리(Tree)란? 트리(Tree)는 계층적인 구조를 가진 데이터를 표현하고 관리하기 위해 사용되는 자료구조이다. 가계도를 예로 들면, '조상'이라는 개념은 트리에서 '루트(Root)'에 해당하며, '가족 구성원'은 트리에서 '노드(Node)'에 해당한다. 또한, 가족 구성원들 간의 '관계'를 나타내는 선을 트리에서는 '엣지(Edge)'라고 칭한다. 이런 식으로 트리는.. 2024. 1. 7.
[머신러닝] GridSearchCV를 활용한 하이퍼파라미터 튜닝 이해하기 HTML 삽입 미리보기할 수 없는 소스 이번 글에서는 "GridSearchCV의 개념부터 사용방법"에 대한 내용들을 살펴보려 한다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, GridSearchCV의 개념 두 번째, GridSearchCV를 사용하는 이유 세 번째, GridSearchCV의 파라미터 설정 네 번째, 하이퍼파라미터 설정(param_grid) 다섯 번째, GridSearchCV 사용방법 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) [사용 라이브러리 및 모듈] 머신러닝 라이브러리 및 모델: scikit-learn - sklearn.model_selection.GridSearchCV: 하이퍼파라미터 튜닝 - sklearn.ensemble. R.. 2024. 1. 7.
[머신러닝] 훈련·검증·테스트 데이터로 분리하는 이유(+분리 비율) HTML 삽입 미리보기할 수 없는 소스 이번 글에서는 "왜 데이터를 훈련, 검증, 테스트 데이터로 분리해야 하는지, 그리고 이를 어떻게 체계적으로 분리할 수 있는지"에 대해 자세히 알아보려 한다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 훈련 · 검증 · 테스트 데이터 두 번째, random_state 매개변수 역할 세 번째, 데이터를 분리하는 이유 네 번째, 데이터 분리 방법 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) [사용 라이브러리 및 모듈] 머신러닝 라이브러리 및 모델: scikit-learn - sklearn.model_selection.train_test_split: 훈련 및 테스트 데이터 세트 분리 훈련 · 검증 · 테스트 데이터 데이.. 2023. 12. 27.
[머신러닝] 데이터 특성 간 상관관계 확인 및 유의성 검정하기 HTML 삽입 미리보기할 수 없는 소스 이번 글에서는 "특성 간의 상관관계를 확인하고, 이들의 통계적 유의성(p-value)을 검정하는 방법"을 살펴보려 한다. 상관계수를 계산함으로써 데이터 간의 관계를 이해하고, 통계적 검정을 통해 이러한 관계가 실제로 의미 있는지를 평가해 볼 것이다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 상관관계 두 번째, 상관관계 확인 세 번째, 상관관계 검정 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) [사용 라이브러리 및 모듈] 데이터 분석 라이브러리: pandas 시각화 라이브러리: seaborn 과학 계산 라이브러리: scipy - scipy.stat.spearmanr: 스퍼어만 상관관계 검정 - scipy.stat.. 2023. 12. 26.
[머신러닝] 릿지·라쏘모델의 성능비교와 알파값 조정 HTML 삽입 미리보기할 수 없는 소스 이번 글에서는 "규제 개념을 가진 릿지모델과 라쏘모델", 이 두가지 회귀모델에 대해 살펴보고자 한다. 이 과정에서 이전에 특성공학을 적용한 다중회귀모델에 비해 릿지 모델이 얼마나 성능 향상을 가져다주는지 비교해 볼 것이다. 또한, 릿지 모델과 라쏘모델 간의 성능 차이도 비교해 볼 것이다. 특히, 성능을 더욱 향상시키기 위한 방법으로 하이퍼파라메터인 알파값을 조정하는 규제 방법을 적용해 보고 그 결과를 공유하려 한다. (이 전에 작성한 특성공학을 적용한 다중회귀모델에 관한 글을 아래를 참고하시라.) 2023.12.24 - [[파이썬]/머신러닝] - [머신러닝] 특성공학을 활용한 다중회귀모델 성능 향상(+예제, 해석, 개념) 차례와 사용 툴 및 라이브러리는 아래와 같다.. 2023. 12. 25.