본문 바로가기

전체 글79

[머신러닝] 데이터 특성 간 상관관계 확인 및 유의성 검정하기 HTML 삽입 미리보기할 수 없는 소스 이번 글에서는 "특성 간의 상관관계를 확인하고, 이들의 통계적 유의성(p-value)을 검정하는 방법"을 살펴보려 한다. 상관계수를 계산함으로써 데이터 간의 관계를 이해하고, 통계적 검정을 통해 이러한 관계가 실제로 의미 있는지를 평가해 볼 것이다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, 상관관계 두 번째, 상관관계 확인 세 번째, 상관관계 검정 [사용 툴] - Jupyter notebook(웹 기반 대화형 코딩 환경) [사용 라이브러리 및 모듈] 데이터 분석 라이브러리: pandas 시각화 라이브러리: seaborn 과학 계산 라이브러리: scipy - scipy.stat.spearmanr: 스퍼어만 상관관계 검정 - scipy.stat.. 2023. 12. 26.
[머신러닝] 릿지·라쏘모델의 성능비교와 알파값 조정 HTML 삽입 미리보기할 수 없는 소스 이번 글에서는 "규제 개념을 가진 릿지모델과 라쏘모델", 이 두가지 회귀모델에 대해 살펴보고자 한다. 이 과정에서 이전에 특성공학을 적용한 다중회귀모델에 비해 릿지 모델이 얼마나 성능 향상을 가져다주는지 비교해 볼 것이다. 또한, 릿지 모델과 라쏘모델 간의 성능 차이도 비교해 볼 것이다. 특히, 성능을 더욱 향상시키기 위한 방법으로 하이퍼파라메터인 알파값을 조정하는 규제 방법을 적용해 보고 그 결과를 공유하려 한다. (이 전에 작성한 특성공학을 적용한 다중회귀모델에 관한 글을 아래를 참고하시라.) 2023.12.24 - [[파이썬]/머신러닝] - [머신러닝] 특성공학을 활용한 다중회귀모델 성능 향상(+예제, 해석, 개념) 차례와 사용 툴 및 라이브러리는 아래와 같다.. 2023. 12. 25.
[머신러닝] 특성공학을 활용한 다중회귀모델 성능 향상(+예제, 해석, 개념) HTML 삽입 미리보기할 수 없는 소스 이번 글에서는 "다중회귀모델에 특성공학을 적용하여 성능 향상을 도모하는 과정"에 대해 다루어 보고자 한다. 새로운 특성을 도출해 내는 특성공학을 통해 독립변수를 생성하고, 이를 다중회귀모델에 학습시킴으로써 모델 성능의 향상을 확인해 보고자 한다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째: 다중회귀모델과 특성공학 두 번째: (예제) 농어의 길이, 두께, 높이 값을 이용해서, 무게 예측하기 (단, 예제 내부는 크게 다중회귀모델 - 특성공학 - 다중회귀모델 순으로 구성) 세 번째: 다중회귀모델 추가 학습 - 특성공학 적용 후 다중회귀모델 성능 검증 [순서] 1. 데이터 불러오기 2. 데이터 전처리 - (독립변수로 사용할) 원본 데이터를 numpy .. 2023. 12. 24.
[머신러닝] 선형회귀와 다항회귀 모델링의 이론과 실제 적용 방법(+예제) HTML 삽입 미리보기할 수 없는 소스 회귀모델은 다양한 종류가 있지만, 이번 글에서는 "선형회귀모델(LR; Liner Regression Model)"과 "다항회귀모델(PR; Polynomial Regression Model)"에 대해 다루어보려 한다. 선형회귀모델은 단일 독립변수를 기반으로 한 직선을 이용하여 데이터의 선형 관계를 모델링하는 간결한 방법이다. 반면, 다항회귀모델은 독립변수의 거듭제곱을 활용한 곡선을 이용하여 데이터의 비선형 관계를 보다 정교하게 모델링하는 방법이다. 이외에도 다중회귀, 릿지, 라쏘 등과 같은 다양한 회귀모델이 존재하며, 각각의 특성에 따라 적합한 상황에서 활용된다. 또한, 랜덤포레스트나 그레디언트부스트, XGBoost 등의 모델들은 회귀와 분류 문제 모두 적용이 가능하.. 2023. 12. 23.
[머신러닝] K최근접이웃모델(KNN) - 회귀분석의 기초(+ 예제) HTML 삽입 미리보기할 수 없는 소스 본 글에서는 "K최근접이웃모델 - 회귀분석의 기초"에 대한 내용을 다루고자 한다. 'K최근접이웃 모델(KNN)'과 '머신러닝'의 기본적인 내용은 아래를 참조하시라. 2023.12.20 - [[파이썬]/머신러닝] - [머신러닝] K최근접이웃모델(KNN) - 분류분석의 기초 2023.12.20 - [[파이썬]/머신러닝] - [머신러닝] 머신러닝이란? (Machine Learning, 기계학습) 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 예제: 생선구분하기 - K최근접이웃모델(회귀) [순서] 데이터 불러오기 데이터 전처리 - 원본 데이터를 numpy 배열로 변환 - 원본 데이터를 훈련 및 테스트 데이터 세트로 분리 - 훈련 및 테스트 데이터의 독립변수를 2차.. 2023. 12. 22.
[머신러닝] K최근접이웃모델(KNN) - 분류분석의 기초 HTML 삽입 미리보기할 수 없는 소스 본 글에서는 "K최근접이웃모델(KNN) - 분류분석의 기초"에 대한 내용을 다룰 것이다. 차례와 사용 툴 및 라이브러리는 아래와 같다. [차례] 첫 번째, K최근접이웃 모델(KNN)의 개념 두 번째, KNN의 작동 원리 세 번째, KNN의 파라메터 네 번째, KNN의 특징 다섯 번째, 예제: 생선구분하기 - K최근접이웃모델(분류) [순서] 데이터 불러오기 데이터 전처리 - 데이터 분포 확인 - 데이터 통합 - 독립변수 및 종속변수 생성 KNN 분류모델 구축 모델 훈련(학습) 모델 성능 평가 - 훈련 데이터 세트의 정확도 확인 모델 예측 및 결과 시각화 - 임의 데이터의 전달을 통한 종속변수 예측 - 산점도 그래프 생성 하이퍼파라메터 튜닝 - (과대적합 해소를 위한).. 2023. 12. 20.