본문 바로가기

Machine Learning/회귀(Regression)

(10)
Regression - 모델 평가 : MSE, MAE, RMSE, RMSLE, R-Squared MSE 회귀 모델의 주요 손실함수 예측값과 실제값의 차이인 오차들의 제곱 평균으로 정의한다. 제곱을 하기 때문에 특이치(아웃라이어)에 민감하다. MAE 실제값과 예측값의 차이인 오차들의 절댓값 평균 MSE보다는 특이치에 덜 민감하다. RMSE MSE에 root를 씌운 값 오류 지표를 실제 값과 유사한 단위로 다시 변환하기에 해석이 다소 용이해진다. RMSLE 오차를 구할 때 RMSE와는 log를 추가하는 점이 다르다. RMSLE의 특징 1. 아웃라이어에 덜 민감하다. (robust) : 아웃라이어가 있더라도 값의 변동폭이 크지 않다. 2. 상대적 Error를 측정해준다. 값의 절대적 크기가 커지면 RMSE의 값도 커지지만, RMSLE는 상대적 크기가 동일하다면 RMSLE의 값도 동일하다. 예측값 = 10..
Regression - RandomForestRegressor, XGBRegressor, LGBMRegressor Random Forest Regressor Classification - RandomForestClassifier https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.co.. steadiness-193.tistory.com 위 포스팅의 Classifier대신 Regressor를 이용한다. 데이터 불러오기 https://steadiness-193.tistory.com/269 Regression - FIFA 이적료 예측 : 전..
Regression - SVR https://steadiness-193.tistory.com/259 Classification - SVM 서포트 벡터 머신 https://steadiness-193.tistory.com/257 Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.co.. steadiness-193.tistory.com 서포트 벡터 머신에 대한 내용은 위 포스팅에 있다. SVC와 같이 마진을 최대화할 수 있는 결정경계를 그려나가는 것이 바로 SVR이다. 데이터 불러오기 https://steadiness-193..
Regression - Multi Layer Perceptron Regressor Multi Layer Perceptron Regressor MLP : Input-Hidden-Output으로 구성된 뉴럴 네트워크 Hidden layer에 존재하는 노드는 기본 선형 회귀 모델과 동일하게 wx + b로 이루어져 있다. 이러한 선형 분리를 할 수 있는 모델을 여러 개 모아서 비선형 분리를 해내는 것이 MLPRegressor이다. 4개의 벡터 공간을 선형 분리하는 퍼셉트론들이 하나의 비선형 공간을 분류할 수 있는 벡터 공간을 형성 데이터 불러오기 https://steadiness-193.tistory.com/269 Regression - FIFA 이적료 예측 : 전처리 dacon.io/competitions/open/235538/data/ [스포츠] 해외 축구 선수 이적료 예측 미션 출처 :..
Regression - Ridge (L2) https://steadiness-193.tistory.com/262 Regression - Regularization : L1 규제(Lasso), L2 규제(Ridge) * 수학적 증명, 수식보단 기본 개념과 활용법에 초점을 맞춤 Regularization (정형화, 규제, 일반화) 모델이 과적합되게 학습하지 않고 일반성을 가질 수 있도록 규제 하는 것. 하늘색 선은 오버피팅 � steadiness-193.tistory.com Ridge의 개념은 위 포스팅에서 살펴보았다. 필요한 개념만 한번 더 환기해보자 손실함수 (MSE)에 L2 정규항을 더한 것으로 Ridge는 두 가지 모두 최소화하는 가중치와 편향을 찾으려 한다. 중요한 것은 L2 정규항인데 이는 가중치의 제곱의 합에 α를 곱한 것이다. Lass..
Regression - Lasso (L1) https://steadiness-193.tistory.com/262 Regression - Regularization : L1 규제(Lasso), L2 규제(Ridge) * 수학적 증명, 수식보단 기본 개념과 활용법에 초점을 맞춤 Regularization (정형화, 규제, 일반화) 모델이 과적합되게 학습하지 않고 일반성을 가질 수 있도록 규제 하는 것. 하늘색 선은 오버피팅 � steadiness-193.tistory.com Lasso의 개념은 위 포스팅에서 살펴보았다. 필요한 개념만 한번 더 환기해보자 손실함수에 L1 정규화 항을 더한 것으로 MSE가 최소가 되게하면서도 가중치들의 절댓값의 합 또한 최소가 되게 해야한다. 가중치가 0이 될 수도 있다는 것이므로 몇몇 특성(feature, x)는 사용..
Regression - 다중공선성 문제 회귀분석의 4가지 가정이 있다. (1) 선형성 종속변수 y와 독립변수 x간의 선형성이 있어야 한다. (2) 독립성 다중 회귀 분석에서 필요한 개념으로 독립 변수 x간의 상관관계가 없어야한다. (3) 등분산성 데이터가 분산이 같게, 특정한 패턴 없이 고루 분포되어 있다. (4) 정규성 잔차가 정규성을 띄어야 한다. 이번 포스팅에선 2번 독립성에서 자주 언급되는 다중공선성을 다뤄본다. (변수간 상관관계를 가질 때 다중공선성 문제가 생긴다.) https://steadiness-193.tistory.com/270 Regression - Linear Regression Linear Regression (선형 회귀) 데이터를 가장 잘 설명해내는 직선을 찾아내는 것. 데이터가 분포되어 있는 공간에서 데이터를 가장 잘..
Regression - Linear Regression Linear Regression (선형 회귀) 데이터를 가장 잘 설명해내는 직선을 찾아내는 것. 데이터가 분포되어 있는 공간에서 데이터를 가장 잘 표현하는 선을 긋는 것. 가장 적합간 기울기(가중치, 계수)와 y절편(편향)을 찾아내는 것. 특성(feature, x)의 개수 1개 특성(feature, x)의 개수 2개 이상 출력 y의 값 1개 단변량 단순 선형 회귀 단변량 다중 선형 회귀 출력 y의 값 2개 - 다변량 다중 선형 회귀 기본적으로 출력되는 y의 값이 1개이며 여러 개의 특성을 사용하는 단변량 다중 선형 회귀를 알아본다. 다중 선형 회귀 ŷ : 예측값 x : 독립변수, 특성으로 부르지만 여기선 특성(feature)으로 통일한다. w : 기울기 또는 계수(coefficient) 또는 가중치. 여..