본문 바로가기

Machine Learning/검증(Validation)

(5)
Validation - OOF Ensemble (Out-of-Fold) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋과 함수를 이용한다. 필요 라이브러리 호출 및 데이터셋 설정 임시로 정답지가 있는 데이터 셋을 train_test_split으로 나눠놓자 Cross validation / OOF validation 간단히..
Validation - Voting Ensemble (VotingClassifier) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋과 함수를 이용한다. 필요 라이브러리 호출 및 데이터셋 설정 우선 Voting Ensemble을 하기 전에 그리드 서치를 통해 각 모델별로 최적의 파라미터를 설정한 best estimator를 가져온다. ..
Validation - GridSearchCV https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋을 이용한다. Grid Search 클래스 객체에 fit 메서드를 호출하면 grid search를 사용하여 자동으로 복수개의 내부 모형을 생성하고 이를 모두 실행시켜서 최적 파라미터를 찾아준다. 파라미터를..
Validation - StratifiedKFold (Cross Validation) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋을 이용하며 class imbalance 상황에서 썼던 KFold의 단점을 보완하는 방법을 알아보자. Stratify KFold 분류할 클래스의 비율이 다르다면 이를 반영해서 k개의 fold를 해야한다. ..
Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리 필요 라이브러리 호출 데이터 불러오기 생존 여부(Survived)의 빈도수를 확인하고 고의로 class imbalanced를 유도하기 위해 1값을 가진 행을 일부 랜덤하게 삭제한다. 342행에서 205행으로 줄어들었다. 불필요 컬럼 삭제 및 이름에서 Title 컬럼 추출 분리할 data는 총 754행으로 확인 숫자형, 카테고리형 컬럼 뽑아두기 누락값 확인 라벨 인코딩 전처리 프로세스 ..