반응형
데이터 불러오기
seaborn의 iris 데이터셋을 불러온다.
150개의 행 중 100개를 train,
50개를 test로 나눠보자
단, 인덱스순이 아닌 랜덤으로 추출해서 진행한다.
id 컬럼 추가
랜덤 추출
https://steadiness-193.tistory.com/252
판다스 - 데이터프레임 랜덤 추출 : DataFrame.sample
데이터 불러오기 편하게 10개 행만 가져온다. [DataFrame.sample(frac, n, replace, random_state)] frac 전체 행에서 몇 %만 추출할 것인가 0~1까지의 값을 넣을 수 있다. n 몇개의 행을 추출할 것인가 * frac과..
steadiness-193.tistory.com
train
100개 행을 랜덤으로 추출해서 가져왔다.
원본 iris 데이터프레임에서 랜덤으로 100개를 추출하고
인덱스를 초기화해준다.
test
원본 iris 데이터프레임의 id가 train의 id에 포함된다는 불린 인덱싱에
~를 not 처럼 이용해 T/F를 바꿔준다.
이를 loc에 이용해서
남은 50개 행은 test에 주어졌다.
랜덤으로 train과 test로 분리 완료!
반응형
'Machine Learning > 전처리(Preprocessing)' 카테고리의 다른 글
Machine Learning - valid와 test를 train으로 전처리 (0) | 2020.09.08 |
---|---|
Machine Learning - train_test_split (0) | 2020.09.08 |
Machine Learning - PCA (Principal Component Analysis, 주성분 분석) (0) | 2020.08.31 |
Machine Learning - One-Hot Encoding (원핫 인코딩) (0) | 2020.08.26 |
Machine Learning - Label Encoding (라벨 인코딩) (0) | 2020.08.26 |