본문 바로가기

Machine Learning/전처리(Preprocessing)

Machine Learning - 랜덤으로 train과 test로 나누기

반응형

데이터 불러오기

 

 

seaborn의 iris 데이터셋을 불러온다.

 

 

150개의 행 중 100개를 train, 

 

50개를 test로 나눠보자

 

단, 인덱스순이 아닌 랜덤으로 추출해서 진행한다.

 

 

 

 

id 컬럼 추가

 

 

 

 

 

 

랜덤 추출

 

 

https://steadiness-193.tistory.com/252

 

판다스 - 데이터프레임 랜덤 추출 : DataFrame.sample

데이터 불러오기 편하게 10개 행만 가져온다. [DataFrame.sample(frac, n, replace, random_state)] frac 전체 행에서 몇 %만 추출할 것인가 0~1까지의 값을 넣을 수 있다. n 몇개의 행을 추출할 것인가 * frac과..

steadiness-193.tistory.com

 

 

train

 

 

100개 행을 랜덤으로 추출해서 가져왔다.

 

원본 iris 데이터프레임에서 랜덤으로 100개를 추출하고

 

인덱스를 초기화해준다.

 

 

 

 

 

test

 

원본 iris 데이터프레임의 id가 train의 id에 포함된다는 불린 인덱싱에

 

~를 not 처럼 이용해 T/F를 바꿔준다.

 

 

 

이를 loc에 이용해서 

 

남은 50개 행은 test에 주어졌다.

 

 

랜덤으로 train과 test로 분리 완료!

 

 

반응형