본문 바로가기

전체 글

(294)

Machine Learning - valid와 test를 train으로 전처리 https://steadiness-193.tistory.com/256 Machine Learning - train_test_split https://steadiness-193.tistory.com/253 Machine Learning - 랜덤으로 train과 test로 나누기 데이터 불러오기 seaborn의 iris 데이터셋을 불러온다. 150개의 행 중 100개를 train, 50개를 test로 나눠보자 단,.. steadiness-193.tistory.com 위에서 만든 데이터 셋을 이용한다. 숫자형 데이터는 train 데이터셋의 컬럼별 평균값으로, 범주형 데이터는 train 데이터셋의 컬럼별 최빈값으로 채워준다. train과 valid, test 데이터셋의 결측값의 개수는 총 0개로 바뀌었다. [t..

Machine Learning - train_test_split https://steadiness-193.tistory.com/253 Machine Learning - 랜덤으로 train과 test로 나누기 데이터 불러오기 seaborn의 iris 데이터셋을 불러온다. 150개의 행 중 100개를 train, 50개를 test로 나눠보자 단, 인덱스순이 아닌 랜덤으로 추출해서 진행한다. id 컬럼 추가 랜덤 추출 https://steadiness-19.. steadiness-193.tistory.com 위 포스팅에서는 sample 메서드를 이용해서 나누어봤으나 좀 더 정밀하게 나눌 수 있는 sklearn 패키지의 train_test_split 을 이용해보자. 데이터 출처 www.kaggle.com/c/titanic Titanic: Machine Learning fro..

판다스 - isinstance [isinstace(값, 자료형)] * 자료형은 str, float, list, tuple 등 가능하다. 값의 자료형이 인자에 있는 자료형과 동일하다면 True 그렇지 않다면 False를 반환 결과를 True or False로 반환한다. 데이터 프레임 생성 Num 컬럼 값들의 자료형이 int와 str이 혼재되어있다. , 를 없애서 정수형으로 바꾸기 위해 map과 replace를 이용한다. 하지만 3400이 int이기 때문에 replace는 먹히지 않는다. isinstance로 Num 컬럼 확인 리스트 표현식으로 동시에 이용 원하는대로 컬럼의 dtype이 int로 바뀌었다. https://steadiness-193.tistory.com/216 판다스 - map map 순차적 자료형에 대해 함수를 적용하는,..

Classification - DecisionTreeClassifier 맛보기 https://steadiness-193.tistory.com/253 Machine Learning - 랜덤으로 train과 test로 나누기 데이터 불러오기 seaborn의 iris 데이터셋을 불러온다. 150개의 행 중 100개를 train, 50개를 test로 나눠보자 단, 인덱스순이 아닌 랜덤으로 추출해서 진행한다. id 컬럼 추가 랜덤 추출 https://steadiness-19.. steadiness-193.tistory.com 위에서 만들어낸 train과 test를 이용한다. DecisionTreeClassifier [DecisionTreeClassifier] min_samples_split : 의사결정나무에서 최종 노드의 최소 샘플 수 제한 * 샘플 수가 10개 미만이라면 더 나누지 않는다..

Machine Learning - 랜덤으로 train과 test로 나누기 데이터 불러오기 seaborn의 iris 데이터셋을 불러온다. 150개의 행 중 100개를 train, 50개를 test로 나눠보자 단, 인덱스순이 아닌 랜덤으로 추출해서 진행한다. id 컬럼 추가 랜덤 추출 https://steadiness-193.tistory.com/252 판다스 - 데이터프레임 랜덤 추출 : DataFrame.sample 데이터 불러오기 편하게 10개 행만 가져온다. [DataFrame.sample(frac, n, replace, random_state)] frac 전체 행에서 몇 %만 추출할 것인가 0~1까지의 값을 넣을 수 있다. n 몇개의 행을 추출할 것인가 * frac과.. steadiness-193.tistory.com train 100개 행을 랜덤으로 추출해서 가져왔다...

판다스 - 데이터프레임 랜덤 추출 : DataFrame.sample 데이터 불러오기 편하게 10개 행만 가져온다. [DataFrame.sample(frac, n, replace, random_state)] frac 전체 행에서 몇 %만 추출할 것인가 0~1까지의 값을 넣을 수 있다. n 몇개의 행을 추출할 것인가 * frac과 n은 동시에 쓸 수 없다. replace=False default는 중복 비허용 random_state 설정 시 결과 고정 n n, random_state random_state에 아무 숫자나 넣으면 된다. 몇번을 실행해도 동일한 추출이 된다. reset_index로 활용 frac 전체 10개 행에서 50%인 5개 행만 추출한다. n과 같이 쓸 수 없다. 70%인 7개 행을 가져온다. frac=1 frac에 1을 넣으면 전체 데이터프레임을 랜덤으로..

Big Query - 날짜 형식 : PARSE_DATE, EXTRACT, DATE_ADD, DATE_SUB, DATE_DIFF PARSE_DATE PARSE_DATE(format_string, date_string) format_string 설명 %A 요일 Monday %a 요일 (약어) Mon %B 월 (full name) March %b 월 (약어) Mar %m 월 %d 일 %e 일 (한 자리수 앞엔 공백) %x MM/DD/YY 형식 %F %Y-%m-%d 형식 %D %m/%d/%y 형식 %Y 4자리 연도 %y 2자리 연도 예시. PARSE_DATE('%y.%m/%d', '17.6/30') 결과 : 2017-06-30 EXTRACT EXTRACT(part FROM date_expression) part 설명 YEAR 연 MONTH 월 DAY 일 WEEK 한 해의 '주' 번호 [0-53] 주는 일요일부터 시작 WEEK(MONDA..

SQL - UNION, ORDER BY 팁 [UNION ALL] 테이블을 위 아래로 연결할 때 쓴다. (행이 중복되어도 연결) [UNION DISTINCT] 테이블을 위 아래로 연결할 때 중복된 행이 있다면 제거해서 연결 (UNION만 써도 되는 DBMS도 있다.) UNION이 가능한 경우 컬럼의 개수, 데이터 타입이 같을 때, * 컬럼명이 달라도 됨 (AS 이용) UNION이 불가한 경우 컬럼의 개수가 다를 때, 데이터 타입이 다른 경우 ORDER BY 팁 만약 CASW WHEN 문법 등으로 새로운 컬럼의 새로운 값을 만든다면 (ex. 소형, 중형, 대형) 소형 - 중형 - 대형 순으로 값을 보고 싶을 때가 있다. 그러나 이를 그냥 ORDER BY를 하게되면 초성 순으로 대형 - 소형 - 중형으로 정렬된다. 이를 방지하기 위해서 앞에 숫자를 붙..

이전 1 ··· 3 4 5 6 7 8 9 ··· 37 다음

티스토리툴바