본문 바로가기

Data_Analysis

(294)
Seaborn - 색깔 조정 : color, palette titanic 데이터 전처리 나이대 컬럼 (age_group)을 만들었다. 이를 countplot으로 시각화해보자 https://steadiness-193.tistory.com/192 Seaborn - 빈도 그래프 : countplot 이산값을 나타내는 그래프 각 범주에 속하는 데이터의 개수를 막대 그래프로 나타냄 데이터 불러오기 https://steadiness-193.tistory.com/180 Seaborn - 산점도 : regplot [산점도] 서로 다른 2개의 연속 변수 이 steadiness-193.tistory.com countplot은 위 포스팅 참조 기본 기본 색상은 bar마다 다른 위 결과다. color 옵션 설정 color에 넣은 #FC7F77은 Kuler에서 찾아낼 수 있다. col..
Matplotlib - 한글 폰트, -(마이너스), 디스플레이 설정 1. 한글 표시 설정 Windows일 경우 맑음고딕체를 사용한다. 맥일 경우 애플고딕체를 사용한다. 2. -(minus)표시는 False로 설정해둔다. 3. 글씨를 조금 더 선명하게 나타내려면 set_matplotlib_formats에 'retina'를 넘겨준다.
Model Tuning - Stacking : 실전 적용 https://steadiness-193.tistory.com/294 Model Tuning - Stacking (스태킹_CV 기반) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML b.. steadiness-193.tistory.com 위 포스팅에선 train_test_split을 이용해서 라벨 후처리와 점수 측정까지 동시에 해보았다. 그러나 실제 대회에선 저렇게 나누지 않고 진행한다. 이번에도 익숙한 ..
Model Tuning - Stacking (스태킹_CV 기반) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 전처리 완료한 데이터를 이용하되, 위 포스팅에선 일부 행을 삭제했지만 지금은 그대로 다 이용한다. 임시로 정답지가 있는 tmp_x_test와 tmp_y_test 데이터셋을 분리하고 StratifiedKFold를 불러두..
Numpy - 3차원 배열 인덱싱 https://steadiness-193.tistory.com/50 Numpy - 3차원 axis 이해하기 3차원 텐서를 이용하기 위해 데이터를 불러온다. z는 (4행, 3열)의 2차원 데이터가 3개가 있다는 뜻이다. 위 텐서의 shape은 (3, 4, 3)으로서 (차원, 행, 열)로 보면 쉽다. axis는 따라서 0, 1, 2의 값을 가�� steadiness-193.tistory.com 위 포스팅에서 3차원 축에 대한 전반적인 이해를 했다. 이번엔 3차원 배열을 인덱싱 하는 것을 알아보자 배열 만들기 3행 3열의 배열, 2개가 겹쳐진 경우이다. (2, 3, 3) = (차원, 행, 열) 0번째 차원의 모든 행, 열 2, 3, 3 shape에서 차원을 선택했기에 3행 3열의 배열만 남았다. 0번째 차원의..
Model Tuning - Label Postprocessing : 실전 적용 https://steadiness-193.tistory.com/291 Validation - Label Postprocessing (라벨 후처리) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML b.. steadiness-193.tistory.com 위 포스팅에선 train_test_split을 이용해서 라벨 후처리와 점수 측정까지 동시에 해보았다. 그러나 실제 대회에선 저렇게 나누지 않고 진행한다. 라벨..
Model Tuning - Label Postprocessing (라벨 후처리) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 전처리 완료한 데이터를 이용하되, 위 포스팅에선 일부 행을 삭제했지만 지금은 그대로 다 이용한다. 임시로 정답지가 있는 tmp_x_test와 tmp_y_test 데이터셋을 분리해두자 점수 측정은 f1 score를 이용..
Validation - OOF Ensemble (Out-of-Fold) https://steadiness-193.tistory.com/286 Validation - KFold www.kaggle.com/c/titanic/data Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글의 타이타닉으로 연습한다. 전처리.. steadiness-193.tistory.com 위 포스팅에서 만든 데이터셋과 함수를 이용한다. 필요 라이브러리 호출 및 데이터셋 설정 임시로 정답지가 있는 데이터 셋을 train_test_split으로 나눠놓자 Cross validation / OOF validation 간단히..