본문 바로가기

전체 글

(294)
Regression - Ridge (L2) https://steadiness-193.tistory.com/262 Regression - Regularization : L1 규제(Lasso), L2 규제(Ridge) * 수학적 증명, 수식보단 기본 개념과 활용법에 초점을 맞춤 Regularization (정형화, 규제, 일반화) 모델이 과적합되게 학습하지 않고 일반성을 가질 수 있도록 규제 하는 것. 하늘색 선은 오버피팅 � steadiness-193.tistory.com Ridge의 개념은 위 포스팅에서 살펴보았다. 필요한 개념만 한번 더 환기해보자 손실함수 (MSE)에 L2 정규항을 더한 것으로 Ridge는 두 가지 모두 최소화하는 가중치와 편향을 찾으려 한다. 중요한 것은 L2 정규항인데 이는 가중치의 제곱의 합에 α를 곱한 것이다. Lass..
Regression - Lasso (L1) https://steadiness-193.tistory.com/262 Regression - Regularization : L1 규제(Lasso), L2 규제(Ridge) * 수학적 증명, 수식보단 기본 개념과 활용법에 초점을 맞춤 Regularization (정형화, 규제, 일반화) 모델이 과적합되게 학습하지 않고 일반성을 가질 수 있도록 규제 하는 것. 하늘색 선은 오버피팅 � steadiness-193.tistory.com Lasso의 개념은 위 포스팅에서 살펴보았다. 필요한 개념만 한번 더 환기해보자 손실함수에 L1 정규화 항을 더한 것으로 MSE가 최소가 되게하면서도 가중치들의 절댓값의 합 또한 최소가 되게 해야한다. 가중치가 0이 될 수도 있다는 것이므로 몇몇 특성(feature, x)는 사용..
Regression - 다중공선성 문제 회귀분석의 4가지 가정이 있다. (1) 선형성 종속변수 y와 독립변수 x간의 선형성이 있어야 한다. (2) 독립성 다중 회귀 분석에서 필요한 개념으로 독립 변수 x간의 상관관계가 없어야한다. (3) 등분산성 데이터가 분산이 같게, 특정한 패턴 없이 고루 분포되어 있다. (4) 정규성 잔차가 정규성을 띄어야 한다. 이번 포스팅에선 2번 독립성에서 자주 언급되는 다중공선성을 다뤄본다. (변수간 상관관계를 가질 때 다중공선성 문제가 생긴다.) https://steadiness-193.tistory.com/270 Regression - Linear Regression Linear Regression (선형 회귀) 데이터를 가장 잘 설명해내는 직선을 찾아내는 것. 데이터가 분포되어 있는 공간에서 데이터를 가장 잘..
Regression - Linear Regression Linear Regression (선형 회귀) 데이터를 가장 잘 설명해내는 직선을 찾아내는 것. 데이터가 분포되어 있는 공간에서 데이터를 가장 잘 표현하는 선을 긋는 것. 가장 적합간 기울기(가중치, 계수)와 y절편(편향)을 찾아내는 것. 특성(feature, x)의 개수 1개 특성(feature, x)의 개수 2개 이상 출력 y의 값 1개 단변량 단순 선형 회귀 단변량 다중 선형 회귀 출력 y의 값 2개 - 다변량 다중 선형 회귀 기본적으로 출력되는 y의 값이 1개이며 여러 개의 특성을 사용하는 단변량 다중 선형 회귀를 알아본다. 다중 선형 회귀 ŷ : 예측값 x : 독립변수, 특성으로 부르지만 여기선 특성(feature)으로 통일한다. w : 기울기 또는 계수(coefficient) 또는 가중치. 여..
Regression - FIFA 이적료 예측 : 전처리 dacon.io/competitions/open/235538/data/ [스포츠] 해외 축구 선수 이적료 예측 미션 출처 : DACON - Data Science Competition dacon.io 각 컬럼의 정보 id 선수 고유의 아이디 name 이름 age 나이 continent 선수들의 국적이 포함되어 있는 대륙 contract_until 선수의 계약기간 만료 position 선수가 선호하는 포지션 prefer_foot 선수가 선호하는 발 reputation 선수가 유명한 정도 stat_overall 선수의 현재 능력치 stat_potential 선수가 경험 및 노력을 통해 발전할 수 있는 정도 stat_skill_moves 선수의 개인기 능력치 value FIFA가 선정한 선수의 이적 시장 가격..
Classification - 모델 평가 : roc_auc_score https://steadiness-193.tistory.com/267 Classification - 모델 평가 : precision_score(정밀도), recall_score(재현율), f1_score [민감도(sensitivity)] 환자를 찾아냄 (양성을 찾음), 질병이 있는 사람을 질병이라 진단 [특이도(specificity)] 정상을 찾아냄 (음성을 찾음), 정상인 사람을 정상으로 진단 민감도와 특이도는 서로 반대 steadiness-193.tistory.com 위 포스팅에서 필요한 내용을 다시 환기하면 아래와 같다. ROC Curve(Receiver-Operating Characteristic curve) 민감도와 특이도의 관계가 보이는 양상을 2차원 평면상에 그려낸 것 민감도를 높이면 특이도..
Classification - 모델 평가 : precision_score(정밀도), recall_score(재현율), f1_score [민감도(sensitivity)] 환자를 찾아냄 (양성을 찾음), 질병이 있는 사람을 질병이라 진단 [특이도(specificity)] 정상을 찾아냄 (음성을 찾음), 정상인 사람을 정상으로 진단 민감도와 특이도는 서로 반대로 움직이는 경향을 보인다. True or False 예측 예측 결과 실제 결과 True Positive, TP + 양성 +양성 양성이 맞음 양성 True Negative, TN + 음성 +음성 음성이 맞음 음성 False Positive, FP - 양성 -양성 양성이 틀림 음성 False Negative, FN - 음성 -음성 음성이 틀림 양성 민감도(sensitivity) 양성으로 예측한 사람 중 실제 양성인 사람 (TP) / 실제 양성인 사람 (TP + FN) 특이도(specifi..
판다스 - zip : 카테고리형 컬럼과 숫자형 컬럼 구분 zip (*iterable) 동일한 개수로 이루어진 자료형을 묶어 주는 역할을 하는 함수이다. (점프투파이썬) 이렇게 1과 4, 2와 5 그리고 3과 6을 묶어주는 역할을 하는 것이다. 문자열도 가능하다. for 문으로 한 쌍씩 꺼내올 수도 있다. 길이가 맞지 않다면 짧은 쪽, c의 길이 만큼만 맞춰 4개의 쌍이 나온다. titanic 데이터셋 불러오기 dtypes를 이용해 컬럼과 컬럼의 데이터타입을 zip으로 묶어낼 것이다. 이렇게 묶어서 한 쌍씩 불러낼 수 있다. 숫자형 컬럼 찾기 컬럼의 타입이 int64이거나 float64인 컬럼을 찾아내면 되는 것이다. 리스트 표현식 이용 숫자형과 숫자형이 아닌 컬럼으로 구분을 완성했다. * 만약 타입이 object와 int64, float64 밖에 없다면 typ..