TIL

TIL - 코드카타, 머신러닝 기초

pys6341 2025. 1. 23. 19:31

def solution(numbers):
    
    total = sum(range(10))
    numbers_sum = sum(numbers)
    
    return total - numbers_sum

 


 

 

로지스틱회귀 이론

 

범주형 Y에서 선형함수의 한계

  • Y가 0,1 범주형인 경우 함수 적합

 

오즈비: 실패확률 대비 성공 확률

  • p가 증가할수록 오즈비가 급격하게 증가하여 선형성을 따르지 않아 log를 씌움

 

 

로지스틱 함수

 

 

 

분류 평가 지표

 

혼동 행렬

 

 

표기법

  • 실제와 예측이 같으면 True / 다르면 False
  • 예측을 양성으로 했으면 Positive / 음성으로 했으면 Negative
  •  

해석

  • TP: 실제로 양성(암 환자)이면서 양성(암 환자) 올바르게 분류된 수
  • FP: 실제로 음성(정상인)이지만 양성(암 환자)로 잘못 분류된 수
  • FN: 실제로 양성(암 환자)이지만 음성(정상인)로 잘못 분류된 수
  • TN: 실제로 음성(정상인)이면서 음성(정상인)로 올바르게 분류된 수

 

1. 정밀도 : 모델이 양성 1로 예측한 결과 중 실제 양성의 비율(모델의 관점)

 

2. 재현율: 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비율(데이터의 관점)

 

3. f1-score : 정밀도와 재현율의 조화 평균

 

4. 정확도

 

 

 

자주쓰는함수

  • sklearn.linear_model.LogisticRegression : 로지스틱회귀 모델 클래스
    • 속성
      • classes_: 클래스(Y)의 종류
      • n_features_in_ : 들어간 독립변수(X) 개수
      • feature_names_in_: 들어간 독립변수(X)의 이름
      • coef_: 가중치
      • intercept_: 바이어스
    • 메소드
      • fit: 데이터 학습
      • predict: 데이터 예측
      • predict_proba: 데이터가 Y = 1일 확률을 예측
  • sklearn.metrics.accuracy: 정확도
  • sklearn.metrics.f1_socre: f1_score

 

 

선형회귀와 로지스틱회귀 공통점

1. 모델 생성 쉬움

2. 가중치를 통한 해석이 쉬운 장점이 있음

3. X변수에 범주형, 수치형 변수 둘 다 사용 가능

 

 

 

차이점

 

  선형회귀 로지스틱회귀
Y 수치형 범주형
평가척도 mean square Error 
R Square(선형 회귀만)
Accracy
F1-score
sklearn 모델 클래스 sklearn.linear_model.linearRegression sklearn.linear_model.LogistricRegression
sklearn 평가 클래스 sklearn.metrics.mean_squared_error
sklearn.metrics.r2_score
sklearn.metrics.accuracy_score
skelearn.metrics.f1_score