
def solution(numbers):
total = sum(range(10))
numbers_sum = sum(numbers)
return total - numbers_sum
로지스틱회귀 이론
범주형 Y에서 선형함수의 한계
- Y가 0,1 범주형인 경우 함수 적합
오즈비: 실패확률 대비 성공 확률
- p가 증가할수록 오즈비가 급격하게 증가하여 선형성을 따르지 않아 log를 씌움

로지스틱 함수

분류 평가 지표
혼동 행렬

표기법
- 실제와 예측이 같으면 True / 다르면 False
- 예측을 양성으로 했으면 Positive / 음성으로 했으면 Negative
해석
- TP: 실제로 양성(암 환자)이면서 양성(암 환자) 올바르게 분류된 수
- FP: 실제로 음성(정상인)이지만 양성(암 환자)로 잘못 분류된 수
- FN: 실제로 양성(암 환자)이지만 음성(정상인)로 잘못 분류된 수
- TN: 실제로 음성(정상인)이면서 음성(정상인)로 올바르게 분류된 수
1. 정밀도 : 모델이 양성 1로 예측한 결과 중 실제 양성의 비율(모델의 관점)

2. 재현율: 실제 값이 양성인 데이터 중 모델이 양성으로 예측한 비율(데이터의 관점)

3. f1-score : 정밀도와 재현율의 조화 평균

4. 정확도

자주쓰는함수
- sklearn.linear_model.LogisticRegression : 로지스틱회귀 모델 클래스
- 속성
- classes_: 클래스(Y)의 종류
- n_features_in_ : 들어간 독립변수(X) 개수
- feature_names_in_: 들어간 독립변수(X)의 이름
- coef_: 가중치
- intercept_: 바이어스
- 메소드
- fit: 데이터 학습
- predict: 데이터 예측
- predict_proba: 데이터가 Y = 1일 확률을 예측
- 속성
- sklearn.metrics.accuracy: 정확도
- sklearn.metrics.f1_socre: f1_score
선형회귀와 로지스틱회귀 공통점
1. 모델 생성 쉬움
2. 가중치를 통한 해석이 쉬운 장점이 있음
3. X변수에 범주형, 수치형 변수 둘 다 사용 가능
차이점
| 선형회귀 | 로지스틱회귀 | |
| Y | 수치형 | 범주형 |
| 평가척도 | mean square Error R Square(선형 회귀만) |
Accracy F1-score |
| sklearn 모델 클래스 | sklearn.linear_model.linearRegression | sklearn.linear_model.LogistricRegression |
| sklearn 평가 클래스 | sklearn.metrics.mean_squared_error sklearn.metrics.r2_score |
sklearn.metrics.accuracy_score skelearn.metrics.f1_score |
'TIL' 카테고리의 다른 글
| TIL - 코드카타, 머신러닝 심화 1주차 (1) | 2025.01.27 |
|---|---|
| TIL - 코드카타, 머신러닝 심화(~1-7) (0) | 2025.01.24 |
| TIL - 코드카타, 머신러닝 기초(~1-12) (0) | 2025.01.22 |
| TIL - 코드카타, 머신러닝 기초 (~1-7) (0) | 2025.01.21 |
| TIL - 통계학 기초 (5,6주차) (0) | 2025.01.20 |