[5주차]
1. 피어슨 상관계수
- 두 연속형 변수 간의 선형 관계를 측정하는 지표
- -1에서 1 사이의 값을 가짐
- 1은 완전한 양의 선형 관계
- -1은 완전한 음의 선형 관계
- 0은 선형 관계가 없음을 의미
언제 사용될까?
- 선형적인 관계가 예상될 때
- 비선형 관계에서는 사용 X
2. 비모수 상관계수
- 데이터가 정규분포를 따르지 않거나 변수들이 순서형 데이터일 때 사용하는 상관계수
- 데이터의 분포에 대한 가정 없이 두 변수 간의 상관관계를 측정할 때 사용
- 대표적으로 스피어만 상관계수와 켄달의 타우 상관계수가 있음
스피어만 상관계수
- 두 변수의 순위 간의 일관성을 측정
- 켄달의 타우 상관계수 보다 데이터 내 편차와 에러에 민감
켄달의 타우 상관계수
- 순위 간의 일치 쌍 및 불일치 쌍의 비율을 바탕으로 계산
언제 사용될까?
- 데이터의 분포에 대한 가정을 못할 때
- 순서형 데이터에서도 사용하고 싶을 때
3. 상호정보 상관계수
- 두 변수 간의 상호 정보를 측정
- 변수 간의 정보 의존성을 바탕으로 비선형 관계를 탐지
- 서로의 정보에 대한 불확실성을 줄이는 정도를 바탕으로 계산
- 범주형 데이터에 대해서도 적용 가능
언제 사용될까?
- 두 변수가 범주형 변수일 때
- 비선형적이고 복잡한 관계를 탐지하고자 할 때
[6주차]
1) 재현 가능성
- 동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부. 연구의 신뢰성을 높이는 중요한 요소
- 최근 p값에 대한 논쟁이 두드러지고 있음
- p값을 사용하지 않는 것이 좋다
- 유의수준을 0.05에서 변경하는 것이 좋다
- 가설검정 원리상의 문제나 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제 발생
>> 결과가 재현되지 않는다면 가설의 신뢰도가 떨어짐
원인?
- 실험 조건을 동일하게 조성하기 어려움
- 가설검정 사용방법이 잘못됨 (p해킹, 1종오류 등)
2) p-해킹
- 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위
- 유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함
>> 데이터 분석 결과의 신뢰성을 떨어트림
여러 가설 검정을 시도할 때 조심해야 함
- 유의미한 값을 얻을 때까지 반복 분석하는 것을 조심
- 결과만 선택적으로 보고하는 행위 조심
- 데이터의 수를 늘리다보니 이를 바탕으로 대립가설을 채택하는 것 조심
- 다양한 상황 중에서 p값이 유리하게 나오는 상황만 선별적으로 보고하는 것을 조심
3) 선택적 보고
- 유의미한 결과만을 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위
- 이는 데이터 분석의 결과를 왜곡하고, 신뢰성을 저하시킴
조심해야하는 경우
- 유의미한 결과만 공개할 때
- 결과를 보면서 가설을 다시 설정했는데 처음부터 설정한 것처럼 얘기할 때
4) 자료수집 중단 시점 결정
- 데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음.
>> 결과의 신뢰성을 떨어뜨림
조심해야하는 경우
- 결과를 이미 정해놓고 맞추기 위해 자료수집을 할 때
5) 데이터 탐색과 검증 분리
- 데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것
- 이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임
사용하는 경우
- 검증하기 위한 데이터가 따로 필요할 때
'TIL' 카테고리의 다른 글
| TIL - 코드카타, 머신러닝 기초(~1-12) (0) | 2025.01.22 |
|---|---|
| TIL - 코드카타, 머신러닝 기초 (~1-7) (0) | 2025.01.21 |
| TIL - 코드카타, 통계학 기초 (3,4주차) (0) | 2025.01.17 |
| TIL - 코드카타, 통계학 기초 (1,2주차) (1) | 2025.01.16 |
| TIL - SQL (4주차) (0) | 2025.01.15 |