당신이 몰랐던 통계 오류 - 데이터 과학 및 분석을 위한 통찰
1
실험에서 ‘의도적’으로 저지르게 되는 실수 중 하나인 유의확률에 대해서 집중적으로 조명하고 있다.
2
사례가 있기 때문에 읽기 쉽고 재미있지만 통계에 대한 이해가 나처럼 없으면 곤란한 부분이 산떠미처럼 생긴다.
-
유의확률은 가설이 옳다거나 그 차이가 얼마나 중요한 것인지 알려주는 지표가 아니라는 것을 명심하자. 대신에, 유의확률은 놀라움(surprise)의 정도로 생각할 수 있다.
-
[…] 단일 실험은 거짓양성 빈도를 가질 수 없다. 거짓양성 빈도는 여러분이 행한 절차에 의해서 정해지는 것이지, 어떤 단일 시험의 결과에서 만들어지는 것이 아니다.
-
신뢰구간은 여러분이 내린 결론의 불확실성을 나타낸다. 덕분에 효과의 크기에 대해서는 어떤 정보도 가지지 못하는 유의확률 p 값보다 더 많은 정보를 제공한다.
-
많은 자료가 쌓이면 신호를 노이즈에서 구분해내는 데 도움이 된다. 하지만 많은 과학자들이 찾는 것에 대한 적절한 검정력을 갖춘 연구를 진행하는 데 필요한 자원이 부족하다.
-
만약 샘플의 수가 그것의 효과에 대해서 검증하기 위해서 충분하지 않을 때에 우리는 검정력 부족(underpowered)이라고 말한다.
-
“통계적으로 유의미하지 않다.”[…] 는 “존재하지 않는다.”라는 의미가 아니다.
-
무작위로 대조군/실험군을 정함으로써 체계적 편향(systematic bias)이 생기는 것을 방지할 수 있다.
-
유의확률 p 값의 정의를 다시 한번 살펴보자. 유의확률 p 값은 확률이다. 그 가정에서 진실된 효과가 없거나 어떤 집단 간에 차이가 없다고 가정하고 모아진 자료에서 관측한 결과나 그보다 더 극단적인 관측결과를 얻을 확률이다.
-
정당한 이유가 없다면 연속변수를 양분화하지 말자. 연속변수의 장점을 확용할 수 있는 통계분석을 활용하자.