당신이 몰랐던 통계 오류 - 데이터 과학 및 분석을 위한 통찰

1

실험에서 ‘의도적’으로 저지르게 되는 실수 중 하나인 유의확률에 대해서 집중적으로 조명하고 있다.

2

사례가 있기 때문에 읽기 쉽고 재미있지만 통계에 대한 이해가 나처럼 없으면 곤란한 부분이 산떠미처럼 생긴다.


  1. 유의확률은 가설이 옳다거나 그 차이가 얼마나 중요한 것인지 알려주는 지표가 아니라는 것을 명심하자. 대신에, 유의확률은 놀라움(surprise)의 정도로 생각할 수 있다.

  2. […] 단일 실험은 거짓양성 빈도를 가질 수 없다. 거짓양성 빈도는 여러분이 행한 절차에 의해서 정해지는 것이지, 어떤 단일 시험의 결과에서 만들어지는 것이 아니다.

  3. 신뢰구간은 여러분이 내린 결론의 불확실성을 나타낸다. 덕분에 효과의 크기에 대해서는 어떤 정보도 가지지 못하는 유의확률 p 값보다 더 많은 정보를 제공한다.

  4. 많은 자료가 쌓이면 신호를 노이즈에서 구분해내는 데 도움이 된다. 하지만 많은 과학자들이 찾는 것에 대한 적절한 검정력을 갖춘 연구를 진행하는 데 필요한 자원이 부족하다.

  5. 만약 샘플의 수가 그것의 효과에 대해서 검증하기 위해서 충분하지 않을 때에 우리는 검정력 부족(underpowered)이라고 말한다.

  6. “통계적으로 유의미하지 않다.”[…] 는 “존재하지 않는다.”라는 의미가 아니다.

  7. 무작위로 대조군/실험군을 정함으로써 체계적 편향(systematic bias)이 생기는 것을 방지할 수 있다.

  8. 유의확률 p 값의 정의를 다시 한번 살펴보자. 유의확률 p 값은 확률이다. 그 가정에서 진실된 효과가 없거나 어떤 집단 간에 차이가 없다고 가정하고 모아진 자료에서 관측한 결과나 그보다 더 극단적인 관측결과를 얻을 확률이다.

  9. 정당한 이유가 없다면 연속변수를 양분화하지 말자. 연속변수의 장점을 확용할 수 있는 통계분석을 활용하자.

Written on September 21, 2015