백인천 프로젝트
1
«백인천 프로젝트» 한가하게 카페에 앉아서 다 읽었는데, 데이터를 다뤄야 하는 초보자 입장에서 굉장히 좋은 책이다. 이 책에서 많은걸 느꼈다기 보다는 다른 곳으로 안내하는 책인것 같다. 무엇을 읽고, 어떤것을 보았는지 모두 다르겠지만 요즘에 데이터를 다루는 일을 좀 하다보니 눈이 다르게 작동하나 보다.
2
«풀하우스» 및 기타 몇권의 책을 더 사서 읽어봐야 겠음… 오오…
- 패턴, 데이터의 패턴!, 디자인도 패턴, 아.. 패턴의 세계인가?
진화 생물학자인 굴드는 시스템의 특정 부분에만 주목하면 늘 오류가 생기며, 시스템 전체의 변화 패턴에 주목해야만 제대로 된 답을 얻을 수 있다는 것을 설명하기 위해 야구를 예로 들었다. 야구광인 굴드의 눈에 ‘4할 타자 실종 사건’은 자신의 논지로 독자를 끌어들이기 좋은 소재였을 것이다.
- 삽질의 시작은 자발적 1~2명으로 시작하는 법이지…
불특정 다수 5명을 모았을 때, 그중에 발 벗고 나서는 사람이 있을지, 없을지는 사실 운이다. 한두 명만 있으면, 자발성도 전염이 된다. 선순환이 일어난다. 하지만 누군가 방아쇠를 당기지 않으면, 마음이 있는 사람들도 멈칫거리곤 한다. 기름을 가득 채웠지만 정작 시동이 안 걸리는 꼴이 되기 쉬운데, 이 차는 시동이 쉽게 걸렸다.
- 균형의 어떤 지점에서 발생하는 것이 아니라 환경을 비롯한 거의 모든 것의 선택적 상태에서 발생하는 뜻인가? 흠… 좀 더 알아봐야겠다.
백인천 프로젝트에서 만난 “왜 4할인가?”라는 질문은 나를 창조론자에서 진화론자로 전향시켰다. 균형은 천재가 만들어 낸 것이 아니라 변덕스러운 관중이라는 선택압에 야구가 적응해 오는 과정에서 도달한 것이라는 생각은, 떠올리고 보면 너무 단순하고 자명해 보여서 거의 어처구니가 없을 정도다.
- 데이터 편향에 대한 서로 다른 시각과 반론, ‘확률 분포’에 대해서 좀 알아봐야겠다. 그리고 데이터 편향성을 극복하는 방법도 같이…
낮은 타율의 타자들 또한 분명 생태계의 구성원으로 분석되어야 하지만, 이들은 출전 기회가 적을 것이므로 고타율의 타자보다 높은 확률로 배제된다. 남상욱은 이렇게 저타율 타자를 편향적으로 배제한 표본을 분석하면 실제 생태계보다 평균은 높게 나오는 잘못된 분석이 될 것이라고 주장했다. […] 정재승의 논리는 “타자의 타율은 사전에 정해진 확률 분포를 갖고 있지 않으므로, 저타율 제거 편향이 없는 ‘이상적인 상태’는 존재하지 않는다.”라는 것이었다. //
- 백.투.더.베.이.직
이제 숙제는 간단해졌다. “평균, 표준 편찬, 평균, 표준 편차, 평균 표준 편차, 평균, 표준 편차” //
- 데이터도 그러지 않을까? 400개의 주요 데이터와 15만개의 보조 데이터… 모든 데이터가 정말 중요한가? 그리고 15만개의 보조 데이터는 정말 필요없는 것일까? 데이터가 서로를 의지하고 의존하고 이는 어떤 구조나 규모가 존재하는게 아닐까?
[…] 하지만 «집단 지성이란 무엇인가»의 저자 찰스 리드비터의 평가는 좀 다르다. 리드비터는 리눅스가 핵심 프로그램머 400명과 등록 사용자 15만 명이 만드는 이중 구조라는 사실을 알려 준다.