데이터 과학 입문
이 책을 읽는 데는 선형대수, 어느 정도의 확률과 통계 지식, 그리고 약간의 코딩 경험이 필요하다.
1
데이터 과학에 관한 거의 전 범위를 다루고 있다. 학술적인 내용보다 실제 사용하면서 고려해야 할 내용을 더 많이 담고 있기 때문에 데이터 과학에 처음 입문하시는 분들에게 추천한다.
2
‘통계’, ‘선형대수’등과 관련된 것들이 많이 생략되어 있고, 표나 그래프를 통해서 설명을 많이 하고 있기 때문에 내용은 평이하다고 생각한다. 그리고 알고리즘에 관련된 연습문제를 통해서 해당 기술(파이썬으로 진행됨)을 연습할 수 있기 때문에 입문자에게 많은 도움이 된다.
3
데이터 가공 및 시각화에 관련된 내용은 매우 가볍게(simple) 다루고 있기 때문에 책도 참고하길 권한다.
“일단 대상을 데이터화하면, 우리는 그것의 사용 목적을 바꾸고 그 정보를 새로운 형식의 가치로 전환할 수 있다.”
-
[…] 기업과 대학 사이에는 차이가 있다. […] 그렇다 하더라도 그 격차가 단순히 산업 통계학과 대학 통계학의 차이를 의미하지 않을 것이다. 데이터과학자들은 실제 업무를 수행하면서 우리가 데이터과학 과정이라고 정의한 절차뿐 아니라 다양한 지식과 방법론을 활용하게 된다.
-
그러나 데이터 크기만이 모든 새로운 데이터를 흥미롭게 만드는(혹은 도전을 제기하는) 것은 아니다. 데이터 자체가 실시간으로 데이터 상품의 소재가 된다는 사실도 그렇다.
-
그들은 데이터화를 ‘삶의 모든 측면을 포착해서 그것을 데이터로 바꾸는 과정’이라고 정의한다.
-
앞서 언급한 것처럼 데이터과학 팀은 다양한 사람이 다양한 스킬(프로필)을 가지고 참여할 때가 가장 좋다. 왜냐하면 누구도 모든 면에서 잘할 수 없기 때문이다.
-
[…] 빅데이터는 흔히 애매한 의미로 사용되고 있다. […] 첫째는 기술의 융합, 둘째는 측정의 혁명적 변화, 셋째는 미래의 의사결정에 관한 관점 혹은 철학이다.
-
[…] 동시에 세상은 데이터를 생성하는 하나의 거대한 기계다.
-
얼마나 많은 양의 데이터가 필요한지는 실제로 여러분의 목표가 무엇인가에 달려 있다.
-
다양한 맥락에서 모집단과 표본이 무엇인지 다시 한 번 생각해 보자.
-
실제로 우리는 빅데이터 시대에 직명한 가장 큰 문제 중 하나는 N = 전체라는 가정이라고 주장하고자 한다. 무엇보다도 그 가정은 모든 종류의 비공식적 선거에서 투표에 필요한 시간, 힘, 혹은 접근성을 갖지 못한 사람들의 목소리를 배제하는 하나의 방법이다.
-
[…] 데이터가 객관적이라거나 ‘데이터가 말해 준다’라는 믿음은 잘못 된 것이므로, 그렇게 말하는 사람들을 주의하라.
-
단순하게 시작하는 것이 항상 좋다는 점을 기억하라.
-
때로 데이터의 도표화의 비교는 분석을 아주 많이 진전시켜 주기도 하며, 데이터를 손에 넣자마자 선형회귀를 행하는 것보다는 항상 훨씬 낫다.
-
모형에서 얻고자 하는 것은 두 가지가 있다. 첫째는 추세이고 둘째는 변이다.
-
[…] 그는 이 분야에 대해 잘 알기 때문에 시간을 많이 투자하고 있는 것인지, 아니면 잘 모르기 때문에 시간을 많이 투자하고 있는 것인지 잘 모르겠다고 고백했다.