데이터 과학 입문

이 책을 읽는 데는 선형대수, 어느 정도의 확률과 통계 지식, 그리고 약간의 코딩 경험이 필요하다.

1

데이터 과학에 관한 거의 전 범위를 다루고 있다. 학술적인 내용보다 실제 사용하면서 고려해야 할 내용을 더 많이 담고 있기 때문에 데이터 과학에 처음 입문하시는 분들에게 추천한다.

2

‘통계’, ‘선형대수’등과 관련된 것들이 많이 생략되어 있고, 표나 그래프를 통해서 설명을 많이 하고 있기 때문에 내용은 평이하다고 생각한다. 그리고 알고리즘에 관련된 연습문제를 통해서 해당 기술(파이썬으로 진행됨)을 연습할 수 있기 때문에 입문자에게 많은 도움이 된다.

3

데이터 가공 및 시각화에 관련된 내용은 매우 가볍게(simple) 다루고 있기 때문에 책도 참고하길 권한다.

“일단 대상을 데이터화하면, 우리는 그것의 사용 목적을 바꾸고 그 정보를 새로운 형식의 가치로 전환할 수 있다.”


  1. […] 기업과 대학 사이에는 차이가 있다. […] 그렇다 하더라도 그 격차가 단순히 산업 통계학과 대학 통계학의 차이를 의미하지 않을 것이다. 데이터과학자들은 실제 업무를 수행하면서 우리가 데이터과학 과정이라고 정의한 절차뿐 아니라 다양한 지식과 방법론을 활용하게 된다.

  2. 그러나 데이터 크기만이 모든 새로운 데이터를 흥미롭게 만드는(혹은 도전을 제기하는) 것은 아니다. 데이터 자체가 실시간으로 데이터 상품의 소재가 된다는 사실도 그렇다.

  3. 그들은 데이터화를 ‘삶의 모든 측면을 포착해서 그것을 데이터로 바꾸는 과정’이라고 정의한다.

  4. 앞서 언급한 것처럼 데이터과학 팀은 다양한 사람이 다양한 스킬(프로필)을 가지고 참여할 때가 가장 좋다. 왜냐하면 누구도 모든 면에서 잘할 수 없기 때문이다.

  5. […] 빅데이터는 흔히 애매한 의미로 사용되고 있다. […] 첫째는 기술의 융합, 둘째는 측정의 혁명적 변화, 셋째는 미래의 의사결정에 관한 관점 혹은 철학이다.

  6. […] 동시에 세상은 데이터를 생성하는 하나의 거대한 기계다.

  7. 얼마나 많은 양의 데이터가 필요한지는 실제로 여러분의 목표가 무엇인가에 달려 있다.

  8. 다양한 맥락에서 모집단과 표본이 무엇인지 다시 한 번 생각해 보자.

  9. 실제로 우리는 빅데이터 시대에 직명한 가장 큰 문제 중 하나는 N = 전체라는 가정이라고 주장하고자 한다. 무엇보다도 그 가정은 모든 종류의 비공식적 선거에서 투표에 필요한 시간, 힘, 혹은 접근성을 갖지 못한 사람들의 목소리를 배제하는 하나의 방법이다.

  10. […] 데이터가 객관적이라거나 ‘데이터가 말해 준다’라는 믿음은 잘못 된 것이므로, 그렇게 말하는 사람들을 주의하라.

  11. 단순하게 시작하는 것이 항상 좋다는 점을 기억하라.

  12. 때로 데이터의 도표화의 비교는 분석을 아주 많이 진전시켜 주기도 하며, 데이터를 손에 넣자마자 선형회귀를 행하는 것보다는 항상 훨씬 낫다.

  13. 모형에서 얻고자 하는 것은 두 가지가 있다. 첫째는 추세이고 둘째는 변이다.

  14. […] 그는 이 분야에 대해 잘 알기 때문에 시간을 많이 투자하고 있는 것인지, 아니면 잘 모르기 때문에 시간을 많이 투자하고 있는 것인지 잘 모르겠다고 고백했다.

Written on September 7, 2016