빅데이터 인문학

1

이게 왜 ‘인문학’이랑 관련이 있는지 모르겠다. 요즘은 공학이 아니면 ‘인문학’이라 말하나 보다. ‘빅데이터’를 믿고 사면 된다. ‘인문학’보다 ‘사회학’에 대한 관점을 가지고 보는게 좋다.

2

“800만 권의 책에서 배울 수 있는 것들”, 부제가 곧 제목이다. 800만권의 책에서 어떤 것을 배울 수 있을까? 많은걸 배울 수 있겠지? 그럼 어떻게 800만권에서 배울 수 있는거지? 책 1권을 1시간에 읽는다고 쳐도(가정이 틀렸어… 프루스트 책을 1시간에.. ?) 800만권이면 800만 시간인데…? 뭔가 방법이 있겠지? 없다면 사기에 가깝다 봐야한다. 자 그 방법이 뭘까?!

3

구글의 놀라운 잉여력과 저자의 아이디어가 만나서 엔그램이라는 거대한 검색기를 만들어냈다. 쉽게 말해서 엄청난 양의 책을 스캔해서 단어의 빈도를 그래프로 그려주는 것이다(책에서 거론된 빈도를 그래프로 그려주는것과 많이 인용된 논문을 검색하는 것…결코 다르게 보이지 않는다). 그래서 단어의 빈도를 통해서 영문학, 사회학 등과 같은 세대와 시대를 관통하는 다양한 이야기를 펼쳐간다.

4

빅데이터를 처리하는 관점에서 이 책을 통해 배울 수 있는 것은 다음과 같다.

  • 툴을 만들어 내는건 공학적이고, 방법론적인 문제이다. 그러나 분석은 인간에 대한 접근방식과 관점에 관한 문제이다.
  • 빅데이터를 만들어내는 것도 중요하지만, 불필요한/오염된 자료를 걸러내는 작업도 병행되어야 한다. 데이터의 ‘대표성’과 직결된다.
  • 빅데이터와 인문학을 결합해서 ‘학술’적인 일을 진행할 수 있다. 그럼에도 불구하고 그 모든 행위는 ‘예측’을 지향하고 있으며 이것은 ‘마켓팅’에 집중된다. 즉, 현재의 빅데이터로 돈을 벌어들이는 가장 유망한 방법은 ‘서비스’ 제공이다.

빅데이터의 또 다른 이름 ‘비정형’ 데이터. 개개인의 기록을 ‘정형화’ 시킬 수 있다면 우린 삶의 괘적을 다시 그려볼 수 있을까?

우리가 현대적인 삶이 제공하는 모든 것을 경험하고, 삶의 점점 더 많은 부분을 인터넷 상에서 영위하게 되면서 우리의 디지털 부스러기는 점점 더 철저하게 자취를 남기기 시작했다. 우리 개개인이 남기는 기록은 그 폭과 깊이가 믿기 어려울 정도다.

연결성은 빅데이터를 비롯한 많은 곳에서 사용된다. 어떻게/누구/무엇을 연결할 것인가?

[…] 그래서 이 두 사람은 월드와이드웹의 빅데이터 행렬에 동참해, 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀러지를 작은 검색엔진으로 전환했다. 그들은 이것을 ‘구글’이라고 불렀다.

Input 없는 Output은 없다고 하지만, 다양한 주제를 읽어내기 위해선 폭넓은 시각이 필요한다. 돌고 도는 물레방아 같은 이야기가 시작된다.

[…] 책들은 놀랍도록 다양한 범위의 주제를 다루며 폭넓은 시각을 반영한다. 방대한 장서를 탐구하는 일은 수많은 사람들, 그중의 상당수는 이미 죽은 사람들을 조사하는 작업이라고 볼 수 있다. 역사와 문화 분야에서 특정 시기에, 특정 장소에서 나온 책들은 해당 시기와 장소에 관한 정보에서 가장 중요한 원천이다.

새롭게 이해해서 열심히 하는게 마켓팅이라는 조금 아쉽다.

빅데이터는 우리의 주변 세계를 이해할 새로운 기회를 제공하지만, 동시에 새로운 과학적 도전 과제들을 만들어낸다.

질문의 중요성

[…] 과학자들에게 아이들은 위대한 아이디어의 원천이다. 아이들이 던지는 질문은 표면적으로는 간단하고 이해하기 쉬워 보여도 매우 근원적인 것들이기 때문이다.

노가다로 만들어낸 법칙이다. 내가 언제나 하는 말이 있다. “알고리즘이란 연필으로 시작해서 코드로 끝난다”라고… 빅데이터가 중요한게 아니라 데이터를 이해하는게 중요하다. 지프의 법칙은 노가다로 만들어낸 법칙이다.

[…] 단어와 순위와 빈도 사이에는 반비례가 성립한다는 점이었다. 만약 어떤 단어의 순위를 숫자로 나타냈을 때 다른 단어의 순위보다 열 배 크다면 - 에컨대 50위가 아니라 500위라면 - 그것의 빈도는 다른 단어의 10분 1이었다. […] 지프의 법칙으로 불리는 이 발견은…

틀이 있다면 이상현상을 파악할 수 있다. 난 데이터를 어떻게 바라봐야 하는가?

[…] 당신이 만약 지프의 보편원리를 따르지 않은 어떤 것과 우연히 마주친다면 진짜 수상한 무언가가 진행되고 있는 것이다.

맵 리듀스 예제 중 ‘카운트 워드’의 중요성에 대해서…

[…] 색인들은 로베르토 부사 이후로 죽지 않았다. 오히려 그들은 세계를 점령했다.

깊게보고 넓게 펼쳐라.

[…] 밀러는 지프가 “꽃잎을 세기 위해 장미를 분해하는” 유형의 사람이라고 말했다. 언뜻 들으면 그다지 치켜세우는 말로 들리지 않는다. 지프가 세는 일에 너무 집착하는 바람에 꽃의 아름다움을 인식할 줄 몰랐다는 말인가? […] 그러나 지프를 다르게 만든 것은 그가 이 아름다움에 얼어붙지 않고 이 꽃을 인식하는 다른 방식에 눈을 감지 않았다는 사실이다. 그러한 방식 가운데 꽃을 분해하는 것이 우연히 포함됐을 뿐이다.

많은 논의가 필요하다.

[…] 빅데이터를 이용하려면 네 가지 중요한 기준을 충족시키는 그림자를 찾아내야 한다. 첫째, 원본 데이터세트를 만드는 데 집단적 노력을 기울인 수백만 명의 권리를 보호해야 한다. 둘째, 흥미로워야 한다. 셋째, 해당 데이터의 문지기 역할을 하는 회사의 목표에 어긋나지 않아야 한다. 넷째, 누군가가 실제로 만들어낼 수 있는 것이어야 한다.

단어가 풍부해졌다라는 말은 단어를 더 다양한 방법으로 사용하고 있다는 말이다. 빅데이터의 본질이 데이터 사용방식의 다양성으로 이어지고 있는걸까? 아직 잘 모르겠다.

우리의 언어는 변화만 하는 것이 아니다. 성장도 한다. […] 우리 세계는 점점 더 좁아지고 있어서 새로운 단어들이 임계질량에 쉽게 도달한다는 것이다. 다른 가설은 과학, 의학, 기술 등의 발전이 새로운 기술용어들을 대중의 말투에 유입시킨다고 주장한다. […] 사회를 가로지르는 폭넓고 다양한 단면을 다룬 책들이 20세기 후반에 쏟아지면서 작가들은 더 다양한 표현방식으로 더 많은 주제에 관해 썼고 지구적 토론의 장에 더 많은 단어들이 소개됐다.

테스트없이 개발도 발명도 없다.

라이트 형제의 바람터널은 비록 단순했지만 좋은 날개 디자인을 가능하게 하는 중요한 양상들을 포착하기엔 충분했다. 이 터널을 이용해 형제는 날개들의 성능을 하나하나 정확하게 측정할 수 있었다. 이 데이터를 기반으로 그들은 고도로 최적화된 날개를 만들어 비행기에 장착했다.

오류가 좋을리 있겠냐 많은 그래도 도움이 된다고 하니…

[…] 무작위 오류의 좋은 점은 비록 곡선이 이리저리 꿈틀 대기는 하지만 일반적으로 참값에 가까이 머무른다는 것이다.

이것은 진리다.

언제나 사람이 가장 중요하다. 그리고 연구를 잘 해야 하는 방법은 연구를 잘하는게 아니라 사람과 사람의 연결성을 높이는 방법도 포함되어야 한다.

내 명성으로 뭘 살 수 있는지 고민할 시간도 없구나…

당신의 명성으로 무엇을 살 수 있는가? 펑키의 명성은 클랜시의 시간 30분을 사주었다. 그리 길지는 않았지만 그것으로 충분했다.

코흐트에 대해서 좀 더 많은 연구가 필요하다.

마지막으로, 우리는 훌륭한 데이터 과학자라면 누구나 초장에 하는 일을 했다. 우리는 스스로에게 ‘WWAD?(What Would Andvord Do?: 안드보르드라면 어떻게 했을까?’)하고 물었다.

맹자가… 맹자가 틀린게 아닐까?

[…] 우리는 명성으로 가는 가장 확실한 길이 사람을 죽이는 일인 세계에 살고 있다. 이것이 뜻하는 바가 무엇인지는 우리 모두가 깊이 생각해보아야 한다.

샤갈이 돌아가시면?

파블로 피카소는 “마티스가 죽으면 색채가 진정으로 무엇인지를 이해하는 화가로는 샤갈이 유일할 것이다.”

나도 이에 동의하고 싶은 심정이다.

비엔나 학파로 알려진 일군의 […] 이들은 오직 경험적으로 검증 가능한 진술만이 의미 있는 진술이며, 측정할 수 있는 단어만이 의미 있는 단어라고 주장했다.

학습곡선과 망각곡선이 합쳐지면 어떤 곡선이 탄생할까?

암기할 대상의 수와 시간 사이의 이런 관게는 오늘날 ‘학습곡선’이라 불리는데, 사람들이 ‘가파른 학습곡선’이라고 말할 때 […] 그가 발견한 망각과 시간의 관계는 ‘망각곡선’이라 불린다.

우리 사회는 어떤 기억을 가지고 있을까? 궁금하다.

[…] 집단 기억과 개인기억 사이에는 충격적인 유사성이 있는 셈이다. 사회 역시 단기기억과 장기기억을 가지고 있다.

집단 학습 속도의 변화는 기술의 전파속도를 높인다.

소니의 워크맨은 1978년에 발명됐는데, 영향력이 최고치의 4분의 1 지점에 도달하기까지 10년밖에 안 걸렸다. […] 그리고 청바지는 103년이 걸렸다. […] 무슨 일이 벌어지고 있는 걸까? 집단적 학습의 속도가 빨라질 수 있는 걸까?

킨들은 사랑이다.

킨들 전자책 리더 플랫폼이 소개되고서 불과 3년 만에 아마존에서 킨들북 판매량은 인쇄된 책들을 추월했다. […] 책의 디지털화는 복잡한 유산을 남길 것이다.

기술보단 가치에 중점을 둬야 된다는 말인데 개발자라 그런지 기술이 더 크게 보인다. 이 점은 조금 고쳐보고 싶다.

기술의 미래를 추측하는 것보다 가치의 미래를 추측하는 것이 훨씬 어렵기 때문에 이런 질문의 답이 어떻게 될지는 말하기 어렵다.

Written on August 16, 2015