Hadoop & NoSQL
1. 이건 아닌 것 같아요.
이 책은 하둡과 NoSQL에 대한 사용법이나 응용법이 아니라 ‘소개’를 중심으로 하고 있다. 이미 하둡과 NoSQL은 대세가 되어버렸고, 자료가 인터넷에 넘치는 상황에서(2013년 12월 기준) 이 책의 의미가 많이 퇴색되어 버렸다.
2. 이론적 성격이 강하다.
그럼에도 불구하고, 하둡과 NoSQL에 대한 이론적인 소개가 잘 되어있기 때문에 ‘하둡과 NoSQL이 뭐야?’라고 생각하는 분들은 가볍게 읽어본다면 나름대로 좋은 성과를 얻을 수 있을 것이라 생각해 보고 싶다.
-
하지만, 클라우드 컴퓨팅은 새로운 기술이 아니다. 클라우드 컴퓨팅에 사용되고 있는 기술인 가상화 기술과 분산 시스템 관련 기술들은 1980년대부터 꾸준히 연구되고 있었다. 클라우드 컴퓨팅은 기존에 존재하고 있던 분산 시스템 및 분산 처리 기술을 기반으로 컴퓨팅, 스토리지, 네트워크를 조직하고 관리하는 가상화 기술이 융합된 새로운 패러다임일 뿐이다.
-
이들 기업들은 엄청난 양의 데이터를 처리하기 위해서 하나의 고성능 서버로는 도저히 처리할 수 없는 데이터의 양과 사용자들을 보유하고 있다. 그래서 데이터들을 여러 서버에 분산시켜 놓고 동시에 여러 대의 서버가 처리할 수 있는 분산 처리 기술이 각광을 받기 시작하였다.
-
분산 시스템은 다수의 컴퓨팅 및 스토리지 자원을 네트워크로 연결하여 하나의 시스템처럼 사용할 수 있는 기술이다. 분산 시스템은 분산 파일 시스템과 분산 처리 시스템으로 구성되어 있다
-
하둡은 다음과 같이 3가지로 구성되어 있다. 하둡 공통, 하둡 분산 파일 시스템(HDFS), 하둡 맵리듀스
-
2006년 2월 너치 분산 파일 시스템과 맵리듀스를 너치 프로젝트로부터 독립시켜 대용량의 데이터를 처리할 수 있는 프로젝트를 새롭게 생성하였고, 이것이 바로 하둡 프로젝트의 시작이다.
-
빅데이터란 하나 이상의 장치로 처리 또는 저장이 가능한 데이터의 집합이다. […] 시스템, 서비스, 조직(회사) 등에서 주어진 비용과 시간 내에 처리 가능한 데이터 범위를 넘어서는 데이터라고 정의할 수 있다.
-
빅데이터 가치 창출은 획득, 구조화, 분석, 결정하는 과정으로 이뤄진다.
-
맵리듀스의 프로그래밍 모델의 기본 원칙은 프로그래머들로 하여금 데이터 중심의 프로그래밍을 하도록 유도하는 것이다. 즉, 빅데이터는 여러 머신들에 분산 저장되어 있고, 저장뒤오 있는 데이터를 가공하여 대규모 데이터에 대한 분석이 가능