Hadoop & NoSQL

1. 이건 아닌 것 같아요.

이 책은 하둡과 NoSQL에 대한 사용법이나 응용법이 아니라 ‘소개’를 중심으로 하고 있다. 이미 하둡과 NoSQL은 대세가 되어버렸고, 자료가 인터넷에 넘치는 상황에서(2013년 12월 기준) 이 책의 의미가 많이 퇴색되어 버렸다.

2. 이론적 성격이 강하다.

그럼에도 불구하고, 하둡과 NoSQL에 대한 이론적인 소개가 잘 되어있기 때문에 ‘하둡과 NoSQL이 뭐야?’라고 생각하는 분들은 가볍게 읽어본다면 나름대로 좋은 성과를 얻을 수 있을 것이라 생각해 보고 싶다.


  1. 하지만, 클라우드 컴퓨팅은 새로운 기술이 아니다. 클라우드 컴퓨팅에 사용되고 있는 기술인 가상화 기술과 분산 시스템 관련 기술들은 1980년대부터 꾸준히 연구되고 있었다. 클라우드 컴퓨팅은 기존에 존재하고 있던 분산 시스템 및 분산 처리 기술을 기반으로 컴퓨팅, 스토리지, 네트워크를 조직하고 관리하는 가상화 기술이 융합된 새로운 패러다임일 뿐이다.

  2. 이들 기업들은 엄청난 양의 데이터를 처리하기 위해서 하나의 고성능 서버로는 도저히 처리할 수 없는 데이터의 양과 사용자들을 보유하고 있다. 그래서 데이터들을 여러 서버에 분산시켜 놓고 동시에 여러 대의 서버가 처리할 수 있는 분산 처리 기술이 각광을 받기 시작하였다.

  3. 분산 시스템은 다수의 컴퓨팅 및 스토리지 자원을 네트워크로 연결하여 하나의 시스템처럼 사용할 수 있는 기술이다. 분산 시스템은 분산 파일 시스템과 분산 처리 시스템으로 구성되어 있다

  4. 하둡은 다음과 같이 3가지로 구성되어 있다. 하둡 공통, 하둡 분산 파일 시스템(HDFS), 하둡 맵리듀스

  5. 2006년 2월 너치 분산 파일 시스템과 맵리듀스를 너치 프로젝트로부터 독립시켜 대용량의 데이터를 처리할 수 있는 프로젝트를 새롭게 생성하였고, 이것이 바로 하둡 프로젝트의 시작이다.

  6. 빅데이터란 하나 이상의 장치로 처리 또는 저장이 가능한 데이터의 집합이다. […] 시스템, 서비스, 조직(회사) 등에서 주어진 비용과 시간 내에 처리 가능한 데이터 범위를 넘어서는 데이터라고 정의할 수 있다.

  7. 빅데이터 가치 창출은 획득, 구조화, 분석, 결정하는 과정으로 이뤄진다.

  8. 맵리듀스의 프로그래밍 모델의 기본 원칙은 프로그래머들로 하여금 데이터 중심의 프로그래밍을 하도록 유도하는 것이다. 즉, 빅데이터는 여러 머신들에 분산 저장되어 있고, 저장뒤오 있는 데이터를 가공하여 대규모 데이터에 대한 분석이 가능

Written on January 14, 2014