데이터가 뛰어노는 AI 놀이터, 캐글

한빛미디어에서 제공받는 책으로 해당 리뷰를 작성하였습니다.

책표지!

1, TL;DR

이 책의 가장 큰 장점은 캐글에서 사용하는 다양한 기법을 체계적으로 정리하고 있다는 점이다. 대표적인 장점은 1) 성능을 올리는데 사용되는 기법의 장/단점과 특성을 상세하게 설명한다. 2) 캐글에선 많이 사용하지만, 다른 교재에서 다루지 않는 기법을 소개한다.

데이터 분석을 공부하면서 캐글에 공개된 노트북을 최대한 활용하고 있다면, 이 책이 많은 도움을 줄 것이다. 그리고 데이터 분석을 공부한다는게 대부분의 Pandas 라이브러리 사용법 부터 시작하는데, Pandas 사용법을 모두 익혔다면 이 책을 선택해서 다양한 기법을 배워보기 권하고 싶다.

2

책내용!

이 책을 처음 받았을 때, 데이터 분석 경진대회 플랫폼인 캐글(Kaggle)에 관한 책이라 생각했다. 캐글은 데이터 분석을 학습할 때 전처리, 분석기법 등을 살펴볼 수 있다. 상위 등급의 도전자가 공개한 노트는 일반적인 데이터분석 교재에서 배울 수 없는 다양한 팁이 모여있기 때문에 학습에 많은 도움이 된다.

상위 랭크의 노트북이 도움이 된긴 하지만, 사실 이런 과정까지 도달하기 위해서 생각보다 많은 시간을 소모하게 된다. 왜냐하면 대부분의 학습자가 Pandas, Matplolib 등 다양한 라이브러리 사용법부터 학습하기 시작하기 때문에 다른 사람의 노트북을 보고 학습하는 과정이 쉽지 않다. 노트북에 주석이 없는 경우도 많고, 있다고 해도 너무 간단하기 때문에 초급 데이터 분석자에겐 쉽지 않다. 이런 연습은 교재의 후반부에 등장하는 사례 관련 코드로 연습할 수 있기 때문에 체계적인 연습이 될 것으로 기대한다.

Written on June 20, 2021