파이썬 라이브러리를 활용한 머신러닝 - 사이킷런 핵심 개발자가 쓴 머신러닝과 데이터 과학 실무서, 번역개정판
머신러닝과 관련된 분야를 공부할 때 가장 먼저 접했던 교재는 튜링 선생님과 체스판이 그려진 스튜어트 러셀과 피터 노박의 영문 원서였다. 코드보다 문자와 수식이 많았던 책은 언제나 힘겹고 같은 곳을 몇번이나 다시 읽어보게 만들었다.
요즘에는 머신러닝 책이 다양하게 많이 출간되고 있는데, 그 중에서도 눈에 띄는 책을 오랜만에 다시 읽어보게 되었다. 작년에 scikit-learn
을 사용해서 대학원 과제를 준비하면서 ‘모델 평가’ 부분만 발췌해서 읽고 지나갔던 책인데, 이번에 번역개정판이 나왔다고 해서 다시 읽어보게 되었다.
1
이번 번역개정판의 경우 책 소개를 하는 문구에는 초판 발행 이후에 알려진 오탈자를 다 잡았다고 되었있다. 이 정도 수준이면 개정판을 별도로 출간할 필요가 있을까 싶었는데, 천천히 읽어보니 scikit-learn
버전 업데이트에 맞춰 세부적인 코드도 수정되었다.
기존에도 해당 책의 번역자분의 홈페이지에 지속적으로 업데이트를 해주시고 계셔서 별다른 불편을 느낄 수 없을텐데도 불구하고, 이번에 개정판을 출간하면서 세부적인 부분에 많은 신경을 써서 출간하였다.
2
근래에 tensorflow
기반의 keras
에 많은 관심을 쏟고 있고, 내 주변에도 pyTorch
등을 심심치 않게 학습하는 것을 보곤한다. 나는 아직 머신러닝이나 뉴럴 네트워크을 전문적으로 사용하는 일이 없다보니 대부분의 업무는 pandas
와 scikit-learn
정도면 충분히 처리할 수 있는 수준이다.
그렇다보니 scikit-learn
에 많은 관심을 가지고 있는데, 관련 서적이 얼마 없기도 하지만 데이터분석 혹은 머신러닝에 관련된 책 중에서 이 책 만큼 좋은 번역이 드물다. 사실 이 책을 다시 구매하는 이유 중 8할은 번역자의 몫이라 과감하게 주장하고 싶다.
내가 국내 번역가 중에서 가장 선호하는 분은 ‘류광’님, ‘윤인성’님, ‘이일웅’님 그리고 이 책의 번역자인 ‘박해일’님이다. 류광님은 TAOCP번역이나 기존에 진행하시던 GPG
시리즈를 통해서 익히 잘 알려진 번역가이다. 작년에 박해일님의 번역본은 믿고 구매해도 좋겠다 생각했던 것은 자신이 번역한 책을 홈페이지와 GitHub을 통해서 지속적으로 업데이트를 해 주시는 것을 확인하고 나서이다. 라이브러리 버전 업데이트 때문에 책의 코드가 작동하지 않는 것을 GitHub의 Jupyter Notebook 파일을 통해서 지속적으로 수정해주셔서 공부하는데 예제가 작동하지 않는 경우가 거의 없었다. ‘박해일’이란 번역자의 이름이 책의 품질을 보장한다고 해도 과언이 아니다. 그리고 이번 재번역에 한국어 독자를 위해서 별도의 챕터가 포함되어 있으며, KoNLP 관련 정보가 포함되어 있다는 점등을 고려해본다면 이번 번역을 흔하지 않은 ‘초월번역’이라 할 수 있다.
3
책을 받고 깜짝 놀란 부분이 책이 ‘전면 컬러’로 되어있다는 점이다. 컬러도 되어 있으면 표나 이미지를 보는데 좋기는 하겠지만 OpneCV
나 OpenGL
을 다루는 책이 아니라서 책 값만 올라 가는거 아닌가 싶었다.
그런데 이번에 이 책을 읽으면서 컬러가 얼마나 중요한지 책을 읽으면서 확실하게 알게 되었다. 무엇보다 코드의 가독성이 확실히 좋아졌다. 그래프나 이미지에 대한 가독성이 좋아지는 것이야 누구나 예상하지만, 코드 가독성이 이렇게 좋아질지 몰랐다.
PyCharm
이나 VSCode
를 사용할 때, 편집기 테마에 많은 신경을 쓴다는 점을 고려해보면 코드 가독성은 컬러의 이점을 더욱더 많이 볼 수 있을 듯 싶다.
4
책의 내용이야 기존에 이미 검증되어 있고, 믿고보는 번역자, 전면 컬러로 출판된 것등을 고려해보면 굉장히 훌륭한 책이라 할 수 있다. 나차럼 뉴럴네트워크 기반의 업무를 진행하지 않고, scikit-learn
이나 pandas
로 EDA나 기존의 데이터를 분류 혹은 추천 시스템을 만드는 개발자에게 일독을 권한다.