-
반응형
이 책은 미국 매사추세츠주 보스턴에 위치하는 "올린 공과대학" 앨런B. 다우니 교수가 작성한 책이다. Think Python, Think Stats, Think DSP등 주로 "Think XXX"시리즈 책을 출판하였다. 이번에 처음 접하게 된 이 책은 원제가 Think Bayes로써 가장 최근에 출판된 Trhink 시리즈 책이다. 통계학의 이론들을 Python으로 구현하는 Think Stats의 후속 책이라고 봐도 무방할 듯 하다.
데이터를 다루고 통계를 활용하는데 있어 R, Matlap, Python등 다양한 개발 언어들이 있을텐데 이 책에서는 Python이 활용되고 있다. Python의 Jupyter notebook 인터페이스와 Numpy, Pandas 모듈을 통해 다양한 예시의 통계를 설명하고 있다. 참고로 Numpy는 행렬이나 다차원 배열을 그리고 Pandas는 데이터 조작 및 분석을 위한 오픈소스이다.
저자는 친절하게 이론과 코드를 한줄 한줄 설명한다. 책에서 소개되는 알고리즘을 직접 구현해야할 일 또한 거의 없다. 다만 Python을 하나도 모른다! 그러면 Python에 대한 기초적인 공부와 Jupyer notebook을 조금 사용해보고 시작하는게 좋다. 베이즈안 이론에서만 헤매야지 Python에서도 같이 헤매고 있으면 책을 보다가 중도 포기할 가능성이 높다.
베이지안 통계
토머스 베이즈에 의해 시작된 베이즈 확률론은 과거부터 존재하였지만 1950년대가 되어 베이즈 정리가 정립된 이후 베이즈 확률론이라는 이름도 정착하였다.
베이즈 통계학(Bayesian statistics)은 하나의 사건에서의 믿음의 정도 (degree of belief)를 확률로 나타내는 베이즈 확률론에 기반한 통계학 이론이다. 믿음의 정도는 이전 실험에 대한 결과, 또는 그 사건에 대한 개인적 믿음 등, 그 사건에 대한 사전 지식에 기반할 수 있다. 이것은 확률을 많은 시도 후의 사건의 상대적 빈도의 극한으로 보는 빈도주의자 (frequentist) 등 많은 다른 확률에 대한 해석과는 다르다.
위키피디아, 베이지 통계학동전 던지기나 주사위 던지기와 같이 각 사건이 독립이건 아니면 로또 6/45와 같이 종속적 사건이건 상관 없이 표본 공간과 확률 변수가 잘 정의되어 있고 모든 경우의 수를 헤아리기 쉽다면 고전적 확률 계산으로도 충분히 정확한 확률을 계산할 수 있다. 그러나 표본 공간의 크기를 짐작하기 어렵거나 확률 분포가 모호한 경우 이러한 방법으로 사건의 확률을 알아낼 수는 없다. 예를 들어 한 국가나 사회의 교통사고는 얼마나 일어날까? 교통사고는 차량의 수, 교통량, 도로의 구조 등 복잡한 원인이 얽혀 있고 표본 집단을 설정하는 것 조차 쉽지 않아 고전적인 확률 해석으로 구하기는 불가능하다. 그러나 베이즈 확률론의 방법으로는 선험적 사전 확률과 데이터 에 의한 보완을 통해 교통사고가 일어날 기대값을 추정할 수 있다.
위키피디아, 베이지 확률론목차
- CHAPTER 1 확률
- CHAPTER 2 베이즈 정리
- CHAPTER 3 분포
- CHAPTER 4 비율 추정
- CHAPTER 5 수량 추정
- CHAPTER 6 공산과 가산
- CHAPTER 7 최솟값, 최댓값 그리고 혼합 분포
- CHAPTER 8 포아송 과정
- CHAPTER 9 의사결정분석
- CHAPTER 10 검정
- CHAPTER 11 비교
- CHAPTER 12 분류
- CHAPTER 13 추론
- CHAPTER 14 생존 분석
- CHAPTER 15 표식과 재포획
- CHAPTER 16 로지스틱 회귀
- CHAPTER 17 회귀
- CHAPTER 18 켤레사전분포
- CHAPTER 19 MCMC
- CHAPTER 20 근사 베이지안 계산
가장 기본이 되는 베이즈 정리를 시작으로 20개의 챕터로 다양한 사례들을 기반으로 설명한다. 책 내용들은 이론 설명 그리고 이에 대한 코드와 그래프 마지막 연습문제등으로 이어진다. 다양한 사례들로 설명을 해주기 때문에 꽤 흥미롭게 시작은 하지만 여전히 수학적인 부분이 어려운 것은 사실. 은근 난이도 때문인지 어떻게 보면 대학 강의를 옮겨놓은 것 같은 느낌을 종종 받게 된다.
어떤 부분은 술술 읽히는 부분도 있지만 대부분 두 번씩 읽어보고 한번 실행을 직접해봐야 조금이나마 이해가 갔다. 때론 잘 알고 있는 사람이 옆에서 코칭을 해줬으면 하는 생각도 들기도 했다.
반복해서 나오는 쿠키 문제, 그리고 순간 멘붕을 주었던 몬티홀 문제로 시작하여 정말로 다양한 예시들을 제공한다. 특히 챕터 8장 포사오 과정을 읽으면서 (임의의 시간에 발생하는 이벤트를 나타내는 모델), 축구 경기 예시가 나온다. 그 유명한 풋볼 매니저란 게임에 이러한 이론들을 활용해서 구현한게 아닐까 하는 생각이 문득 들었다.
이 책은 2014년 7월 초판 이후 약 8년만에 전면 재개정되어 2판이 출판되었다. 베이지안 통계에 대해 관심이 있는 개발자나 주로 활용하는 데이터 사이언티스트, AI 엔지니어등 공부할 계획이 있었다면 이번에 새롭게 재개정된 책을 구매해서 보는 것을 추천한다.
See also
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
반응형