상품 검색

HOME>도서>대학교재 · 학술

대학교재 · 학술

본문

3일 만에 끝내는 코딩 통계

저자
박준석  저
  • 가격

    14,800 원

  • 출간일

    2021년 10월 29일

  • 쪽수

    188

  • 판형

    170*230mm

  • ISBN

    9791167070265

  • 구매처 링크

◎ 요약

통계와 코딩은 이제 현대인의 기초 소양이 되었다. 이 책은 코딩 초보자, 통계 비전문가를 위한 입문서로서, 3일 만에 코딩과 통계의 감을 잡을 수 있도록 해준다. 사용하기 쉽고 통계에 최적화된 R 언어를 설치하는 것(1장)부터 차근차근 알려준다. 그리고 고등학교 때 배운 순열과 조합(2장)부터 시작해 확률(3장), 조건부확률(4장), 확률분포(5장), 통계적 추정(6장)까지 따라가며 통계를 코딩으로 함께 풀어본다. 몇 줄의 코드를 직접 입력하고 실행해보면서 통계적 개념을 명확히 알게 되고 코딩까지 자연스럽게 익힐 수 있게 될 것이다. 여기에 더해 컴퓨터 성능이 고도로 발달한 시대의 통계 기법인 부트스트랩(7장)까지 맛보고 나면, 통계와 코딩이 불가분의 관계라는 것을 더욱 실감할 것이다. 그리고 이후 더 공부해보려는 독자들을 위해서 넓고 깊은 통계학의 세계를 안내하는 지도(8장)가 마련돼 있다.

 

◎ 출판사 서평

 

겁먹지 않아도 되는 코딩·통계 입문서

 

이 책은 통계 입문자, 코딩 초보자들을 위한 가장 간편하고 확실한 입문서이다. 이 책을 읽고 나면 왜 통계를 코딩과 함께 배워야 하는지, 그리고 컴퓨터에게 일을 시키는 수단으로서 코딩이 무엇인지 확실히 감을 잡을 수 있을 것이다. 두꺼운 전공서나 교재를 보고 작심삼일이 될까 선뜻 손이 가지 않았던 이들이라도 이 책이라면 문제없다. 3일 만에 읽어내고 나면 숫자와 코드에 대한 막연한 겁이 없어질 것이다.

 

빅데이터 활용과 인공지능의 눈부신 발전은 현대인에게 새로운 기초 소양을 요구하고 있다. 코딩과 통계가 그것이다. 하지만 코딩의 세계는 넓고, 통계학의 세계는 깊다. 본격적으로 배우려면 만만치 않은 분야이다. 심리학과 통계학을 전공하고 현재 데이터과학자로 일하고 있는 저자는 대중의 통계 문해력 증진에 관심이 많다. 저자는 페이스북 페이지 <오하이오의 낚시꾼>을 운영하며 많은 사람이 통계에 대해 부정확하게 알고 있거나 오해하는 경우가 많다는 것을 알게 되었다. 저자는 실제 통계 활용법과는 거리가 있는 고등학교 통계 교육부터 개선될 필요가 있다고 말한다. 현대의 통계는 컴퓨터 활용과 불가분의 관계에 있고, 코딩을 통해 통계를 익히고 이해하는 것이 훨씬 효과적이고 유용하다는 것이 저자의 생각이다.

 

코딩 없이 통계를 배웠다고?

 

학교에서 배웠던 <확률과 통계>는 우리에게 얼마나 도움이 될까? 수업에선 수식을 외우고 손으로 써가며 경우의 수를 계산하고 평균을 도출하곤 했었다. 하지만 교과서의 예들처럼 말끔한 숫자로 정리된 데이터가 아닌, 혼란스럽고 거대한 현실의 데이터를 마주쳤을 때도 그렇게 할 수 있을까? 게다가 빅데이터의 시대, 손계산은 물론이고 탁상용 계산기로도 그렇게 직접 계산할 수는 없다. 그래서 실제 통계 작업은 컴퓨터를 활용해야만 한다. 그리고 컴퓨터에게 일을 시키는 수단이 바로 프로그래밍, 즉 코딩이다.


가장 간단한 것부터 코드로 구현해보자

 

코딩은 어려울까? 어렵기도 하고 쉽기도 하다. 복잡한 기능을 지닌 상업용 프로그램을 만들어야 한다면 매우 어려울 것이다. 하지만 목적이 통계 처리라면 그렇게 어렵지 않다. 통계적 활용에 최적화된 쉽고 간편한 프로그래밍 언어 R이 있다. 쉽게 익힐 수 있는 언어로 각광을 받고 있는 파이선보다도 더 쉽다. 이 책에선 R 언어 패키지를 어디서 받아서 어떻게 설치해야 하는지부터 친절하게 설명하고 있다.

 

이 책의 코딩은 가장 간단한 것, 모두 알고 있는 것부터 시작한다. 예를 들어, 10!(10 팩토리얼)을 계산하는 걸 코딩으로 어떻게 구현할까? 다음과 같은 몇 줄의 코드로 컴퓨터에게 그 계산을 시킬 수 있다.

 

x <- 1

for (i in 2:10) {

x <- x * i

}

x

 

대부분의 프로그래밍 입문서를 사보면 처음에 변수 유형이나 연산자부터 배우게 될 것이다. 이 책에서는 그보다는 바로 코딩의 맛을 보며 익숙해지도록 이끈다. 3일 만에 코딩과 통계 입문을 끝낼 수 있는 비법이 바로 여기에 있다.

 

컴퓨터에게 동전던지기를 시켜보자

 

확률에 대한 가장 직관적인 이해가 무엇일까? 시행을 무한히 반복할 때 수렴하는 값이다. 동전을 열 번 던지면 앞면이 더 많이 나올 수도 있다. 하지만 백 번 천 번 던진다면? 많이 던질수록 전체 시행 중 앞면이 나온 경우는 0.5에 매우 가까워질 것이다. 사람은 앉아서 수천 번을 던지고 있을 수 없지만 컴퓨터에게 그런 반복작업을 시키는 건 식은 죽 먹기다. 컴퓨터가 결과를 보여주고 그래프까지 그려준다.

 

우리는 동전던지기의 기댓값이 1/2이라는 걸 이미 알고 있다. 주사위를 던졌을 때 6이 나올 확률이 1/6이라는 것도 알고 있다. 그걸 컴퓨터한테 시켜보는 게 뭐 대단한 일이냐는 생각이 들 수 있다. 하지만 값을 모른다면? 알아도 믿기지 않는다면?

 

통계학에 몬티홀 문제라는 아주 유명한 문제가 있다. 문제는 이렇다. 세 개의 문이 있는데 한 문 뒤에는 자동차가 있고, 다른 두 문 뒤에는 염소가 있다. 참가자가 자동차가 있는 문을 고르면 자동차를 상으로 받고, 염소가 있는 문을 고르면 꽝이다. 참가자가 한 문을 선택하고 난 후 진행자가 다른 두 문 중에서 하나를 열어서 염소가 있는 걸 보여준다. 그러고 나서 묻는다. 지금 선택한 문을 고수하시겠습니까, 다른 문으로 바꾸겠습니까? 과연 무엇이 옳은 선택일까?

 

많은 이들이 선택을 고수하든 바꾸든 확률은 1/3로 똑같다고 생각한다. 하지만 바꾸는 게 더 유리하다. 왜 그런지 말로 설명을 들어도 잘 이해되지 않을 수 있다. 그럴 때 컴퓨터에게 수천 번의 시행을 시켜보면 차이를 확 실감하게 된다. 몬티홀 문제의 상황을 코딩한 후 문을 바꾼 경우와 바꾸지 않은 경우의 상을 타는 횟수가 어떻게 나오는지 비교할 수 있는 것이다. 이걸 해보는 데 필요한 코드는 스무 줄도 안 된다.

 

통계학과 빅데이터의 세계로

 

이 책은 아주 기초적인 주제들만 다루고 있다. 하지만 통계학과 빅데이터의 세계로 들어서는 데 가장 적합한 입문서가 될 수 있다. 통계가 이렇게 코딩으로 돌아가는구나, 감을 잡는 데 최적화되어 있다. 저자는 통계학과 계량심리학을 전공해 직접 코드를 짜가며 여러 데이터를 처리해 본 경험이 풍부하다. 현재는 데이터과학자로서 기업에서 일하고 있다. 연구와 실무를 겸비한 전문가의 감각으로 딱 필요한 핵심을 알려준다. 입문을 넘어 좀 더 관심이 생기는 독자에게는 8장 통계학의 지도가 이정표가 될 것이다.

 

한편 매 챕터 끝에 있는 박스글은 색다른 재미와 보석같은 팁을 제공한다. 왜 같은 반에 생일이 같은 친구가 있는 경우가 많을까? 통계학과 기계학습은 어떤 관계일까? 예측정확도가 높은 검사가 꼭 좋은 검사일까? 이런 궁금증들이 해소될 것이다.

 

 

차례

 

들어가며

 

01 R 설치 및 사용법

왜 R 언어인가 | R 설치방법

■ 어떤 도구로 통계학을 배울 것인가

 

02 경우의 수, 순열, 조합

코딩으로 확률과 통계 시작하기 | R에서 변수 사용하기 | 팩토리얼을 구하는 코드 짜기 | 함수 만들기 | R로 순열 구하기 | R로 조합 계산하기 | 프로그래밍으로 확률과 통계를 공부하는 이유

■ 상트페테르부르크의 역설

 

03 확률

확률은 경우의 수 세기 | 용어 | 수학적 확률 | 통계적 확률 | 극한의 의미 | 큰 수의 법칙 | 큰 수의 법칙은 돈이 된다 | 수학적 확률로 확률 문제 풀기 | 통계적 확률로 문제 풀기: 시뮬레이션 | R과 몬테카를로 시뮬레이션으로 확률 문제 풀기 | 몬테카를로 방법으로 원주율 계산하기 | 몬티홀 문제

■ 심슨의 역설

 

04 조건부확률

조건부확률이란 | 베이즈 정리 | 조건부확률 시뮬레이션하기 | 베이즈 정리 시뮬레이션하기: 코로나19 검사

■ 생일 역설: 왜 드물게 보이는 사건은 꼭 일어나곤 하는가

 

05 확률분포

확률분포란 | 이산확률변수와 연속확률변수 | R로 이산확률분포 시뮬레이션하기: 로또 복권 | 가장 대표적인 연속확률분포, 정규분포 | R로 정규분포 다루기 | 중심극한정리 | 중심극한정리는 (거의) 모든 분포에 적용된다

■ 아들/딸 역설

 

06 통계적 추정

통계적 추정이란 | 통계적 추정의 종류 | 모평균의 추정 | 표본평균 시뮬레이션하기 | 모평균에 대한 구간추정 | R로 95% 신뢰구간의 성질 확인하기 | 컴퓨터 시대의 무식한(?) 추정 방식

■ 예측정확도의 역설

 

07 부트스트랩

컴퓨터 시대의 통계학 | 부트스트랩의 원리 | 부트스트랩으로 모평균 추정하기 | 부트스트랩으로 모표준편차 추정하기 | 통계적 가설검정 | 부트스트랩 신뢰구간을 활용한 가설검정 | 다시 컴퓨터 시대의 통계학

■ 확률의 세계와 인간의 편향

 

08 통계학의 지도

통계학에 좀 더 관심 있는 분들을 위해 | 통계학 공부의 ‘테크트리’ | 통계학의 분야들 | 데이터과학과 통계학

■ 통계학과 기계학습, 비슷하면서도 서로 다른

 

 

나오며

찾아보기

저자 소개

 

저 : 박준석

서울대학교에서 심리학 학사, 석사학위를 취득하고 미국으로 건너가 오하이오 주립대학에서 통계학 석사학위와 계량심리학 박사학위를 취득했다. 

졸업 후에는 산업 현장으로 진출하여 미국 서부 해안에서 데이터과학자로 일하고 있다. 페이스북 페이지 〈오하이오의 낚시꾼〉을 통해 대중에 통계학과 데이터과학을 소개하고 있으며, 

대중의 데이터 문해력 증진 및 통계학 대중화에 관심이 많다.

저서로는 사람들이 왜 가짜뉴스를 믿게 되는지를 심리학적으로 고찰한 『가짜뉴스의 심리학』, 관련 전문가들과 함께 데이터과학 및 산업의 현재를 조망한 공저 『데이터 과학자의 일』이 있다.

책에 대한 의견을 남겨주세요

댓글목록

안도현님의 댓글

안도현 21-11-24 17:40

ebook으로도 간행해주세요.