통계학/확률과 통계 개론

[이론] 제1장 통계학 소개 (未完)

곰PM 2025. 7. 14. 13:35

【최종수정시각】 2025. 07. 14. 18:45

 

 

목차

     

     

    0 주요 참고자료


    0.1 쉘든 로스 이공계용 확률과 통계 개론 ★


    그림 0.1 쉘든 로스의 이공계용 확률과 통계 개론 6판의 표지

    Introduction to Probability and Statisticss for Engineers and Scientists

    0.2 서울대학교 통계학과 일반통계학


    그림 0.2 서울대학교 통계학과 일반통계학 2판(개정판)의 표지

    일반통계학

    • 언어:
    • 버전$^{\text{version}}$: 2판(개정판)    ※ 본고의 최초 작성 시점 기준, 최신 버전은 3판이다.
    • 저자: 서울대학교 자연과학대학 통계학과 (김우철, 김재주, 박병욱, 박성현, 송문섭, 이상열, 이영조, 전종우, 조신섭 공저)
    • 출판사:영지문화사     ※ 3판의 출판사는 한빛아카데미이다.
    • 출시일: 2006년 1월 10일     3판의 출시일은 2025년 3월 2일이다.

    0.3 샴 아웃라인 확률·확률변수·확률과정


    그림 0.3 샴 아웃라인 확률·확률변수·확률과정 4판의 표지

    Schaum's Outline of Probability, Random Variables, and Random Processes

    • 언어: 영문
    • 버전$^{\text{version}}$: 4판
    • 저자: Hwei P. Hsu
    • 출판사: McGraw Hill
    • 출시일: 2019년 10월 16일

    0.4 대한수학회 수학용어집


    그림 0.4 `대한수학회` 웹사이트 내 `수학용어` 화면 예시 

        영문 용어를 국문으로 번역함에 있어 가능한 `대한수학회`(Korean Mathematical Society, KMS) 웹사이트의 `수학용어`에서 제시하는 표현을 따르고자 노력했다.

    1 통계학 소개


    1.1 개요


        오늘날, 무언가를 알고자 한다면 먼저 자료 수집$^{\text{data collection}}$부터 해야 한다는 인식이 널리 퍼져있다. 통계학$^{\text{Statistics}}$이란 자료 기반 학습 기술(the art of learning from data)이다. 통계학은 자료를 수집하고, 기술하고, 분석한다. 이때의 분석의 종종 결론을 이끌어 내기도 한다.

    1.2 자료 수집과 기술통계학


        통계적 분석의 출발점은 주어진 자료이다. 그러나 자료를 갖고 있지 않다면 직접 실험$^{\text{experiment}}$을 수행해 자료를 생성$^{\text{generate}}$하기도 한다. 통계적 분석의 결과가 올바르려면 실험(자료 수집 행위)은 무작위적$^{\text{random}}$이어야 한다. 예를 들어, 새로 고안한 운동법의 체중 감량 효과 여부를 판정하는 실험을 수행한다고 가정하자. 이를 위해 보통 전체 피실험자를 동일한 인원 수의 두 집단으로 무작위로 분할한다. 그러면 이 분할의 결과가 될 수 있는 모든 조합은 서로 동등하게 발생 가능$^{\text{equally likely}}$하다.

        조금 쉬운 예로, 동전 던지기를 생각해보자. 이때 우리는 보통 동전의 앞면보다 뒷면이 더 나올 법하진 않다고 기대한다. 마찬가지로 동전의 뒷면이 앞면보다 더 나올 법하진 않다고 기대한다. 고로 이 두 기대가 모두 참이면 동전 던지기는 무작위한 실험이다. 다시 신규 운동법 실험 예시로 돌아가자. 피실험자를 식사량 오름차순으로 정렬하였다. 그리고 그 가운데를 기준으로 전체를 둘로 분할했다. 그러면 우리는 많이 먹는 집단보다 적게 먹는 집단에서 체중 감량 효과가 더 크게 나타날 것으로 기대할 수 있다. 만약 이 기대가 참이면 이 실험은 작위적$^{\text{nonrandom}}$ 이다.

        자료를 수집한 다음에 할 일은 자료를 기술$^{\text{describe}}$하는 것이다. 예를 들어, 각 피실험자의 체중 감량 효과의 정도를 체중 변화량으로 나타낸다. 또한 집단별 체중 변화량 자료를 평균, 분산, 중앙값 등의 통계량으로 요약$^{\text{summarize}}$한다. 이처럼 자료 기술에 관한 통계학기술통계학$^{\text{Descriptive Statistics}}$이라 부른다.

    1.3 추론통계학과 확률 모델


        통계적 분석은 자료 기술 수준에서 끝날 수 있다. 그러나 종종 어떤 결론을 이끌어 내는 것까지 이어지기도 한다. 이처럼 자료 혹은 자료 기술의 결과를 근거로 결론을 도출하는 것에 관한 통계학추론통계학$^{\text{Inferential Statistics}}$이라 부른다. 예를 들어, 하나의 동전을 10번 연속 던지는 실험을 수행했다. 그 결과로 앞면과 뒷면이 등장한 사건이 각각 8회와 2회 발생했다. 우리는 이 실험의 결과를 근거로 "이 동전은 불공평한$^{\text{unfair}}$ 동전이다."라고 결론 내리긴 어렵다. 그런데 동전을 10만 번 연속 던지는 실험에서 앞면과 뒷면이 등장한 사건이 각각 8만회과 2만회 발생했다고 가정하자. 그러면 우리는 이 실험의 결과를 근거로 "이 동전은 불공평한 동전이다."라고 결론 내릴 만하다.

        자료로부터 결론을 도출하기 위해서는 다른 값의 자료를 획득할 수 있는 가능성에 대한 몇 가지 가정이 필요하다. 이 가정들의 총체성을 해당 자료의 확률 모델$^{\text{Probability Model}}$이라 부른다. 예를 들어, 하나의 공평한$^{\text{fair}}$ 동전을 $n$번 연속 던지는 실험에서 얻을 수 있는 자료의 확률 모델은

    $$\mathrm{Pr}\left( X = x \right) = \binom{n}{x} \left(\frac{1}{2}\right)^n \quad x=0,\ 1,\ 2 ,\ \cdots$$

    과 같이 동전 앞면의 총 등장 횟수를 지칭하는 확률변수 $X$, 그리고 그것의 확률질량함수 $\mathrm{Pr}\left( X = x \right)$로 정의할 수 있다. 단, 여기서 $n$은 자연수이고

    $$\binom{n}{r} \triangleq \frac{n!}{r! (n-r)!} \quad r=0,\ 1,\ 2 ,\ \cdots,\ n$$

    이다. 이 확률 모델의 가정으로는

     

    동전을 1번 던졌을 때 앞면과 뒷면이 등장할 가능성은 서로 같다.

    동전 앞뒷면의 등장 순서는 고려하지 않는다.

    각 1회의 동전 던지기 행위는 서로의 결과에 영향을 주지 않는다.

     

    등이 있다. 이때 $n=2$이면 앞면의 등장 횟수가 $0$, $1$, $2$인 자료는 각각 ${{1}\over{4}}$, ${{1}\over{2}}$, ${{1}\over{4}}$의 확률로 얻을 수 있다.

    1.4 모집단과 표본


        통계학의 주요 관심사 중 하나는 여러 대상으로 이루어진 집단 전체에 대한 정보를 획득하는 것이다. 예를 들어, 여론조사기관은 선거운동 기간에 전체 투표권자의 후보 지지자 분포가 궁금하다. 기업은 생산 제품의 불량률이 궁금하다. 정부는 국민의 소득 수준이 궁금하다. 통계학은 이러한 궁금증의 해소 수단이다.

        한편, 30명으로 이루어진 학급에 관한 자료는 전수조사로 수집해 볼만하다. 그러나 상기 세 사례에서는 전수조사가 어렵거나 불가능하다. 이러한 경우에는 보통 일부가 보유한 자료를 바탕으로 전체 집단의 자료를 추정한다. 이 전체 집단, 즉 일부의 자료로 전체의 자료를 추정하는 대상인 집단모집단$^{\text{population}}$이라 부른다. 그리고 모집단의 일부 구성원으로 재구성한 집단을 그 모집단의 표본$^{\text{sample}}$이라 부른다. 고로 표본은 모집단의 부분집단$^{\text{subgroup}}$이다.

        표본이 모집단 전반에 걸쳐 설명력 있$^{\text{informative}}$을려면 그것이 소속 모집단을 대표한$^{\text{be repensentative of}}$다고 말할 수 있어야 한다. 예를 들어, 한 동네의 연령 분포에 대한 표본조사를 추진한다고 생각해 보자. 어느 하루에 그 동네 공공도서관에 입장하는 첫 100명을 표본으로 추출했다. 이 표본은 미취학 아동과 노인의 구성 비율은 실제보다 높을 것이다. 학생과 직장인의 구성 비율은 그 반대일 것이다. 고로 이 표본은 그 동네 전체를 대표한다고 말할 수 없다.

        표본추출은 특정 구성원을 포함한다는 사전 고려 없이 완전하게 무작위한 방식으로 수행해야 한다. 예를 들어, 일부러 성비가 5:5가 되도록 추출하지 않는다. 또 다른 예로, 직군별 구성 비율이 균일하도록 추출하지 않는다. 다시 말해, 표본추출의 핵심은 "될 때로 되라"$^{\text{Let It Be}}$이다. 조사자는 철저히 개입을 삼간다. 역설적이지만, 조사자가 할 일은 그저 운에 맡기는 것이다.

    1.5 통계학의 간략한 역사


    추후 작성 예정