eStat 시스템이란?

- eStat은 빅데이터 시대에 많이 필요한 통계학을 초등학생서부터 대학생들까지 쉽게 배울 수 있도록 만든 소프트웨어입니다.
- eStat은 마우스 클릭만으로 여러 가지 그래프를 그리며 간단한 도수분포표 및 교차표를 만들 수 있고, 가설검정 등의 고급 통계분석을 할 수 있습니다.

만든이: 이정진(숭실대), 이태림(방송대), 강근석(숭실대), 김성수(방송대),
          박헌진(인하대), 심송용(한림대), 이윤동(서강대), 유현조(서울대)



예제로 eStat 배우기 메뉴

  1. 자료 만들기 / 저장하기 / 불러오기

  2. 막대/원/띠/꺽은선 그래프

  3. 점/히스토/줄기/상자/산점도

  4. 확률분포함수 (eStatU 참조)

  5. 모집단과 표본 (eStatU 참조)

  6. 가설검정 (eStat, eStatU 참조)

  7. 상관 및 회귀분석 (eStat, eStatU 참조)


1. 자료 만들기 / 저장하기 / 불러오기

1.1 eStat에서 자료 만들기 / 저장하기 / 불러오기

    - eStat에서 자료 만들기
   주화면 좌측에 있는 시트에 자료를 입력한다. 일반적으로 행은 관찰대상, 열은 변량을 의미한다.

      

      문자나 숫자도 입력할 수 있다. 막대, 원, 띠그래프는 문자자료을 이용해서 그래프를 그릴 수 있으나. 점그래프,
   히스토그림, 줄기와 잎 그래프는 반드시 숫자자료을 이용하여야 한다. 단 그룹변수는 문자자료를 이용할 수 있다.

    - eStat에서 자료 저장
   만든 자료가 변수이름과 숫자 또는 문자로 되어 있을 경우 '파일이름' 칸에 파일명을 적은 후 아이콘을
   누르면 엑셀의 csv 형식으로 저장된다. 이와 같은 csv 형식의 파일을 메모장으로 열어 보면 다음과 같다.

      

      메모장으로 위와 같은 csv 형식의 파일을 만들고 csv 불러오기 아이콘으로 불러올 수도 있다.

      파일이 저장되는 위치는 다운로드 폴더 (일반적으로 C:/users/(사용자명)/Downloads/) 이다.
   만든 자료에 변수값명등의 추가 정보가 있으면 아이콘을 이용하여 json 파일 형식으로 저장한다.

    - 자료 불러오기
   로컬 컴퓨터에서 엑셀의 csv 형식으로 저장한 자료는 아이콘을 이용하여 eStat 시스템으로 불러온다.
   아이콘을 누르면 파일을 선택하는 대화상자가 나타나는데 여기에서 원하는 파일을 선택한다.
   웹서버 등에 엑셀의 csv 형식으로 저장한 자료는 아이콘을 이용하여 eStat 시스템으로 불러온다.
   json 형식으로 저장한 자료는 아이콘을 이용하여 eStat 시스템으로 불러온다.

1.2 엑셀에서 자료 만들기 / 저장하기 / eStat으로 불러오기

    - 엑셀에서 자료 만들기 / 저장하기 / eStat으로 불러오기
   엑셀에 자료를 아래 예와 같이 입력한다.

      

     엑셀 메뉴에서 '파일' > '다른이름으로 저장' 을 선택하여 나타나는 대화상자에서 '파일 형식'을 csv(comma separated value)로 선택한다.

      

     저장된 csv파일은 다음과 같다.

      

     eStat에서 이 파일을 불러오면 글자가 깨진다. 메모장 메뉴에서 '파일' > '다른이름으로 저장' 대화상자에서 인코딩 방식을 'UTF-8'로 저장해여 eStat에서 글자가 깨지지 않고 읽을 수 있다.

      

     eStat 주메뉴에서 불러오기 아이콘 를 선택하여 저장한 파일을 불러오면 된다.



2. 막대/원/띠/꺽은선 그래프

   - 성별 교육정도와 같은 이산형 또는 범주형 변량에 적합한 그래프

   - 신장같은 연속형 변량은 변량값을 구간으로 나눈 후 막대/원/띠그래프를 그릴 수 있음

   - 막대그래프(bar graph)는 성별 변량의 남자, 여자 도수를 막대의 높이로 나타내는 그래프.
  가로형/세로형과 나란형/쌓는형/비율형/분리형/양쪽형 등의 변형 형태가 있음.

   - 원그래프(pie graph)는 성별 변량의 남자, 여자 도수를 원의 호에 대한 각도로 나타내는 그래프.
  원그래프와 도넛그래프가 있음.

   - 띠그래프(band graph)는 성별 변량의 남자, 여자 도수를 직사각형 내의 길이로 표시한 그래프.

   - 꺽은선그래프(line graph)는 성별 변량의 도수를 좌표상의 점으로 표시한 후 직선으로 연결해 준 그래프. 시간에 관련된 자료에 많이 이용.

2.1 요약자료의 막대/원/띠/꺽은선 그래프

[예제 2.1] 어느 초등학교 5학년 1반과 2반의 남여 학생수를 조사하여 정리한 자료가 다음과 같다 (이와 같은 자료를 요약자료라 함)
  
성별 5-1반 5-2반

남자

16

14

여자

12

18


1) 자료를 eStat 시스템에 입력하라.
2) 5학년 1반의 남여 학생수의 막대/원/띠/꺽은선 그래프를 그려라.
3) 5학년 1반과 2반의 남여 학생수의 막대/원/띠/꺽은선 그래프를 그려라.

(풀이)
1) (자료입력)
   - 첫째 자료(남자, 16, 14)를 자료창의 V1, V2, V3 열의 첫번째 행에 입력
   - 둘째 자료(여자, 12, 18)를 자료창의 V1, V2, V3 열의 두번째 행에 입력
   - 시트 위의 '변량편집' 버튼을 클릭하여 나타나는 팝업창에서 V1의 변량명을 성별로 바꾸고 '변량편집 입력' 버튼을 누름
   - 같은 방법으로 V2의 변량명을 5-1반으로, V3의 변량명을 5-2반으로 입력한후 '변량편집 나가기' 버튼을 누름
   - 입력된 자료의 모습은 다음과 같음
  

   - (다른 자료입력 방법) 엑셀로 위와 같은 파일을 만든 후 csv 파일 형태로 저장(단 UTF-8 방식)한 후 eStat에서 불러올 수 있음

2) (5학년 1반 남여 학생수 그래프 그리기)
   - 5학년 1반의 성별 막대그래프를 그리려면 시트창에서 제일 위 변량명 행에서 차례로 '성별' '5-1반'을 클릭한다.
   - 선택한 변량번호가 '선택변량' 창에 나타난다.
   - 화면 상단의 아이콘창에서 막대그래프를 선택하면 다음과 같은 막대그래프가 나타난다.
  

   막대그래프성별도 수남자여자024681012141618

   - 화면 상단의 아이콘창에서 원/띠/꺽은선그래프를 선택하면 해당 그래프가 화면에 나타난다.
   원그래프성별남자: 16여자: 14

3) (5학년 1반과 2반 남여 학생수 그래프 그리기)
   - 5학년 1반과 2반의 남여 학생수에 대한 막대그래프를 그리려면 이미 선택된 변량 '성별' '5-1반'에 '5-2반'을 추가로 선택한다.
   - 선택한 변량번호들이 '선택변량' 창에 나타난다.
   - 화면 상단의 아이콘창에서 막대그래프를 다시 선택하면 다음과 같은 막대그래프가 나타난다.

   막대그래프성별도 수남자여자02468101214161820024681012141618205-1반5-2반

   - 이와 같이 두 그룹(5학년 1반과 2반)이 있는 경우는 아이콘창 밑의 부아이콘을 이용하여 다양한 형태의 그래프로 바꿀 수 있다.
  

   막대그래프성별도 수02468101214161820남자여자5-1반5-2반

(분석) 5-1반은 남학생이 많고, 5-2반은 여학생이 많다.

[실습예제 2.1.1] 초등학생의 희망직업을 조사한 자료가 'Ex' 아이콘 폴더의 '11요약_초등학생희망직업.csv' 와 같다. 이 자료를 이용하여 막대/원/띠/꺽은선 그래프를 그려라.

[실습예제 2.1.2] 2015년 연령대별 남녀인구가 'Ex' 아이콘 폴더의 '12요약_2015년남녀별인구.csv' 와 같다. 이 자료를 이용하여 막대/원/띠/꺽은선 그래프를 그려라. 남녀 인구의 비교를 위한 막대그래프를 그려라. 이 막대그래프를 양쪽형 가로 막대그래프(인구 피라미드)로 변형하라.

[실습예제 2.1.3] 1973년부터 2016년까지 우리나라의 계절별 평균온도가 'Ex' 아이콘 폴더의 '13요약_계절별온도.csv' 와 같다. 이 자료를 이용하여 막대/꺽은선 그래프를 그려라.

2.2 원시자료의 막대/원/띠/꺽은선 그래프

[예제 2.2] 한 초등학교 학급 학생 10명의 성별(1:남자, 2:여자)과 수학 선호도 조사(1:좋음, 2:보통, 3:싫음)가 다음과 같다 (이와 같은 자료를 원시자료라 부름).

번호

성별

수학선호

1

1

3

2

2

1

3

1

3

4

2

1

5

1

3

6

1

1

7

1

2

8

2

2

9

2

3

10

1

2


1) 위의 자료를 시스템에 입력하라.
2) 수학 선호도에 따른 학생수에 대한 도수를 조사하여 막대/원/띠/꺽은선 그래프를 작성하라.
3) 각 성별로 수학 선호도에 따른 학생수에 대한 도수를 조사하여 막대/원/띠/꺽은선 그래프를 작성하라.

(풀이)
1) (자료입력)
   - 열명의 성별과 수학선호도 자료를 자료창의 V1, V2 열에 입력
   - '변량편집' 버튼을 클릭하여 V1의 변량명을 '성별', 변량값명으로 1은 '남자' 2는 '여자'로 입력하고 '변량편집 입력' 버튼을 누름
   - 같은 방법으로 V2의 변량명을 '수학선호' 변량값명으로 1은 '좋음', 2는 '보통' 3은 '나쁨'으로 입력한후 '변량편집 입력' 버튼을 누름
   - '변량편집 나가기' 버튼을 누름
   - (다른 자료입력 방법) 엑셀로 위와 같은 파일을 만든 후 csv 파일 형태로 저장(단 UTF-8 방식)한 후 eStat에서 불러올 수 있음

2) (수학선호도 그래프 그리기)
   - 원시자료의 막대그래프를 그리려면 시트창에서 제일 위 변량명 행에서 '수학선호' 를 클릭한다.
   - 선택한 변량번호가 '선택변량' 창에 나타난다.
   - 화면 상단의 아이콘창에서 막대그래프를 선택하면 시스템이 수학선호의 도수를 계산하여 다음과 같은 막대그래프가 나타난다.
   수학선호의 막대그래프 수학선호도 수 1 2 30.00.51.01.52.02.53.03.54.04.55.0

   - 그래프 밑의 선택창에서 도수표시를 체크하면 각 막대에 도수가 표시된다.

3) (성별 수학선호도 그래프 그리기)
   - '선택변량' 창 옆의 '취소' 버튼을 누른 후 '성별'과 '수학선호' 변량을 선택한다.
   - 선택한 변량번호들이 '선택변량' 창에 나타난다.
   - 화면 상단의 아이콘창에서 막대그래프를 다시 선택하면 다음과 같은 막대그래프가 나타난다.

   (그룹 성별) 수학선호의 막대그래프 수학선호도 수 1 2 30.00.51.01.52.02.53.03.54.00.00.51.01.52.02.53.03.54.0그룹1그룹2

(분석) 수학을 선호하는 여학생이 많고, 수학을 싫어하는 남학생이 많다.

[실습예제 2.2.1] 남녀별 좋아하는 야채(1:상추, 2:당근, 3:오이, 4:토마토)에 대한 조사자료가 'Ex' 아이콘 폴더의 '22원시_성별좋아하는야채.csv' 와 같다. 이 자료를 이용하여 막대/원/띠/꺽은선 그래프를 그려라.



3. 점그래프/상자그래프/줄기와 잎 그림/히스토그램/산점도

    - 점그래프(dot graph)는 한 변량의 각각의 값에 비례하여 가로축 위에 점으로서 표시한다.
   점그래프는 연속형 자료의 평균, 분포형태, 이상점들을 관찰할 수 있다.
   두 그룹이 있는 경우 평균을 표시하여 그룹의 비교에 많이 이용된다.

    - 상자그래프(box­whisker plot)는 자료의 형태를 최솟값, 25% 분위수, 중앙값, 75%분위수,
   최대값을 이용하여 표시한다.
   자료를 오름차순으로 정리하여 25% 분위수(Q1)와 75% 분위수(Q3)를 구한다.
   25% 분위수(Q1)와 75% 분위수(Q3)를 사각형으로 연결한 다음 중앙값을 안에 표시한다.
   최솟값과 최댓값을 사각형(상자)과 연결한다.

    - 줄기와 잎 그림(stem and leaf graph)은 자료를 줄기와 잎의 형태로 보여준다.
   대개 줄기는 자료의 10자리 단위이상을 사용하고 잎은 자료값들의 마지막 숫자를 이용한다.
   자료의 범위, 분포의 모양, 집중도 등을 쉽게 알 수 있다.
   두 그룹이 있는 경우는 잎을 양쪽으로 펼쳐 비교하기 좋게 그린다.

    - 히스토그램(histogram)은 신장이나 체중 같은 연속형 변량을 여러 개의 구간으로 나누어
   각 구간의 도수를 구한 후 이에 대한 막대그래프(막대 사이에 간격이 없는)를 그린다.
   히스토그램은 자료의 전반적인 분포 형태를 파악하는데 이용된다.
   히스토그램을 그리기위해 자료의 계급구간별 도수를 정리한 도수분포표를 출력할 수 있다.
   도수분포다각형은 히스토그램의 각 막대를 연결하여 자료의 형태를 관찰하기위한 그래프.

   - 산점도(scatter plot)는 두 연속형 변량값을 x축 y축 좌표 평면에 점으로서 표시한다.
   두 연속형 변량의 분포형태, 상관성, 이상점들을 관찰할 수 있다.

3.1 점/상자/줄기/히스토그램

[예제 3.1] 어느 중학교에 근무하는 선생님 30명의 성별과 나이를 조사한 자료가 다음과 같다.

번호

성별

나이

1

1

26

2

1

34

3

2

28

4

2

39

5

1

32

6

1

36

7

2

41

8

2

42

9

...

...

30

2

51

   'Ex' 아이콘 폴더의 '32연속_선생님성별나이.csv'

1) 나이에 대한 점그래프, 히스토그램을 그려라.
2) 히스토그램에 평균을 표시하고 도수분포다각형을 그려라. 구간을 변경하여 히스토그램을 그려라.
3) 성별에 따른 나이에 대한 점그래프, 줄기와 잎 그림을 그려라

(풀이)
1) (나이의 점그래프, 히스토그램)
   - 이 자료는 'Ex' 아이콘 폴더의 '32연속_선생님성별나이.csv' 로 저장되어 있어 불러오기로 시스템에 가져올 수 있음
   - 시트창에서 '나이' 를 클릭한다.
   - 선택한 변량번호가 '선택변량' 창에 나타난다.
   - 화면 상단의 아이콘창에서 점그래프를 선택하면 다음과 같은 점그래프가 나타난다.
   나이의 점그래프나이253035404550556065

   - 그래프 밑의 선택창에서 평균, 표준편차를 체크하면 평균과 표준편차가 표시된다.

2) (히스토그램 구간조정)
   - 이어서 히스토그램 아이콘을 누르면 다음과 같은 히스토그램이 나타난다. 선택창에서 평균과 도수분포다각형을 체크하였다

   나이의 히스토그램01234567819.5725.0030.4335.8641.2946.7152.1457.5763.0068.43나이도 수평균=40.67057462330

   - 구간시작을 20, 구간너비를 10으로 입력한 후 '새 구간으로 실행' 버튼을 누르면 다음과 같은 히스토그램이 출력된다
나이의 히스토그램012345678910111210.0020.0030.0040.0050.0060.0070.0080.00나이도 수평균=40.6705108520

3) (성별 나이의 점그래프, 줄기와 잎 그림 그리기)
   - '선택변량' 창 옆의 '취소' 버튼을 누른 후 '성별'과 '나이' 변량을 선택한다.
   - 선택한 변량번호들이 '선택변량' 창에 나타난다.
   - 화면 상단의 아이콘창에서 점그래프를 다시 선택하면 다음과 같은 점그래프가 나타난다.

(그룹 성별) 나이의 점그래프나이그룹1253035404550556065그룹2253035404550556065평균=38.85평균=42.06

   - 부아이콘 창에서 양쪽형 줄기와 잎 그림(그룹이 두 개일 경우 가능)을 선택하면 다음과 같은 그래프가 나타난다.

(그룹 성별) 나이의 줄기와 잎 그림줄기그룹 1 잎그룹 2 잎2566324564226954862783123469412355136613


[실습예제 3.1.1] 칫솔질방법(1:회전법, 2:바스법)에 따른 구강청결도 자료가 'Ex' 아이콘 폴더의 '30연속_칫솔질방법과구강청결도.csv' 와 같다. 이 자료를 이용하여 점그래프와 히스토그램을 그려라.

[실습예제 3.1.2] 천연기념물 수달의 길이를 조사한 자료가 'Ex' 아이콘 폴더의 '31연속_수달의 길이.csv' 와 같다. 이 자료를 이용하여 점그래프, 줄기와 잎 그림, 히스토그램을 그려라.

[실습예제 3.1.3] 핫도그 재료(1:소고기, 2:돼지고기, 3:닭고기)에 따른 열량을 조사한 자료가 'Ex' 아이콘 폴더의 '33연속_핫도그영양평가.csv' 와 같다. 이 자료를 이용하여 점그래프, 줄기와 잎 그림, 히스토그램을 그려라.

3.2 산점도

[예제 3.2] 한 5학년 학급 학생 10명의 성별, 신장, 체중을 조사한 자료가 다음과 같다.

번호

성별

신장

체중

1

1

150

45

2

2

147

47

3

1

145

44

4

2

151

50

5

1

149

48

6

2

148

47

7

1

155

51

8

2

156

50

9

1

161

55

10

2

159

56

   'Ex' 아이콘 폴더의 '40연속_성별신장체중.csv'

1) 신장과 체중의 산점도를 그려라. 회귀선을 표시하라.
2) 성별에 따른 신장과 체중의 산점도를 그리고 회귀선을 표시하라.

(풀이)
1) (신장과 체중의 산점도)
   - 이 자료는 'Ex' 아이콘 폴더의 '40연속_성별신장체중.csv' 로 저장되어 있어 불러오기로 시스템에 가져올 수 있음
   - 시트창에서 '신장'과 '체중'을 클릭한다.
   - 선택한 변량번호가 '선택변량' 창에 나타난다.
   - 화면 상단의 아이콘창에서 산점도를 선택하면 다음과 같은 그래프가 나타난다.
   신장 : 체중의 산점도체중신장1441461481501521541561581601621441461481501521541561581601624446485052545644464850525456(150,45)(147,47)(145,44)(151,50)(149,48)(148,47)(155,51)(156,50)(161,55)(159,56)y = (-53.92)+(0.68)xr = 0.92 r² = 0.85

   - 그래프 밑의 선택창에서 회귀선을 체크하면 회귀선이 표시된다.

2) (성별에 따른 신장과 체중의 산점도)
   - 변량선택을 취소한후 '성별', '신장', '체중' 변량을 선택한 후 산점도 아이콘을 누르면 다음과 같은 산점도가 나타난다. 선택창에서 회귀선을 체크하였다

   (그룹 성별) 신장, 체중의 산점도체중신장1441461481501521541561581601621441461481501521541561581601624446485052545644464850525456(150,45)(147,47)(145,44)(151,50)(149,48)(148,47)(155,51)(156,50)(161,55)(159,56)그룹1그룹2y = (-57.40)+(0.70)xr = 0.95 r² = 0.91y = (-48.33)+(0.65)xr = 0.91 r² = 0.83


[실습예제 3.2.1] 한 여론조사에서 표본추출된 40명의 성별, 나이, 월수입 자료가 'Ex' 아이콘 폴더의 '41연속_나이월수입조사.csv' 와 같다. 이 자료를 이용하여 나이와 월수입의 산점도를 그려라. 성별로 구분된 나이와 월수입의 산점도를 그려라.



4. 확률분포함수

4.1 이항분포

    - 이항분포(Binomial Distribution)는 한 통계적 실험이 '성공'과 '실패' 두가지 결과만 있고
   '성공'의 확률이 p일 때, 실험을 n번 반복하여 관찰되는 '성공의 횟수' 에 대한 분포,

   P(X = x) = nCx px (1-p) n-x , x=0,1, ... , n

   예: 동전을 2번 던졌을 때 겉이 나오는 횟수 0, 1, 2 의 확률분포.

   References:   Wikipedia   Wolfram   StatTrek  

[예제 4.1]
1) 동전을 2개 던져 나타나는 겉면의 개수의 분포를 시뮬레이션 하라.
2) n = 10, p = 0.5인 이항분포함수를 구하라.

(풀이)
1) (이항분포 실험)
   - eStatU 메뉴에서 'Binomial Experiment' 를 누르면 기본으로 설정된 n=2, p=0.5에 대한 실험이 나타난다.

   Binomial Dist n = 2, p = 0.50Mean = 1.00, Std Dev = 0.71012010101012repetition=100

   - 그래프 밑의 선택창에서 n 과 p를 선택한 후 'Execute' 버튼을 누르면 새로운 이항분포 실험을 할 수 있다.

2) (이항분포 함수)
- eStatU 메뉴에서 'Binomial Distribution' 을 누른 후 n=10, p=0.5를 선택한후 'Execute' 버튼을 누르면 이항분포 그래프가 나타난다.

   Binomial Dist n = 10, p = 0.50Mean = 5.00, Std Dev = 1.580.350.300.250.200.150.100.050.00012345678910

   - 그래프 밑의 선택창에서 'show probablility'를 체크하면 각 막대에 확률이 표시된다.
   - 정규분포 근사를 보려면 'Normal approx' 를 체크한다.
   - 주어진 n, p에 대해 이항분포표를 보려면 'Binomial Prob Table' 버튼을 클릭한다.

[실습예제 4.1.1]
1) 동전을 7개 던졌을 때 겉면의 횟수의 대한 시뮬레이션을 하라.
2) 위의 실험의 분포함수 그래프를 그리고 분포표를 작성하라.

4.2 포아송분포

    - 포아송분포(Poisson Distribution)는 단위시간당 발생하는 사건의 횟수에 대한 분포이다.
   평균 발생하는 횟수를 m이라 하였을때,

   P(X=x) = e-m m x / x ! , x=0,1,2, ...

   예: 어느 교차로에서 발생하는 1일 교통사고의 수를 1년동안 조사한다

   References:   Wikipedia   Wolfram   StatTrek  

[예제 4.2] m = 1.0인 포아송분포의 그래프를 그려라. 이때의 포아송분포표를 표시하라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'Poisson Distribution'을 선택하면 기본으로 m = 1 인 포아송분포가 나타난다.
   0.450.400.350.300.250.200.150.100.050.0001234567891011121314151617181920Poisson Distribution m = 1.0Mean = 1.00, Std Dev = 1.00

   - 그래프 밑의 선택창에서 m을 변화하며 분포함수 그래프를 비교할 수 있다.
   - 그래프 밑의 선택창에서 'show probability'를 체크하면 확률이 표시된다.
   - 그래프 밑의 선택창에서 'Poisson Prob Table'을 선택하면 확률분포표가 표시된다.

[실습예제 4.2.1] m = 0.5 일 경우의 포아송분포 그래프를 그려라. 이때의 포아송분포표를 표시하라.

4.3 기하분포

    - 기하분포(Geometrin Distribution)는 한 통계적 실험이 '성공'과 '실패' 두가지 결과만 있고 '성공'의 확률이 p일 때,
   처음 '성공'이 관찰되는 실험 횟수 에 대한 분포.

   P(X = x) = (1-p)x-1 p, x=1,2,3, ...

   예: 동전을 반복해서 던졌을 때 겉이 나타날때까지 실험 횟수.

   References:   Wikipedia   Wolfram   StatTrek  

[예제 4.3] 동전을 반복해서 던졌을 때 겉이 나타날때까지 실험 횟수에 대한 분포함수를 그려라. 분포표를 만들어라

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'Geometric Distribution'를 선택하면 p=0.5일 경우의 기하분포가 나타난다.
   0.80.70.60.50.40.30.20.10.001234567891011121314151617181920Geometric Dist p = 0.5Mean = 2.00, Std Dev = 1.41

   - 그래프 밑의 선택창에서 p를 변화하며 분포함수 그래프를 비교할 수 있다.
   - 그래프 밑의 선택창에서 'show probability'를 체크하면 확률이 표시된다.
   - 그래프 밑의 선택창에서 'Geometric Prob Table'을 선택하면 확률분포표가 표시된다.

[실습예제 4.3.1] p = 0.3 일 경우의 기하분포 그래프를 그려라. 이때의 기하분포표를 표시하라.

4.4 초기하분포

    - 초기하분포(Hypergeometric Distribution)는 한 통계적 실험이 '성공'과 '실패' 두가지 결과만 있을 때
   크기가 N인 모집단에서 '성공'이 D개 있을 때 이 중에서 n번 추출하여 관찰되는 '성공의 횟수' 에 대한 분포

   P(X=x) = DCx N-DCn-x / N C n

   예: 30개의 제품상자에 불량품이 5개 있을 경우 표본을 10개 추출했을 때 포함되는 불량품의 수의 확률분포.

   References:   Wikipedia   Wolfram   StatTrek  

[예제 4.4] 30개의 제품상자에 불량품이 5개 있을 경우 표본을 10개 추출했을 때 포함되는 불량품의 수의 확률분포 그래프를 그려라. 분포표를 만들어라

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'HyperGeometric Distribution'를 선택하면 N=30, D=5, n=10일 경우의 초기하분포가 나타난다.
   HyperGeometric Dist N = 30, D = 5, n = 10Mean = 1.67, Std Dev = 1.180.70.60.50.40.30.20.10.0012345678910

   - 그래프 밑의 선택창에서 n을 변화하며 분포함수 그래프를 비교할 수 있다.
   - 그래프 밑의 선택창에서 'show probability'를 체크하면 확률이 표시된다.
   - 그래프 밑의 선택창에서 'HyperGeometric Prob Table'을 선택하면 확률분포표가 표시된다.

[실습예제 4.4.1] 20개의 제품상자에 불량품이 5개 있을 경우 표본을 7개 추출했을 때 포함되는 불량품의 수의 확률분포 그래프를 그려라. 분포표를 만들어라

4.5 지수분포

    - 지수분포(Expontial Distribution)는 사건이 연속적으로 발생할 때 한 사건과 다음 사건 사이의 시간을 묘사하는 사용되는 분포이다.
   포아송 과정에서 사건사이의 시간은 지수분포이다. 단위시간당 평균 사건발생수를 λ라 할때,

   f(x) = λ e -λ x , x > 0

   References:   Wikipedia   Wolfram   r-tutor  

[예제 4.5] λ = 1 인 지수분포를 그리고 P(1 < X < 4)를 구하라. 95% 백분위수를 구하라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'Exponential Distribution'를 선택하면 λ = 1 인 지수분포가 나타난다.
   0.00.51.01.52.02.53.03.54.04.55.03.53.02.52.01.51.00.50.01.004.000.3496

   - 그래프 밑의 선택창에서 슬라이드바를 이동하든가 값을 넣으면 다양한 확률 계산을 할 수 있다.

[실습예제 4.5.1] λ = 0.5인 지수분포를 그리고 가운데 확률이 95%가 되는 양쪽 점을 찾아라.

4.6 정규분포

    - 정규분포(Normal Distribution)는 우리 주변에서 관측되는 연속형 자료에서 제일 많이 보이는 형태로서
   자료들이 평균 근처에 많이 모여 있고, 평균에서 멀어질수록 자료들의 수가 적으며, 평균을 중심으로 좌우로 대칭이다.,
   평균이 μ이고 분산이 σ2인 이 자료들을 묘사하는데는 다음과 같은 함수가 이용된다.

   f(x) = (1 / √(2π σ2) ) exp ( - (x - μ)2 / (2 σ2) ) , -∞ < x < ∞

   예: 신장, 체중 등

   References:   Wikipedia   Wolfram   StatTrek   KhanAcademy   r-tutorial  

[예제 4.6] μ = 0, σ = 1 인 정규분포를 그리고 P(-1 < X < 1)을 구하라. 95% 백분위수를 구하라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'Normal Distribution'를 선택하면 μ = 0, σ = 1 인 정규분포가 나타난다.
   -4-3-2-1012340.450.400.350.300.250.200.150.100.050.00-1.001.000.6827

   - 그래프 밑의 선택창에서 슬라이드바를 이동하든가 값을 넣으면 다양한 확률 계산을 할 수 있다.

[실습예제 4.6.1] μ = 70, σ = 10 인 정규분포를 그리고 P(50 < X < 90)을 구하라. 95% 백분위수를 구하라.

4.7 t 분포

    - t 분포는 모집단이 정규분포이고 모평균이 μ 일 때 표본평균을 m, 표본분산을 s 라하면

   검정통계량 (m - μ) / (s / √n)

   는 자유도 n-1인 t 분포를 따른다. t 분포는 모평균의 추정 및 가설검정에 이용된다.

   References:   Wikipedia   Wolfram   StatTrek   r-tutorial  

[예제 4.7] 자유도 df = 10 인 t 분포를 그리고 P(-1 < X < 1)를 구하라. 95% 백분위수를 구하라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 't Distribution'를 선택하면 df = 10 인 t 분포가 나타난다.
   -5-4-3-2-10123450.450.400.350.300.250.200.150.100.050.00-1.001.000.6591

   - 그래프 위의 선택창에서 'show N(0,1)'을 체크하면 정규분포가 그려져서 t 분포와 비교할 수 있다.
   - 그래프 밑의 선택창에서 슬라이드바를 이동하든가 값을 넣으면 다양한 확률 계산을 할 수 있다.

[실습예제 4.7.1] 자유도 df = 5 인 t 분포를 그리고 표준정규분포 N(0,1)와 비교하라. P(-1 < X < 1)를 구하라. 95% 백분위수를 구하라.

4.8 χ2분포

    - χ2분포는 모집단이 정규분포이고 모분산이 σ2일 때, 표본분산의 상수곱, 즉

   (n-1) s22

   이 자유도 n-1인 χ2분포를 따른다. χ2분포는 모분산의 추정 및 가설검정에 이용된다.

   References:   Wikipedia   Wolfram   StatTrek   r-tutorial  

[예제 4.8]자유도 df = 10 인 χ2분포를 그리고 P(5 < X < 20)를 구하라. 95% 백분위수를 구하라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'ChiSquare Distribution'를 선택하면 자유도 df = 10 인 χ2분포가 나타난다.
   0246810121416182022242628300.240.220.200.180.160.140.120.100.080.060.040.020.005.0020.000.8619

   - 그래프 밑의 선택창에서 슬라이드바를 이동하든가 값을 넣으면 다양한 확률 계산을 할 수 있다.

[실습예제 4.8.1] 자유도 df = 5 인 χ2분포를 그리고 P(5 < X < 20)를 구하라. 95% 백분위수를 구하라.

4.9 F 분포

    - F 분포는 분산이 σ12, σ22 인 두 모집단에서 각각 n1, n2개의 표본를 추출하였을 때 표본분산이 s12, s22 이라면

   ( s12 / σ12 ) / ( s22 / σ22 )

  은 자유도가 n1-1, n2-1 인 F 분포를 따른다.

   References:   Wikipedia   Wolfram   StatTrek   r-tutorial  

[예제 4.9] 분자자유도 df1 = 5, 분모자유도 df2 = 10 인 F 분포를 그리고 P(0.5 < X < 3)을 구하라. 95% 백분위수를 구하라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'F Distribution'를 선택하면분자자유도 df1 = 5, 분모자유도 df2 = 10 인 F 분포가 나타난다.
   0123456789101.41.21.00.80.60.40.20.00.503.000.7045

   - 그래프 밑의 선택창에서 슬라이드바를 이동하든가 값을 넣으면 다양한 확률 계산을 할 수 있다.

[실습예제 4.9.1] 분자자유도 df1 =35, 분모자유도 df2 = 5 인 F 분포를 그리고 P(0.5 < X < 3)을 구하라. 95% 백분위수를 구하라.



5. 모집단과 표본

    - 모집단과 표본(Population and Sample)은 모집단의 통계량 특성과 5%, 10%, 20% 추출된 표본의 통계량 특성을 비교한다.
   표본을 여러 번 추출하였을 때 어떠한 변화가 있는지 관찰한다.

    - 대수의 법칙(Law of Large number)은 동전을 n번 던졌을 때 겉이 나오는 확률을 계산하여 n이 커지면 0.5에 수렴함을 보여준다.

    - 중심극한정리(Central Limit Theorem)는 여러 가지 모집단 형태에서 세 가지 표본크기에 대한 표본평균의 분포를 비교한다.
   표본평균의 분포(중심극한 정리)의 이해를 위한 시뮬레이션이다.

    - 신뢰구간(Confidence Interval)은 95% 신뢰구간’에서 95%라는 것이 여러 번의 표본추출에 근거하는 것을 시뮬레이션을 통해 보여준다.

5.1 모집단과 표본

[예제 5.1] 모집단을 N(0,1)으로 선택하고 표본추출 5%, 10%, 20% 하여보라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'Population vs Sample'을 선택하면 N(0,1) 분포가 나타난다.
  - 선택사항에서 'Sampling 5%' 'Sampling 10%' 'Sampling 20%'를 클릭하며 모수의 변화를 관찰한다.
  - 'statistics/boxPlot'을 선택하면 모집단과 표본의 통계량과 상자그림이 나타난다.

   N(0,1) Population (N=1000)-4-3-2-10123420% Sample Dist (n=202)mean=0.00std dev 0.98min=-3.20max=3.10Q1=-0.66Q3=0.68Med=-0.01mean=-0.04std dev 0.95min=-2.50max=2.60Q1=-0.70Q3=0.60Med=0.00

   - 다른 모집단을 선택해 같은 방법으로 통계량의 변화를 관찰한다.

[실습예제 5.1.1] 모집단을 지수분포(0.3)과 균등분포를 이용하여 표본추출하여 비교하라.

5.2 대수의 법칙

[예제 5.2] n = 1000으로 하여 대수의 법칙을 실험하여 보라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'Law of Large Number'를 선택하면 동전을 1000번 던졌을때 겉이 나오는 확률이 0.5에 수렴함을 보여준다.

   1.00.50.001002003004005006007008009001000P(Coin Head) = Number of Heads = Number of TrialsHeadTailLaw of Large Numbers5071000 = 0.51


[실습예제 5.2.1] n = 10000으로 하여 대수의 법칙을 실험하여 보라.

5.3 중심극한정리

[예제 5.3] N(0,1) 모집단에서 표본의 크기가 5, 10, 20인 표본을 각 100회씩 추출하여 표본평균들의 평균에 대한 히스토그램을 그려 비교하여 보라.

(풀이)
  - eStatU 아이콘을 클릭하여 나타나는 메뉴에서 'Dist. of Sample Means'를 선택하면 N(0,10 모집단이 나타난다.
  - 선택사항에서 n1=5, n2=10, n3=20을 입력한후 'Execute' 버튼을 누르면 세 표본평균의 분포가 나타난다.
  - 표본의 크기가 커질수록 표본평균들의 분포가 모평균 근처에 밀집되는 것을 관찰할 수 있다.

   N(0,1) Population (N=1000)-4-3-2-101234