SlideShare a Scribd company logo
1 of 14
단순선형회귀분석예제
• 다음은 책의 페이지 수와 가격의 자료이다.
     Pages     Prices     Pages     Prices
         637         27       496         20
        336         15       673         25
        336         14       562         24
        430         15       229         10
        164         9.5      316         13
        533         20       217          8
        529         22       296         12
        509         20        115         7
        419         16       257         11
        596         24       649         22
자료 가져오기
> bnp <- read.csv("bookNprice.csv", header=T)
> bnp
  Pages Prices
1 637 27.0
2 336 15.0
3 336 14.0
…
18 115 7.0
19 257 11.0
20 649 22.0
> attach(bnp)
Plot
> plot(Pages, Prices)
회귀계수의 추정 - 최소제곱법
   > lms <- lm(Prices ~ Pages)
   > lms

   Call:
   lm(formula = Prices ~ Pages)

   Coefficients:
   (Intercept)    Pages
      2.19108    0.03503

    절편                 기울기
     ß0                 ß1
회귀계수로부터의 회귀직선
> plot(Pages, Prices)
> abline(lms$coef)
회귀의 적합도
회귀의 분산분석
                                 회귀(모형)

> summary(aov(lms))
      Df            Sum Sq Mean Sq     F value    Pr(>F)
Pages     1   681.78 681.78      332.09 4.769e-13 ***
Residuals 18         36.95  2.05
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘



                 오차
회귀분석에서의 추론
> summary(lms)

Call:
lm(formula = Prices ~ Pages)

Residuals:
   Min    1Q Median     3Q Max
-2.9228 -0.7875 -0.1059 0.9603 2.4975
                                                          절편
Coefficients:                                              ß0
        Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.191079 0.859491 2.549 0.0201 *
Pages       0.035026 0.001922 18.223 4.77e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’                기울기
           0.05 ‘.’ 0.1 ‘ ’ 1                              ß1

Residual standard error: 1.433 on 18 degrees of freedom
Multiple R-squared: 0.9486, Adjusted R-squared: 0.9457
F-statistic: 332.1 on 1 and 18 DF, p-value: 4.769e-13
잔차 분석
• 적합값 : fitted
> fitted(lms)
       1      2   3    4     5     6     7
24.502460 13.959720 13.959720 17.252137 7.935296 20.859786 20.719683
       8      9  10    11    12     13     14
20.019169 16.866854 23.066406 19.563834 25.763386 21.875532 10.211968
      15      16   17    18    19    20
13.259205 9.791659 12.558691 6.219036 11.192688 24.922769


• 잔차 : resid
> resid(lms)
       1     2       3       4     5       6
 2.49753964 1.04028032 0.04028032 -2.25213703 1.56470357 -0.85978584
       7     8       9      10     11      12
 1.28031703 -0.01916864 -0.86685415 0.93359402 0.43616567 -0.76338616
      13     14       15      16     17      18
 2.12446838 -0.21196800 -0.25920535 -1.79165941 -0.55869101 0.78096368
      19     20
-0.19268807 -2.92276896
> plot(fitted(lms), resid(lms))




0 주변으로 몰려있
   어야 한다.
> qqnorm(resid(lms), ylim=c(-3, 3), xlim=c(-3, 3))




대각선 주변으로 몰
 려있어야 한다.

More Related Content

Viewers also liked

통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 RYoonwhan Lee
 
13.상관과 회귀
13.상관과 회귀13.상관과 회귀
13.상관과 회귀Yoonwhan Lee
 
R 기초 : R Basics
R 기초 : R BasicsR 기초 : R Basics
R 기초 : R BasicsYoonwhan Lee
 
영화회귀분석
영화회귀분석영화회귀분석
영화회귀분석상우 염
 
09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정Yoonwhan Lee
 
12.세표본 이상의 평균비교
12.세표본 이상의 평균비교12.세표본 이상의 평균비교
12.세표본 이상의 평균비교Yoonwhan Lee
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교Yoonwhan Lee
 
R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기Yoonwhan Lee
 
R을 이용한 게임 데이터 분석
R을 이용한 게임 데이터 분석R을 이용한 게임 데이터 분석
R을 이용한 게임 데이터 분석Eun-Jo Lee
 
11_통계 자료분석 입문
11_통계 자료분석 입문11_통계 자료분석 입문
11_통계 자료분석 입문noerror
 
R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기Yoonwhan Lee
 
Code로 이해하는 RNN
Code로 이해하는 RNNCode로 이해하는 RNN
Code로 이해하는 RNNSANG WON PARK
 
보고서 작성의 기술 With 파워포인트
보고서 작성의 기술 With 파워포인트보고서 작성의 기술 With 파워포인트
보고서 작성의 기술 With 파워포인트장표 홍
 
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개Terry Cho
 
[피키캐스트] 5학년선배 ppt 템플릿 레이아웃
[피키캐스트] 5학년선배 ppt 템플릿 레이아웃[피키캐스트] 5학년선배 ppt 템플릿 레이아웃
[피키캐스트] 5학년선배 ppt 템플릿 레이아웃o_senior
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 

Viewers also liked (20)

통계자료 분석을 위한 R
통계자료 분석을 위한 R통계자료 분석을 위한 R
통계자료 분석을 위한 R
 
13.상관과 회귀
13.상관과 회귀13.상관과 회귀
13.상관과 회귀
 
R 기초 Part. 01
R 기초 Part. 01R 기초 Part. 01
R 기초 Part. 01
 
R 기초 : R Basics
R 기초 : R BasicsR 기초 : R Basics
R 기초 : R Basics
 
영화회귀분석
영화회귀분석영화회귀분석
영화회귀분석
 
09.통계적가설검정
09.통계적가설검정09.통계적가설검정
09.통계적가설검정
 
12.세표본 이상의 평균비교
12.세표본 이상의 평균비교12.세표본 이상의 평균비교
12.세표본 이상의 평균비교
 
11.두표본의 평균비교
11.두표본의 평균비교11.두표본의 평균비교
11.두표본의 평균비교
 
R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기R과 기초통계 : 02.기술통계-자료나타내기
R과 기초통계 : 02.기술통계-자료나타내기
 
R을 이용한 게임 데이터 분석
R을 이용한 게임 데이터 분석R을 이용한 게임 데이터 분석
R을 이용한 게임 데이터 분석
 
11_통계 자료분석 입문
11_통계 자료분석 입문11_통계 자료분석 입문
11_통계 자료분석 입문
 
05.확률
05.확률05.확률
05.확률
 
빅데이터
빅데이터빅데이터
빅데이터
 
R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기R과 기초통계 : 01.자료다루기
R과 기초통계 : 01.자료다루기
 
Code로 이해하는 RNN
Code로 이해하는 RNNCode로 이해하는 RNN
Code로 이해하는 RNN
 
보고서 작성의 기술 With 파워포인트
보고서 작성의 기술 With 파워포인트보고서 작성의 기술 With 파워포인트
보고서 작성의 기술 With 파워포인트
 
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
머신 러닝 입문 #1-머신러닝 소개와 kNN 소개
 
[피키캐스트] 5학년선배 ppt 템플릿 레이아웃
[피키캐스트] 5학년선배 ppt 템플릿 레이아웃[피키캐스트] 5학년선배 ppt 템플릿 레이아웃
[피키캐스트] 5학년선배 ppt 템플릿 레이아웃
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 

More from Yoonwhan Lee

03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도Yoonwhan Lee
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기Yoonwhan Lee
 
10.단일표본 평균 모비율
10.단일표본 평균 모비율10.단일표본 평균 모비율
10.단일표본 평균 모비율Yoonwhan Lee
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문Yoonwhan Lee
 
14.범주형자료분석
14.범주형자료분석14.범주형자료분석
14.범주형자료분석Yoonwhan Lee
 
Smart work 자료 1
Smart work 자료 1Smart work 자료 1
Smart work 자료 1Yoonwhan Lee
 
통계자료분석을 ㅇ
통계자료분석을 ㅇ통계자료분석을 ㅇ
통계자료분석을 ㅇYoonwhan Lee
 
PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기Yoonwhan Lee
 
쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정Yoonwhan Lee
 
에버노트와 드롭박스 설치
에버노트와 드롭박스 설치에버노트와 드롭박스 설치
에버노트와 드롭박스 설치Yoonwhan Lee
 
PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지Yoonwhan Lee
 
표본들의 분포
표본들의 분포표본들의 분포
표본들의 분포Yoonwhan Lee
 

More from Yoonwhan Lee (20)

03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도03.기술통계 자료의 중심과 퍼진정도
03.기술통계 자료의 중심과 퍼진정도
 
02.자료다루기
02.자료다루기02.자료다루기
02.자료다루기
 
01.r 기초
01.r 기초01.r 기초
01.r 기초
 
10.단일표본 평균 모비율
10.단일표본 평균 모비율10.단일표본 평균 모비율
10.단일표본 평균 모비율
 
08.추정
08.추정08.추정
08.추정
 
07.표본분포
07.표본분포07.표본분포
07.표본분포
 
06.확률분포
06.확률분포06.확률분포
06.확률분포
 
00.통계학입문
00.통계학입문00.통계학입문
00.통계학입문
 
14.범주형자료분석
14.범주형자료분석14.범주형자료분석
14.범주형자료분석
 
Smart work 자료 1
Smart work 자료 1Smart work 자료 1
Smart work 자료 1
 
통계자료분석을 ㅇ
통계자료분석을 ㅇ통계자료분석을 ㅇ
통계자료분석을 ㅇ
 
PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기PHP를 이용한 간단한 방명록 만들기
PHP를 이용한 간단한 방명록 만들기
 
Class10
Class10Class10
Class10
 
MySQL과 PHP
MySQL과 PHPMySQL과 PHP
MySQL과 PHP
 
MySQL 기초
MySQL 기초MySQL 기초
MySQL 기초
 
추정
추정추정
추정
 
쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정쿠키를 통해 구현해보는 간단한 로그인 과정
쿠키를 통해 구현해보는 간단한 로그인 과정
 
에버노트와 드롭박스 설치
에버노트와 드롭박스 설치에버노트와 드롭박스 설치
에버노트와 드롭박스 설치
 
PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지PHP에서 객체와 데이터 연결 유지
PHP에서 객체와 데이터 연결 유지
 
표본들의 분포
표본들의 분포표본들의 분포
표본들의 분포
 

단순선형회귀분석예제

  • 2. • 다음은 책의 페이지 수와 가격의 자료이다. Pages Prices Pages Prices 637 27 496 20 336 15 673 25 336 14 562 24 430 15 229 10 164 9.5 316 13 533 20 217 8 529 22 296 12 509 20 115 7 419 16 257 11 596 24 649 22
  • 3. 자료 가져오기 > bnp <- read.csv("bookNprice.csv", header=T) > bnp Pages Prices 1 637 27.0 2 336 15.0 3 336 14.0 … 18 115 7.0 19 257 11.0 20 649 22.0 > attach(bnp)
  • 5. 회귀계수의 추정 - 최소제곱법 > lms <- lm(Prices ~ Pages) > lms Call: lm(formula = Prices ~ Pages) Coefficients: (Intercept) Pages 2.19108 0.03503 절편 기울기 ß0 ß1
  • 8. 회귀의 분산분석 회귀(모형) > summary(aov(lms)) Df Sum Sq Mean Sq F value Pr(>F) Pages 1 681.78 681.78 332.09 4.769e-13 *** Residuals 18 36.95 2.05 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ 오차
  • 10. > summary(lms) Call: lm(formula = Prices ~ Pages) Residuals: Min 1Q Median 3Q Max -2.9228 -0.7875 -0.1059 0.9603 2.4975 절편 Coefficients: ß0 Estimate Std. Error t value Pr(>|t|) (Intercept) 2.191079 0.859491 2.549 0.0201 * Pages 0.035026 0.001922 18.223 4.77e-13 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 기울기 0.05 ‘.’ 0.1 ‘ ’ 1 ß1 Residual standard error: 1.433 on 18 degrees of freedom Multiple R-squared: 0.9486, Adjusted R-squared: 0.9457 F-statistic: 332.1 on 1 and 18 DF, p-value: 4.769e-13
  • 12. • 적합값 : fitted > fitted(lms) 1 2 3 4 5 6 7 24.502460 13.959720 13.959720 17.252137 7.935296 20.859786 20.719683 8 9 10 11 12 13 14 20.019169 16.866854 23.066406 19.563834 25.763386 21.875532 10.211968 15 16 17 18 19 20 13.259205 9.791659 12.558691 6.219036 11.192688 24.922769 • 잔차 : resid > resid(lms) 1 2 3 4 5 6 2.49753964 1.04028032 0.04028032 -2.25213703 1.56470357 -0.85978584 7 8 9 10 11 12 1.28031703 -0.01916864 -0.86685415 0.93359402 0.43616567 -0.76338616 13 14 15 16 17 18 2.12446838 -0.21196800 -0.25920535 -1.79165941 -0.55869101 0.78096368 19 20 -0.19268807 -2.92276896
  • 13. > plot(fitted(lms), resid(lms)) 0 주변으로 몰려있 어야 한다.
  • 14. > qqnorm(resid(lms), ylim=c(-3, 3), xlim=c(-3, 3)) 대각선 주변으로 몰 려있어야 한다.