BAB V ANALISIS REGRESI SEDERHANA

07.04 | Label: TUGAS

Pengantar Ekonometrika

BAB V

ANALISIS REGRESI SEDERHANA

Oleh:

RANA YUSPITA
1305102010044

PROGRAM STUDI AGRIBISNIS

FAKULTAS PERTANIAN

UNIVERSITAS SYIAH KUALA

DARUSSALAM, BANDA ACEH

2015

BAB V

ANALISIS REGRESI SEDERHANA

Pada umumnya, ilmu ekonomi mempelajari hubungan-hubungan diantara variabel ekonomi. Jika diungkapkan dalam bahasa matematika, hubungan-hubungan tersebut digunakan untuk memprediksikan pengaru satu variabel terhadap variabel lainnya. Misalnya, diasumsikan bahwa penghasilan, harga-harga barang lain dan semua faktor lain yang mempengaruhi permintaan dianggap konstan, maka jumlah barang yang diminta (q) dapat disajikan sebagai fungsi dari harga barang (p). Bentuk fungsinya adalah: q = f(p). Begitu juga fungsi-fungsi lain seperti: fungsi penawaran: S = f(p) ; fungsi biaya: C = f(Q); fungsi kepuasan : U = f(q = jumlah yang dikonsumsi); fungsi produksi: Q = f(x1,x2, = jumlah input yang berbeda-beda); dan banyak lagi fungsi lainnya.

5.1. Hubungan Stokastik ¹dan Nir-stokastik

Hubungan antara x dan y yang berbentuk y = f(x) dikatakan “deterministik” pasti atau “nir-stokastik”, jika setiap nilai variabel bebas (x) terdapat satu nilai variabel terikat (y). Suatu hubungan antara x dan y dikatakan “stokastik”, jikan suatu nilai x tertentu terdapat distribusi probabilitas menyeluruh dari nilai y.

Contoh:

Permintaan akan suatu barang tertentu, diasumsikan, tergantung pada harga bbarang itu saja (faktor penentu lainnya dianggap konstan, atau ceteris paribus), dan bentuk fungsinya adalah linier.

q = f(p) = α + βp

Dengan data p dan q tertentu misalnya diperoleh α = 25 dan β = -2, sehingga persamaan permintaan itu menjadi:

q = 25 – 2p

5.2. Model Regresi Linier Sederhana

Bentuk paling sederhana dari hubungan stokastik antara dua variabel x dan y disebut “ model regresi linier”

Y_i= α + βX_i+ U_i(i = 1 , ..., n)

Y disebut variabel terikan (dependent variable), X adalah variabel bebas (independent variabel) atau variabel penjelas (explanatory variable), U adalah variabel gangguan stokastik (stochastic disturbance), α dan β adalah parameter-parameter regresi.

Sifat stokastik dari model regresi mengandung arti bahwa setiap nilai x terdapat suatu distribusi probabilitas seluruh nilai y. Dengan kata lain, nilai y tidak dapat diprediksikan secar pasti. Ketidakpastian mengenai nilai y ini timbul, karena ada faktor stokastik u yang memberi sifat “random” pada y. Bagaimana penyisipan faktor u kedalam model dapat dibenarkan?

Dengan mengabaikan (untuk sementara) bahwa teori tersebut mungkin tidak benar, penyisipan faktor u tersebut adalah:

(a). Karena kesalahan dalam persamaan

(b). Karena kesalahan dalam pengukuran (kesalahan dalam variabel)

(c). Karena ketidaksempurnaan spesifikasi bentuk matematis model

(d). Karena agregasi

Asumsi-asumsi Model Regresi Linier:

Asumsi 1. U_iadalah sebuah variabel random riil dan memiliki distribusi normal.

Asumsi 2. Nilai rerata dari U_isetiap periode tertentu adalah nol.

E[U_i] = 0 (i=1,....,n).

Asumsi 3. Varian dari u_ikonstan setiap periode.

E[U_i²] = ² adalah konstan)

Asumsi 4. Faktor gangguan dari pengamatan yang berbeda-beda (U_{i ,}U_j) tidak tergantung

(independent)

E[U_iU_j] = 0 (i ≠ j)

Asumsi ini dikenal sebagai “nir-otokorelasi”

Asumsi 5. Variabel-variabel penjelas atau bebas adala variabel nir-stokastik dan diukur tanpa

kesalahan: U_i tidak tergantung pada variabel penjelas.

E[UiUj]=0 Xi E[Uj]=0, untuk seluruh i,j=1,...., n

Keempat asumsi pertama berkaitan dengan distribusi U, sedangkan asumsi kelima berkaitan dengan variabel penjelas. Asumsi pertama dan kedua menyatakan bahwa nilai X, U adalah berdistribusi normal dengan rerata nol. Asumsi ketiga mengenai homoskedastisitas mengandung arti setiap distribusi U memiliki varian ²yang sama, nilainya konstan, dan tidak diketahui. Asumsi tersebut menyatakan bahwa untuk seluruh nilai X_i (baik yang rendah maupun yang tinggi), varian dari distribusi U_itetap sama. Jadi, asumsi 1 sampai 3 sepenuhnya merinci distribusi U. Asumsi keempat menunjukkan masing-masing pengamatan tidak saling tergantung (non-autoregressive). Selanjutnya, asumsi kelima yang berkaitan dengan variabel penjelas, menyatakan nilai-nilai X_idapat dikontrol, dapat dipredisiksikan, dan kovarian antara U dan X adalah nol (artinya variabel penjelas tidak saling tergantung pada faktor gangguan).

Pengaruh asumsi pertama sampai ketiga teradap distribusi probabilitas dari variabel terikat Y dirangkum berikut ini:

(a) Dalam persamaan Y_i = α + βX_i + U_i: Y_i merupakan fungsi dari U_i. Karena U_i diasumsikan berdistribusi normal maka Y_i berdistribusi normal.

(b) Yi = α + βX_i + U_i: Jadi: E[Y_i] = E[α + βX_i + U_i]

= α + βX_i {karena E[U_i] = 0}

Oleh karena itu merata dari Yi atau E[Yi] ditentukan oleh ( α + βXi ).

= E [ α + βX_i + U_i – (α + βX_i)]²

= E [U_i]²

= ²Karena E[Ui}2 = ²

Jadi varian Y_i = ²

5.3 Penaksiran parameter-parameter regresi

Yang dimaksud penaksiran α dan β dengan metode kuadrat terkecil (OLS=Ordinary Least Squares) atau kuadrat terkecil klasik (CLS= Classical Least Squares) adalah menemukan nilai-nilai taksiran dan β yang meminimumkan jumlah kuadrat residu: ∑e_i²

Dari garis regresi sampel Y = + Xi + e_i; diperoleh:

ei = Yi – ( + Xi)

Nilai-nilai α dan β yang meminimumkan jumlah kuadrat, diperoleh dengan menurunkan secara parsial (partial derivative) fungsi kuadrat residual, ∑e_i²dan menyamakan turunan ini dengan nol.

∑e_i²/ = -2 ∑(Y_i - - X_i) = 0

∑e_i²/ = -2 ∑X(Y_i - - X_i) = 0

Atau

∑Y_i = n + ∑X_i(5.1)

∑X_iY_i = ∑Y_i + X_i² (5.2)

Dari (5,1) diperoleh :

n = ∑Y_i + ∑X_i

= Y - X (5.3)

Subsitusikan nilai ke dalam (5.2):

∑X_iY_i = ( - ) ∑X_i + X_i²

∑X_iY_i = Y∑X_i – ∑X_i + X_i²

∑X_iY_i - Y∑X_i = (∑X_i² - X∑X_i)

= ∑X_iY_i- Y∑X_{i = n}∑X_iY_i- ∑Y_iX_i

X_i²- X∑X_i_n X_i²– (∑X_i)² (5.4)

(5.4) dapat juga ditulis dengan cara yang berbeda

pembilang (5.4) adalah :

n∑X_iY_i- ∑X_i∑Y_i= n∑X_iY_i- ∑Y_i∑X_i– (∑X_iY_i- ∑X_iY_i)

= n∑X_iY_i - ∑Y_i∑X_i- ∑X_i∑Y_i- ∑X_i∑Y_i

= n(∑X_iY_i- nX∑Y_i- nY∑X_i+ n²XY)

= n(∑(X_i– X) (Y_i– Y)

Penyebut dari (5.4) adala :

n X_i²- (∑X_i)²= n X_i²– 2(∑X_i)²+ (∑X_i)²

= n X_i²- 2∑X_i∑X_i+ (∑X_i)²

= n X_i²– 2nX∑X_i+ n²X²

= n(∑X_i²– 2X∑X_i+ n X²)

= n∑(X_i– X)²

Maka

= n∑(X_i – x) (Y_i-Y)

n∑(X_i – X)²

Sekarang dianggap (X_i – X) = x_i; dan (Y_i-Y) = y_i

Maka :

= ∑X_iy_i

∑X_i²

5.4 Sifat-sifat Penaksir Kuadrat Terkecil

(a) Linier (Linearity)

= ∑(X_i - ) (Y_i - )

∑(X_i - )²

= ∑Y_i(X_i - ) – ∑(X_i – )

∑(X_i -)²

(b) Unbiasedness

= ∑K_iY_i

= ∑K_i (α + βX_i + U_i)

= α∑K_i + β∑K_iX_i + ∑K_iU_i

(c) Varian Minimum dari dan

Sekarang arus dibuktikan dan memiliki varian sampel dibandingkan dengan penaksir-penaksir linier tidak blas lainnya. Untuk itu, pertama-tama akan dicari varian dan kemudian dibuktikan bahwa variannya minimum.

Var ( = E[( – β)²]

= E[(∑K_iU_i)²]

= E[K₁²U₁² + K₂²U₂² ... + K_n²U_n² + 2K₁K₂U₁U₂ + ... + 2K_n-1K_nU_n-1U_n]

= E[K₁²U₁² + K₂²U₂² ... + K_n²U_n²] + E[2k₁K₂U₁U₂ + ... + 2K_n-1K_nU_n-1U_n]

= E[∑(K_i²U_i²)] + 2E[∑K_iK_jU_iU_j] i≠ j

= ∑K_i²E[U_i²] + 2∑K_iK_jE[U_iU_j] = ∑K_i² {Karena E[U_iU_j] = 0)

Untuk membuktikan bahwa memiiliki varian minimum, perlu dibandingkan varian dengan varian beberapa penaksir β (Katakanlah β*) yang tidak bias.

Misalkan β* = ∑w_iY_i ; dimana konstanta w_i ≠ k_i, tetapi w_i = k_i + c_i

Sehingga:

β * = ∑w_i (α + βX_i + U_i)

= α∑w_i + β∑w_iX_i + ∑w_iU_i

Dan: E[β*] = α∑w_i + β∑wiX_i {karena E[U_i] = 0}

Karena β*, diasumsikan penaksir yang tidak bias, berarti pada persamaan di atas ∑_wi = o dan ∑w_iX_i = 1

Tetapi: ∑wi = ∑(k_i + c_i) = ∑k_i + ∑c_i

Karena ∑c_i = 0; ∑k_i = ∑w_i = 0

Maka:

∑w_iX_i =n∑(k_i + c_i)X_i = ∑k_iX_i + ∑c_iX_i

Karena ∑c_iX_i = o; ∑w_iX_i = 1; dan ∑k_iX_i = ∑k_ix_i = 1

Juga:

∑c_ix_i = ∑c_ix_i + ∑c_i = 0

Pentingnya Sifat BLU

(a) Linier. Sifat ini dibutuhkan untuk memudahkan peritungan dalam penaksiran

(b) Unbiasedness. Secara sendirian sifat ini tidak berguna.

(c) Best. Sifat varian terkecil secara sendirian tidak dibutuhkan, karena suatu taksiran memiliki varian nol, namun memiliki penyimpangan yang besar (enormous bias).

5.5 Penaksiran Maximum Likelihood

Ada dua al penting yang diamati dari hasil penurunan yaitu:

(a) Untuk membuktikan sifat BLU penaksir kuadrat terkecil, tidak semua asumsi klasik dipergunakan.

(b) Untuk membuktikan sifat-sifat BLU tidak perlu dibuat asumsi bentuk spesifik dari distribusi faktor-faktor gangguan.

Apabila asumsi distribusi normal variabel pengganggu, U_j,bersama-sama dengan asumsi lainnya digunakan untuk mendapatkan α* dan β*, timbul pertanyaan apakah α* dan β* sama dengan dan ? Selain itu adalah α* dan β* ini memiliki sifat-sifat BLU.

5.6 Distribusi Sampel Penaksir Kuadrat Terkecil

Karena penaksir-penaksir kuadrat terkecil merupakan kombinasi linier variabel-variabel normal Y_1,Y_2,Y_{3, ...,}Y_ntidak saling tergantung, maka dan juga berdistribusi normal, dengan sifat-sifat sebagai berikut:

(i) dan adalah penaksir-penaksir yang tidak bias, yaitu rerata masing-masing sama dengan nilai α dan β yang sebenarnya,

(ii) Varian dari setiap penaksir, diketahui.

Kedua sifat ini bisa dinyatakan dalam bentuk ringkas sebagai berikut:

~ N [α, σ² + )]

~ N [β, )]

Oleh karena varian parameter-parameter berhubungan langsung dengan varian-varian faktor-faktor gangguan, maka butir-butir berikut harus diperhatikan:

(a) Semakin besar nilai σ^2,maka semakin besar pula varian dan . Dengan kata lain, semakin lebar penyebaran (dispersi) faktor-faktor gangguan sekitar garis regresi populasi, maka semakin lebar pula penyebaran nilai-nilai taksiran parameter regresi.

(b) merupakan penyebut pada rumus varian kedua penaksir tersebut. Ini berarti, semakin lebar penyebaran nilai-nilai variabel bebas (yaitu semakin besar ), semakin kecil varian dan varian . Jika = 0 atau mendekati nol (yaitu bila X₁ = X₂= X₃= ... = X_n), maka kedua varian tersebut akan sangat besar.

5.7 Interval Keyakian dan Uji Hipotesis

Penyusunan interval keyakinan penting untuk memperoleh ketepatan dan . Untuk itu, semua informasi yang berhubungan dengan distribusi dan sudah dibahas. Dalam hal ini,

Z_β= dan Z_α= Dimana Z ~ N(0,1)

σ adalah varian dari faktor gangguan yang tak teramati dan yang tidak diketahui. Jika penaksir yang tidak bias dari σ²disubstitusikan ke dalam variabel normal standar Z, maka variabel yang dihasilkan adalah:

( ) ~ t dengan derajat bebas (n-2).

Dalam kasus

Z= , v² = =

Sehingga,

t= .

jadi, dengan mengubah bentuk variabel Z menjadi variabel t, varian faktor gangguan yang tidak diketahui (σ²⁾tidak muncul dalam rumus. Sehingga diperoleh formula untuk pengujian yang hanya tergantung pada pengamatan-pengamatan sampel dan nilai hipotesis dari α.

= t. σ*

Oleh karena itu, 95% interval keyakinan untuk α adalah:

t_0,025 σ*

Dengan cara yang sama, pengujian atas β yaitu:

Z= , dan v² =

Sehingga,

t= .

Jadi: = t

t_0,025

Yang memberikan 95% interval keyakinan untuk β.

Variabel t yang diperoleh pada kasus α dan β penting dalam uji hipotesis yang berkaitan dengan parameter regresi. Salah satu hipotesis yang menarik adalah hipotesis tentang tidak adanya hubungan antara variabel bebas X dan variabel terikat Y dalam model regresi Y = α + Βx. Dengan kata lain, garis regresi populasi berupa garis horizontal. Sehingga, hipotesis nol mengenai tidak adanya hubungan antara X dan Y adalah:

H₀ : β = 0

Dan hipotesis alternatifnya: H_a : β

5.8 Goodness Of Fit (R²)

Garis regresi adalah sebagai suatu keseluruhan dan diuji kebenaran letak taksirannya (goodness of fit).

Contoh:

Sebuh garis regresi sampel telah diperoleh dengan metode kuadrat terkecil. Gambar dibawah ini menunjukkan variasi (perubahan) Y_i dalam dua komponen, yaitu *yang bisa dijelaskan* dan *yang tidak bisa dijelaskan*.

Dalam uraian sebelumya diketahui:

Y_{i =}₊e_i

Rincian total variasi Y ini menunjukkan suatu derajat ketepatan (goodness of fit), dikenal sebagai “Koefisien Determinasi” dengan simbol R^2.

R²=

5.9 Pelaporan Hasil-hasil Analisis Regresi

Hasil-hasil regresi sebelumnya dilaporkan dalam bentuk yang konvensional. Sebenarnya tidak cukup bila hasil taksiran α dan β yang dilaporkan. Tetapi koefisien regresi bersama dengan kesalahan standar dan nilai R² harus dilaporkan. Persamaan hasil taksiran disajikan dengan menempatkan kesalahan standar, dalam kurung dibawah masing-masing nilai taksiran parameter. Kemudian melengkapinya dengan pencantuman nilai R² disebelah kanan persamaan regresi tersebut.

Contoh : Y_i= 92,25 + 5,54 X_i R² = 0,934

(4,39) (0,347)

5.10. Aplikasi (Penerapan)

Contoh:

Tentukan hasil-hasil regresi dari data 20 pasang pengamatan atas X (variabel bebas) dan Y (variabel terikat) berikut ini:

ΣX_i = 228, ΣY_i= 3121, ΣX_iY_i= 38927, ΣX_i² = 3204,

Σx_iy_i= 3347,60, Σx_i² = 604,80, Σy_i = 19387.

Jawaban:

(i) Penaksiran dan

ΣX_i = 228; n = 20; sehingga = 11,4

ΣY_i= 3121; n = 20; sehingga = 156,05

(ii) Penaksiran Varian

Var ( = dan Var ( =

Oleh karena σ² tidak diketahui, maka dapat disubstitusikan σ^*2penaksir yang tidak bias bagi varian faktor gangguan.

Var ( = 70,82 [ = 19,25 SE = 4,38

Var ( = = 0,117 SE( = 0,34

(iii) Penetapan Interval Keyakinan

Misalnya, ingin ditetapkan suatu interval keyakinan untuk α dan β pada tingkat probabilitas p = 0,95. Dengan kata lain, ingin diperoleh nilai t yang membatasi 0,025 area dikedua sisi distribusi. Dengan derajat bebas = 18, maka lihatlah baris ke-18 dan kolom dengan tanda “0,025” pada tabel-t. nilai pada koordinat adalah 2,101.

Oleh karena itu, 95% interval keyakinan untuk α dan β adalah:

92,95 (2,101) (4,38) α 92,95 + (2,101) (4,38)

83,75 α 102,15

Dan: 5,54 (2,101) (0,34) β 5,54 + (2,101) (0,34)

4,38 β 6,25

(iv) Pengujian Hipotesis

Diketahui H₀ : β = 0

dan H_a : β

Diatas telah ditentukan daerah penerimaan pada tingkat signifikansi 5% sebagai: