Contoh Regresi linear berganda (Multi Linear Regression - MLR)
Y = β0+ β1X1 + … + βnXn
+ e
Metode MLR digunakan pada data numeric yang menyebar normal pada data
dependen.
Metode ini masih bisa digunakan pada data independent yang memiliki
kategori data kategorik,
Karna akan digunakan sebagai dummy variable.
Dalam beberapa penelitian sering juga ditemukan peubah respon yang bersifat kualitatif termasuk data biner.
Y atau variable independen hanya memiliki dua (2) nilai, maka metode
MLR tidak dapat dilakukan.
Generalized Linear Model (GLM) merupakan suatu alternatif untuk memecahkan masalah ini.
GLM mempunyai fungsi penghubung, diantaranya logit dan probit yang dapat digunakan untuk melakukan analisis data kualitatif.
Metode ini, dengan mentransformasi data dengan logaritma natural,
membuat data dapat diolah.
Ilustrasi
Ditransformasi
dengan logaritma, sehingga menjadi
Logit Y = β0+ β1X1 + … + βnXn + e
Uji-uji
pada regresi logistik
1.Uji
G (sama seperti uji F – mengetahui apakah model dapat menjelaskan keragaman
data independen)
2.Statistik
uji Wald (sama seperti uji t)
Contoh
interpretasi
Logit
Y = 0.5 + 0.81 IPK – 0.3 JK + 0.5 X3 + e
Dimana
Y =
Kemungkinan sarjana berhasil dalam hidupnya
IPK
= besar IPK mahasiswa tersebut
JK = Jenis kelamin mahasiswa tersebut, 0 untuk pria ; 1 untuk wanita
X3 = jumlah jam yang mahasiswa habiskan dalam satu minggu untuk belajar.
Interpretasi
Odds Ratio
1.Untuk IPK
Odd Ratio =e0.81 = 2.24
Artinya setiap kenaikan satu (1) satuan IPK maka
peluang seseorang sukses adalah 2.22 kalinya dari peluang gagal.
2. untuk JK
Odd Ratio = e-0.81 = 0.74
Artinya kecendrungan wanita untuk sukses lebih
tinggi dari laki-laki
3. untuk X3(jumlah jam yang mahasiswa habiskan dalam
satu minggu untuk belajar)
Odd Ratio = e0.5 = 1.64
Artinya setiap kenaikan 1 jam untuk belajar maka
peluang sukses adalah 1.64 kali dari peluang gagal.
Contoh
kasus…
Seorang
wanita, IPK 3.3, belajar 14 jam/minggu.
Berapa
kemungkinan ia sukses?
Logit
Y = 0.5 + 0.8 (3.3) – 0.3 (0) + 0.5 (14)
Logit
y = 10.14
Peluang
wanita tersebut adalah....
Kemungkinan wanita tersebut sukses adalah 99%
Praktek
Contoh Kasus Logit
Contoh Kasus Logit
Setelah
selesai memasukkan data ke dalam Minitab,
KLIK
Stat > Regression > Binary Logistic Regression
Response
: untuk menjelaskan data dependen
Model
: untuk menjelaskan data independen
Frequency
: untuk menjelaskan berapa banyak kejadian tersebut terjadi (optional)
|
KLIK OK
Hasil :
Binary Logistic
Regression
Link Function: Logit
Response Information
Variable Value
Count
sehat 1 269
0 311
Total 580
Logistic Regression
Table
Odds 95% CI
Predictor Coef
StDev Z P
Ratio Lower Upper
Constant -1.6023
0.2040 -7.85 0.000
tingkat 0.07907
0.01011 7.82 0.000 1.08
1.06 1.10
Log-Likelihood =
-365.301
Test that all slopes
are zero: G = 70.404, DF = 1, P-Value = 0.000
Goodness-of-Fit Tests
Method Chi-Square DF
P
Pearson 2.347 8 0.968
Deviance 2.354 8 0.968
Hosmer-Lemeshow 2.319 6 0.888
Table of Observed and
Expected Frequencies:
(See Hosmer-Lemeshow
Test for the Pearson Chi-Square Statistic)
Group
Value 1
2 3 4
5 6 7
8 Total
1
Obs
20 18 28
45 36 39
63 20 269
Exp
23.5 18.5 28.8
39.7 34.6 38.5
64.7 20.7
0
Obs
70 42 52
55 34 26
27 5 311
Exp
66.5 41.5 51.2
60.3 35.4 26.5
25.3 4.3
Total
90 60 80
100 70 65
90 25 580
Measures of
Association:
(Between the Response
Variable and Predicted Probabilities)
Pairs Number Percent
Summary Measures
Concordant 54118
64.7% Somers D 0.40
Discordant 20943
25.0% Goodman-Kruskal
Gamma 0.44
Ties 8598 10.3%
Kendalls Tau-a 0.20
Total 83659
100.0%
Interpretasi
Persamaan
regresi logistik adalah :
Dengan
model peluang logit adalah :
G(x)
= -1.6023 + 0.07907 tingkat_pendapatan
Berdasarkan
uji wald, variabel tingkat pendapatan dan intercept signifikan pada taraf nyata
5%.
Berdasarkan
uji G, model dapat menjelaskan keragaman data pada taraf nyata 5%.
Nilai
concordant menyatakan besaran keragaman data yang dapat dijelaskan model, pada
contoh ini.... sebanyak 64.7% keragaman data dapat dijelaskan oleh model.
tingkat pendapatan
|
G(x)
|
Ŷ
|
6
|
-1,12795
|
0,244541
|
8
|
-0,96981
|
0,274918
|
10
|
-0,81168
|
0,307532
|
13
|
-0,57448
|
0,360203
|
15
|
-0,41635
|
0,39739
|
20
|
-0,02102
|
0,494744
|
25
|
0,374305
|
0,592499
|
30
|
0,769634
|
0,683442
|
35
|
1,164963
|
0,762233
|
40
|
1,560292
|
0,826395
|
Interpretasi
: probabilitas keluarga sehat pada keluarga pendapatan 20 juta pertahun adalah
49.47%
Uji kelayakan model menggunakan metode Pearson,
Deviance, dan Hosmer-Lemeshow dengan hipotesis
H0 = model layak
H1 = model tidak layak
Dari ketiga uji ini, model logit layak untuk
digunakan.
Untuk melihat odd ratio masing-masing kategori, dapat dilakukan dengan memasukkan peubah penjelas yakni tingkat pendapatan ke Factors(optional)
Hasil Output :
Logistic Regression
Table
Odds 95% CI
Predictor Coef
StDev Z P
Ratio Lower Upper
Constant -1.3863
0.3953 -3.51 0.000
pdpt
8
0.2336 0.5157 0.45 0.651 1.26
0.46 3.47
10
0.5390 0.4854 1.11 0.267 1.71
0.66 4.44
13
0.7673 0.4596 1.67 0.095 2.15
0.88 5.30
15
1.1856 0.4435 2.67 0.008 3.27
1.37 7.81
20
1.4435 0.4620 3.12 0.002 4.24
1.71 10.47
25
1.7918 0.4694
3.82 0.000 6.00 2.39
15.06
30
2.0496 0.4954 4.14 0.000 7.76
2.94 20.50
35
2.4849 0.5381 4.62 0.000 12.00
4.18 34.45
40
2.7726 0.6374 4.35 0.000 16.00
4.59 55.80
Hasil output di atas menunjukkan bahwa peluang
penduduk dengan tingkat pendapatan 8 juta/tahun memiliki status sehat lebih
besar 1.26 kali dari pada penduduk dengan tingkat pendapatan 6 juta/tahun.
Sedangkan peluang penduduk dengan tingkat pendapatan
10 juta/tahun memiliki status sehat lebih besar 1.71 kali dari pada penduduk
dengan tingkat pendapatan 6 juta/tahun
Model
Probit
Model
ini menggunakan data yang sama dengan sebelumnya.
Klik Option |
Pilih
Normit/Probit
Klik
OK, dua kali.
|
Hasil
:
Binary
Logistic Regression
Link Function: Normit
Response Information
Variable Value Count
sehat 1 269
0 311
Total 580
Logistic Regression Table
Predictor Coef StDev Z
P
Constant -0.9881 0.1221
-8.09 0.000
tingkat_ 0.048587 0.005995
8.10 0.000
Log-Likelihood = -365.297
Test that all slopes are zero: G = 70.413, DF = 1, P-Value = 0.000
Goodness-of-Fit Tests
Method
Chi-Square DF P
Pearson 2.342
8 0.969
Deviance
2.346 8 0.969
Hosmer-Lemeshow
2.321 6 0.888
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)
Group
Value 1 2
3 4 5
6 7 8
Total
1
Obs 20
18 28 45
36 39 63
20 269
Exp 23.4
18.5 28.9 39.8
34.5 38.3 64.5
20.8
0
Obs 70
42 52 55 34
26 27 5
311
Exp 66.6
41.5 51.1 60.2
35.5 26.7 25.5
4.2
Total 90
60 80 100
70 65 90
25 580
Measures of Association:
(Between the Response Variable and Predicted Probabilities)
Pairs Number Percent
Summary Measures
Concordant 54118 64.7%
Somers D 0.40
Discordant 20943 25.0%
Goodman-Kruskal Gamma 0.44
Ties 8598 10.3%
Kendalls Tau-a 0.20
Total 83659 100.0%
Interpretasi
: perubahan tingkat pendapatan akan mempengaruhi status keluarga sehat. Untuk setiap
perubahan pendapatan sebesar satu juta rupiah akan mempengaruhi peluang status
keluarga sehat sebesar 0.0486
Untuk
melihat kemungkinan keluarga sehat harus menggunakan tabel distribusi normal
Dengan
menggunakan fungsi
=normsdist(angka)
Peluang
keluarga sehat berdasarkan model probit
tingkat_pendapatan
|
Ŷ
|
6
|
0.243033
|
8
|
0.274452
|
10
|
0.307753
|
13
|
0.360745
|
15
|
0.397704
|
20
|
0.493474
|
25
|
0.589623
|
30
|
0.680647
|
35
|
0.761905
|
40
|
0.830307
|
Jika ada pertanyaan, silahkan datang ke kantor SC atau langsung menghubungi contact person SC.
(Ditulis oleh Ivan Setiadi Tanujaya)
izin bertanya.
ReplyDeleteapakah uji wald bisa digunakan utk data yg berskala interval atau rasio ya ??
soalnya saya pernah baca kalo uji wald digunakan utk data yg berdistribusi logistik.
terima kasih.