Wednesday, February 20, 2013

Regresi Logistik

OLAH DATA STATISTIK
 
Contoh Regresi linear berganda (Multi Linear Regression - MLR)
Y = β0+ β1X1 + … + βnXn + e

Metode MLR digunakan pada data numeric yang menyebar normal pada data dependen.
Metode ini masih bisa digunakan pada data independent yang memiliki kategori data kategorik,
Karna akan digunakan sebagai dummy variable.

Dalam beberapa penelitian sering juga ditemukan peubah respon yang bersifat kualitatif termasuk data biner.
Y atau variable independen hanya memiliki dua (2) nilai, maka metode MLR tidak dapat dilakukan.

Generalized Linear Model (GLM) merupakan suatu alternatif untuk memecahkan masalah ini.
GLM mempunyai fungsi penghubung, diantaranya logit dan probit yang dapat digunakan untuk melakukan analisis data kualitatif.


Metode ini, dengan mentransformasi data dengan logaritma natural, membuat data dapat diolah.

Ilustrasi















Ditransformasi dengan logaritma, sehingga menjadi













Logit Y = β0+ β1X1 + … + βnXn + e

Uji-uji pada regresi logistik
1.Uji G (sama seperti uji F – mengetahui apakah model dapat menjelaskan keragaman data independen)
2.Statistik uji Wald (sama seperti uji t)

Contoh interpretasi
Logit Y = 0.5 + 0.81 IPK – 0.3 JK + 0.5 X3 + e

Dimana
Y     = Kemungkinan sarjana berhasil dalam hidupnya
IPK = besar IPK mahasiswa tersebut
JK   = Jenis kelamin mahasiswa tersebut, 0 untuk pria ; 1 untuk wanita
X3   = jumlah jam yang mahasiswa habiskan dalam satu minggu untuk belajar.

Interpretasi Odds Ratio

1.Untuk IPK
Odd Ratio =e0.81  = 2.24
Artinya setiap kenaikan satu (1) satuan IPK maka peluang seseorang sukses adalah 2.22 kalinya dari peluang gagal.

2. untuk JK
Odd Ratio = e-0.81  = 0.74
Artinya kecendrungan wanita untuk sukses lebih tinggi dari laki-laki

3. untuk X3(jumlah jam yang mahasiswa habiskan dalam satu minggu untuk belajar)
Odd Ratio = e0.5   = 1.64
Artinya setiap kenaikan 1 jam untuk belajar maka peluang sukses adalah 1.64 kali dari peluang gagal.

Contoh kasus…
Seorang wanita, IPK 3.3, belajar 14 jam/minggu.
Berapa kemungkinan ia sukses?

Logit Y = 0.5 + 0.8 (3.3) – 0.3 (0) + 0.5 (14)
Logit y = 10.14

Peluang wanita tersebut adalah....





Kemungkinan wanita tersebut sukses adalah 99%



Praktek

Contoh Kasus Logit



Setelah selesai memasukkan data ke dalam Minitab,
KLIK
Stat > Regression > Binary Logistic Regression















Response : untuk menjelaskan data dependen
Model : untuk menjelaskan data independen
Frequency : untuk menjelaskan berapa banyak kejadian tersebut terjadi (optional)

















KLIK OK


Hasil :
Binary Logistic Regression


Link Function:  Logit

Response Information

Variable  Value       Count
sehat     1             269
          0             311
          Total         580

Logistic Regression Table
                                                   Odds        95% CI
Predictor       Coef      StDev        Z     P    Ratio    Lower    Upper
Constant     -1.6023     0.2040    -7.85 0.000
tingkat      0.07907    0.01011     7.82 0.000     1.08     1.06     1.10

Log-Likelihood = -365.301
Test that all slopes are zero: G = 70.404, DF = 1, P-Value = 0.000

Goodness-of-Fit Tests

Method                Chi-Square    DF      P
Pearson                    2.347     8  0.968
Deviance                   2.354     8  0.968
Hosmer-Lemeshow            2.319     6  0.888

Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)

                              Group
Value      1     2     3     4     5     6     7     8   Total
1
  Obs     20    18    28    45    36    39    63    20     269
  Exp     23.5  18.5  28.8  39.7  34.6  38.5  64.7  20.7
0
  Obs     70    42    52    55    34    26    27     5     311
  Exp     66.5  41.5  51.2  60.3  35.4  26.5  25.3   4.3

  Total   90    60    80   100    70    65    90    25     580

Measures of Association:
(Between the Response Variable and Predicted Probabilities)

Pairs           Number  Percent     Summary Measures
Concordant       54118    64.7%     Somers D                0.40
Discordant       20943    25.0%     Goodman-Kruskal Gamma   0.44
Ties              8598    10.3%     Kendalls Tau-a          0.20
Total            83659   100.0%

Interpretasi




Persamaan regresi logistik adalah :






Dengan model peluang logit adalah :
G(x) = -1.6023 + 0.07907 tingkat_pendapatan

Berdasarkan uji wald, variabel tingkat pendapatan dan intercept signifikan pada taraf nyata 5%.

Berdasarkan uji G, model dapat menjelaskan keragaman data pada taraf nyata 5%.

Nilai concordant menyatakan besaran keragaman data yang dapat dijelaskan model, pada contoh ini.... sebanyak 64.7% keragaman data dapat dijelaskan oleh model.

Sekarang kita melakukan peramalan, dengan menggunakan rumus





tingkat pendapatan
G(x)
Ŷ
6
-1,12795
0,244541
8
-0,96981
0,274918
10
-0,81168
0,307532
13
-0,57448
0,360203
15
-0,41635
0,39739
20
-0,02102
0,494744
25
0,374305
0,592499
30
0,769634
0,683442
35
1,164963
0,762233
40
1,560292
0,826395

Interpretasi : probabilitas keluarga sehat pada keluarga pendapatan 20 juta pertahun adalah 49.47%

Uji kelayakan model menggunakan metode Pearson, Deviance, dan Hosmer-Lemeshow dengan hipotesis
H0 = model layak
H1 = model tidak layak
Dari ketiga uji ini, model logit layak untuk digunakan.















Untuk melihat odd ratio masing-masing kategori, dapat dilakukan dengan memasukkan peubah penjelas yakni tingkat pendapatan ke Factors(optional)

Hasil Output :

Logistic Regression Table
                                                   Odds        95% CI
Predictor       Coef      StDev        Z     P    Ratio    Lower    Upper
Constant     -1.3863     0.3953    -3.51 0.000
pdpt     
  8           0.2336     0.5157     0.45 0.651     1.26     0.46     3.47
 10           0.5390     0.4854     1.11 0.267     1.71     0.66     4.44
 13           0.7673     0.4596     1.67 0.095     2.15     0.88     5.30
 15           1.1856     0.4435     2.67 0.008     3.27     1.37     7.81
 20           1.4435     0.4620     3.12 0.002     4.24     1.71    10.47
 25           1.7918     0.4694     3.82 0.000     6.00     2.39    15.06
 30           2.0496     0.4954     4.14 0.000     7.76     2.94    20.50
 35           2.4849     0.5381     4.62 0.000    12.00     4.18    34.45
 40           2.7726     0.6374     4.35 0.000    16.00     4.59    55.80


Hasil output di atas menunjukkan bahwa peluang penduduk dengan tingkat pendapatan 8 juta/tahun memiliki status sehat lebih besar 1.26 kali dari pada penduduk dengan tingkat pendapatan 6 juta/tahun.

Sedangkan peluang penduduk dengan tingkat pendapatan 10 juta/tahun memiliki status sehat lebih besar 1.71 kali dari pada penduduk dengan tingkat pendapatan 6 juta/tahun



Model Probit

Model ini menggunakan data yang sama dengan sebelumnya.


Klik Option















Pilih Normit/Probit
 Klik OK, dua kali.


















Hasil :
Binary Logistic Regression


Link Function:  Normit

Response Information

Variable  Value       Count
sehat     1             269
          0             311
          Total         580

Logistic Regression Table
Predictor       Coef      StDev        Z     P
Constant     -0.9881     0.1221    -8.09 0.000
tingkat_    0.048587   0.005995     8.10 0.000

Log-Likelihood = -365.297
Test that all slopes are zero: G = 70.413, DF = 1, P-Value = 0.000

Goodness-of-Fit Tests

Method                Chi-Square    DF      P
Pearson                    2.342     8  0.969
Deviance                   2.346     8  0.969
Hosmer-Lemeshow            2.321     6  0.888


Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)

                              Group
Value      1     2     3     4     5     6     7     8   Total
1
  Obs     20    18    28    45    36    39    63    20     269
  Exp     23.4  18.5  28.9  39.8  34.5  38.3  64.5  20.8
0
  Obs     70    42    52    55    34    26    27     5     311
  Exp     66.6  41.5  51.1  60.2  35.5  26.7  25.5   4.2

  Total   90    60    80   100    70    65    90    25     580

Measures of Association:
(Between the Response Variable and Predicted Probabilities)

Pairs           Number  Percent     Summary Measures
Concordant       54118    64.7%     Somers D                0.40
Discordant       20943    25.0%     Goodman-Kruskal Gamma   0.44
Ties              8598    10.3%     Kendalls Tau-a          0.20
Total            83659   100.0%

Interpretasi : perubahan tingkat pendapatan akan mempengaruhi status keluarga sehat. Untuk setiap perubahan pendapatan sebesar satu juta rupiah akan mempengaruhi peluang status keluarga sehat sebesar 0.0486

Untuk melihat kemungkinan keluarga sehat harus menggunakan tabel distribusi normal

Dengan menggunakan fungsi
=normsdist(angka)

Peluang keluarga sehat berdasarkan model probit

tingkat_pendapatan
Ŷ
6
0.243033
8
0.274452
10
0.307753
13
0.360745
15
0.397704
20
0.493474
25
0.589623
30
0.680647
35
0.761905
40
0.830307


 Jika ada pertanyaan, silahkan datang ke kantor SC atau langsung menghubungi contact person SC.
(Ditulis oleh Ivan Setiadi Tanujaya)

1 comment:

  1. izin bertanya.
    apakah uji wald bisa digunakan utk data yg berskala interval atau rasio ya ??
    soalnya saya pernah baca kalo uji wald digunakan utk data yg berdistribusi logistik.
    terima kasih.

    ReplyDelete