Thursday, February 14, 2013

PCA (Principal Component Analysis) RKU (Regresi Komponen Utama)

OLAH DATA STATISTIK

ReGresi Komponen Utama (RKU) atau Principal Component Analysis (PCA)

Adalah metode untuk menghilangkan masalah multikolinearitas pada data.
Masalah multikolinearitas menyebabkan beberapa masalah, yakni :
- Asumsi Ceteris Paribus tidak terpenuhi
- Beberapa variabel independent tidak signifikan sekalipun nilai R2 cukup tinggi.

Contoh pemodelan yang memiliki masalah multikolinearitas, saya menggunakan Minitab pada praktek ini.

FIle Latihan
Excel






Regression Analysis: y versus x1, x2, x3, x4

The regression equation is
y = 21.3 - 1.21 x1 + 0.000122 x2 + 0.0136 x3 - 0.00148 x4


Predictor       Coef    SE Coef      T      P
Constant      21.315      5.560   3.83  0.006
x1           -1.2080     0.6208  -1.95  0.093
x2         0.0001223  0.0002449   0.50  0.633
x3           0.01362    0.02169   0.63  0.550
x4         -0.001476   0.007834  -0.19  0.856


S = 3.02014   R-Sq = 88.4%   R-Sq(adj) = 81.8%


Analysis of Variance

Source          DF      SS      MS      F      P
Regression       4  488.86  122.22  13.40  0.002
Residual Error   7   63.85    9.12
Total           11  552.71

Nilai R2 tinggi, namun hanya terdapat satu variabel yang signifikan.
Salah satu cara untuk mengetahui masalah ini adalah dengan melihat nilai VIF.

Pada pilihan Regression, klik Options....














Dan, pilih Variance inflation factors untuk mengetahui masalah multikolinearitas.
Pilihan Durbin-Watson statistic digunakan untuk mengetahui masalah autokorelasi.















Hasil Regresi:

Regression Analysis: y versus x1, x2, x3, x4

The regression equation is
y = 21.3 - 1.21 x1 + 0.000122 x2 + 0.0136 x3 - 0.00148 x4


Predictor       Coef    SE Coef      T      P   VIF
Constant      21.315      5.560   3.83  0.006
x1           -1.2080     0.6208  -1.95  0.093   1.9
x2         0.0001223  0.0002449   0.50  0.633  30.1
x3           0.01362    0.02169   0.63  0.550  91.8
x4         -0.001476   0.007834  -0.19  0.856  72.6


S = 3.02014   R-Sq = 88.4%   R-Sq(adj) = 81.8%


Analysis of Variance

Source          DF      SS      MS      F      P
Regression       4  488.86  122.22  13.40  0.002
Residual Error   7   63.85    9.12
Total           11  552.71

Nilai VIF lebih dari 10, maka kita mendapatkan kesimpulan bahwa terdapat masalah multikolinearitas pada model ini.

Maka kita lakukan pemodelan dengan menggunakan metode PCA.

Langkah pertama adalah dengan mencari rata-rata dan standard deviasi dari variabel independen.

Gunakan fungsi
=average(data)
=stdev(data)
Pada excel.

Dan lakukan pembakuan (standardisasi) pada data, rumus :


















Sekarang akan kita faktorkan variabel independen ini, agar mendapatkan variabel baru yang dapat mewakilkan keseluruhan data.

Untuk mengetahui berapa banyak faktor yang akan kita gunakan, lihat nilai EigenValue dari variabel independen yang kita gunakan, sebelum melanjut ke langkah selanjutnya.

KLIK
Stat > Multivariate > Principal Components



























Pada Variables, masukkan seluruh independen Variabel.

Hasil :

Principal Component Analysis: x1, x2, x3, x4

Eigenanalysis of the Correlation Matrix

Eigenvalue  2.9630  1.0070  0.0235  0.0065
Proportion   0.741   0.252   0.006   0.002
Cumulative   0.741   0.992   0.998   1.000


Variable     PC1     PC2     PC3     PC4
x1        -0.055  -0.992  -0.097  -0.061
x2        -0.576  -0.039   0.807  -0.123
x3        -0.579   0.015  -0.297   0.759
x4        -0.574   0.120  -0.501  -0.637

Terdapat dua faktor yang memiliki nilai EigenValue lebih dari satu, maka kita akan gunakan dua faktor.

Sekarang, kita akan mengeluarkan seluruh faktor ini dari persamaan ini.
Klik "Storage"














Pada Coefficients, kita akan menyimpan nilai PC, yang akan kita gunakan selanjutnya.
Pada Coefficients, kita akan menyimpan nilai faktor, yang akan kita gunakan untuk pemodelan.














Kita namakan PC1-PC4, untuk C6-C9
Dan namakan W1-W4, untuk C10-C13








Dari nilai EigenValue, kita ketahui bahwa kita akan gunakan dua faktor, yakni W1 dan W2.

Hasil Regresi:
Regression Analysis: y versus W1, W2

The regression equation is
y = 14.9 - 3.63 W1 + 2.25 W2


Predictor     Coef  SE Coef      T      P  VIF
Constant   14.8583   0.7822  19.00  0.000
W1         -3.6338   0.4746  -7.66  0.000  1.0
W2          2.2536   0.8142   2.77  0.022  1.0


S = 2.70960   R-Sq = 88.0%   R-Sq(adj) = 85.4%


Analysis of Variance

Source          DF      SS      MS      F      P
Regression       2  486.63  243.32  33.14  0.000
Residual Error   9   66.08    7.34
Total           11  552.71


Durbin-Watson statistic = 1.81081

Hasil pemodelan tidak memiliki masalah autokorelasi (dilihat dari nilai Durbin Watson), multikolinearitas (dilihat dari nilai VIF)
heteroskedastisitas (Dari tes Breush-Pagan; melakukan regresi ulang dengan menggunakan ragam sebagai variabel independen)
Dan error sudah menyebar normal (Normality Test)


Maka kita dapat nyatakan bahwa model sudah baik.

Sekarang akan kita ubah hasil pemodelan faktor ini menjadi semula, dengan menggunakan nilai PC
Yang kita gunakan sebelumnya

Nilai PC ini akan kita gunakan untuk mentransformasi balik faktor yang kita gunakan.

PC1
PC2
-0.05505 z1
-0.99193 z1
-0.57599 z2
-0.0393 z2
-0.57918 z3
0.014785 z3
-0.57424 z4
0.119601 z4


Ubah menjadi seperti ini, dan sekarang kita dapat lakukan transformasi ulang, dengan memasukkan
Persamaan ini
W1 = PC1
W1 = -0.05505z1 -0.575991z2 -0.579182z3 -0.57424z4
W2 = PC2
W2 = -0.991934z1 -0.039301z2 0.014785z3 +0.119601z4


y = 14.9 - 3.63 W1 + 2.25 W2

y = 14.9 - 3.63 PC1 + 2.25 PC2

y = 14.9 - 3.63 (-0.05505z1 -0.575991z2 -0.579182z3 -0.57424z4)
         + 2.25 (-0.991934z1 -0.039301z2 0.014785z3 +0.119601z4)


Y = 14.9 -2.0351z1 + 2.005182z2 + 2.137773z3 + 2.356221z4

Langkah berikutnya adalah mencari simpangan baku, sehingga kita dapat melakukan uji t-hitung.
Sehingga kita dapat mengetahui apakah variabel independen tersebut dapat menjelaskan keragaman data ataupun tidak.

Cara mencari simpangan baku :
Pertama mencari nilai S*2







































Sekarang kita lihat nilai T-hitung.

Peubah
koefisien
simpangan baku
t-hitung
z1
-2.03561
0.114114
-17.8384
z2
2.005182
0.038782
51.70456
z3
2.137773
0.03876
55.15345
z4
2.356221
0.040792
57.76213

Bisa kita katakan semuanya, signifikan...

Sekarang saatnya tranformasi standarisasi balik
Caranya?











Jika masih ada beberapa hal yang belum jelas, mohon datang ke kantor Statistic Centre atau langsung hubungi contact person SC.
(Ditulis oleh Ivan Setiadi Tanujaya)

4 comments:

  1. maaf...bole minta dikirimkan data excel ke email saya, karena saya tidak bisa downdload

    ReplyDelete
  2. maaf...bagaimana langkah-langkah PCA menggunakan SPSS versi 22

    ReplyDelete
  3. maaf.. diatas dikatakan bahwa setelah nilai T-hitung diketahui maka signifikan, itu dilhat dari mananya ya?
    apakah tidak usah mencari t tabel?

    ReplyDelete
  4. Khusus Analisis Dengan Software STATA, Banxia Frontier Analysis (BFA)
    Frontier 4.1, DEAP 2.1, SPSS, AMOS, LISREL, EVIEWS, SMARTPLS, Software R
    WA : +6285227746673
    IG : @olahdatasemarang

    ReplyDelete