Statistik adalah sekumpulan prosedur untuk
mengumpulkan, mengukur, mengklasifikasi, menghitung, menjelaskan, mensintesis,
menganalisis, dan menafsirkan data kuantitatif yang diperoleh secara
sistematis.
Secara garis besar, statistik dibagi menjadi dua komponen utama,
yaitu Statistik Deskriptif dan Statistik inferensial.
Statistik deskriptif menggunakan prosedur numerik dan grafis dalam
meringkas gugus data dengan cara yang jelas dan dapat dimengerti, sementara Statistik
inferensial menyediakan prosedur untuk menarik kesimpulan tentang populasi
berdasarkan sampel yang kita amati. Statistik Deskriptif membantu kita
untuk menyederhanakan data dalam jumlah besar dengan cara yang logis. Data yang
banyak direduksi dan diringkas sehingga lebih sederhana dan lebih mudah diinterpretasi.
Terdapat dua metode dasar
dalam statistik deskriptif, yaitu numerik dan grafis.
- Pendekatan numerik dapat digunakan untuk menghitung nilai statistik dari
sekumpulan data, seperti mean dan standar deviasi. Statistik
ini memberikan informasi tentang rata-rata dan informasi rinci tentang
distribusi data.
- Metode grafis lebih sesuai daripada metode numerik untuk
mengidentifikasi pola-pola tertentu dalam data, dilain pihak, pendekatan
numerik lebih tepat dan objektif. Dengan demikian, pendekatan numerik dan
grafis satu sama lain saling melengkapi, sehingga sangatlah bijaksana
apabila kita menggunakan kedua metode tersebut secara bersamaan.
Terdapat tiga karakteristik utama
dari variabel tunggal:
- Distribusi data (distribusi frekuensi)
- Ukuran pemusatan/tendensi sentral (Central Tendency)
- Ukuran penyebaran (Dispersion)
SKALA
PENGUKURAN
Nominal : mengklasifikasikan misal: jenis kelamin, warna, dll
Ordinal : mengklasifikasikan dan mengurutkan misal: peringkat,
kelas, dll
Interval : mengklasifikasikan, mengurutkan dan membedakan misal: suhu
Rasio :
mengklasifikasikan, mengurutkan, membedakan dan membandingkan misal: pendapatan
DATA
Jenis Data
Ada
tiga jenis data yang tersedia untuk analisis empiris, yaitu time series,
cross-section, dan
pooled data.
Time series data adalah nilai variabel dari suatu
daerah yang disusun menurut urutan waktu
seperti data harian, mingguan, bulanan, triwulanan maupun tahunan.
Contoh
: Data makroekonomi Indonesia dari tahun 1993 sampai dengan tahun 1998, berupa data: household consumption
(HHC), private consumption (PC), government consumption (GC), investment (I), saving (S),
export (X), import (M), produk domestik bruto regional (PDBR), price ratio (PR), dan sebagainya.
Cross-section data adalah nilai variabel yang
dikumpulkan pada waktu yang sama dari
beberapa daerah, perusahaan atau perorangan. Contoh : Data makroekonomi Regional Asia Tenggara
yang terdiri dari 10 negara pada tahun
1998 berupa data.
Pooled (panel) data adalah gabungan time series dan
cross-section data. Contohnya adalah
data makroekonomi Regional Asia Tenggara yang terdiri dari 10 negara dari tahun 1993 sampai tahun 1998.
Tahap awal yang perlu dilakukan sebelum analisis data adalah cleaning
data. Cleaning data adalah pembersihan data dari berbagai kesalahan yang
dilakukan pada tahap input data dan mengidentifikasi adanya data outlier. Data
outlier akan sangat berpengaruh terhadap hasil estimasi. Outlier dapat diidentifikasi
dengan menggunakan diagram kotak garis (Box plot). Pengaruh
outlier antara lain menghasilkan nilai estimasi yang berbias (over / under
estimate).
Output menunjukan terdapat data pencilan pada peubah pendapatan dengan
ditandai adanya tanda bintang pada gambar boxplot.
No comments:
Post a Comment