RESENSI Artikel : How Not to Lie with Statistics: Avoiding Common Mistakes in Quantitative Political Science

wrongArtikel yang membahas beberapa kesalahan di dalam penelitian Ilmu pengetahuan alam kuantitatif  ini, cukup menarik untuk diketahui khususnya para peneliti dan statistikawan. Kesalahan yang di bahas di artikel ini terkait dengan teori statistik dan analisa yang berkaitan dengannya. Dikatakan bahwa kesalahan seringkali terjadi pada jurnal, presentasi konferensi, penelitian tugas akhir mahasiswa.

Artikel ini membahas secara sistematis kesalahan-kesalahan yang secara umum sering terjadi. Penyajian bukti serta ilustrasi sampai dengan teori-teori yang ada serta koreksi terhadapnya adalah metode penulisan yang digunakan oleh penulis artikel ini.

Saya akan mencoba meresensi beberapa pembahasan di artikel ini, mudah-mudahan bisa dipahami dengan baik oleh pembaca sekalian. Untuk mendownload artikelnya, silahkan download di sini.

Pertama : Regression On Residual (ROR)

Kesalahan : Anggap kita punya Y yang diregresikan pada dua variabel X1 dan X2. Nah, pengunaan kata “meregresikan” atau “diregresikan” seringkali terjadi kesalahan, seharusnya membaca persamaan regresi mulai dari kiri ke kanan, sehingga kita katakan : “Variabel dependen diregresikan terhadap variabel  independen”.

Hasil persamaan regresinya adalah (1) :

(1)Persamaan di atas kita gunakan untuk menaksir parameter populasi dengan menggunakan OLS (Ordinary Least Square).

Kesalahan prosedur yang terjadi sekarang adalah dinamakan estimator Regression On Residual (ROR) . Prosedur ini pertama kali yang dilakukan adalah dengan meregresikan Y terhadap X1 untuk akhirnya mengestimasi B1 dan B2. (persamaan 2)

(2)Dimana b1(bintang)  adalah estimator ROR pertama. Kemudian meregresikan e1, residual dengan variabel X2. (persamaan 3) :

(3)Dimana b2(bintang) adalah estimator ROR kedua.

Kesalahannya adalah menganggap b2(bintang) dari persamaan (3) tadi sama dengan b2 pada persamaan (1). Demikian juga dengan b1(bintang)  adalah estimasi yang bias untuk β1 . Secara matematis dapat dilihati bukti kebiasan dari estimator ROR tersebut pada Appendix A.

Interpretasi : ROR tidaklah sama dengan OLS dan hasil dengan ROR tidaklah bisa diinterpretasikan. Untuk mendapatkan estimasi B1  dan B2 secara benar , maka kedua variabel X1 dan X2 harus diregresikan denga Y secara bersamaan /simultan. Dalam bebrapa literatur statistika, bahwa prosedur ROR juga disebut dengan “Stepwise Least Square”. Bagaimanapun juga prosedur keduanya sangat jauh berbeda.

Kedua : Permasalahan Variabel

Pada bagian ini dibahas beberapa berkaitan dengan koefisien standar (“beta weights”), koefisien korelasi (Pearson’s correlation) dan R2 (koefisien determinasi). Ketiganya merupakan hal yang paling sering digunakan di dalam analisa statistik.

Masalah pertama : Standardized Fruit

Kesalahan : Apel, jeruk dan persepsi. Bayangkan seorang peneliti ingin menjelaskan Y, dimana jumlah kunjungan ke dokter per tahun. Variabel penjelas X1 adalah jumlah buah aple yang dimakan tiap minggu. Sedangkan X2 adalah jumlah jeruk yang dimakan tiap minggu. Kemudian hasil persamaan regresi bergandanya adalah sebagai berikut : (persmaan 4)

(4)Setiap penambahan 1 apel per minggu akan menurunkan jumlah ke dokter per tahun sebesar 1.5 . Sedangkan setiap penambahan 1 jeruk per minggu, maka menurunkan sebesar 0.25 kunjungan ke dokter.

Kemudian si peneliti ingin membandingkan harga apel dan jeruk di dalam menurunkan frekuensi kunjungan ke dokter. Pertanyaannya : Apakah bisa (dibandingkan)? Jawabannya : tergantung!. Jika yang diinginkan peneliti : “Saya punya cukup uang untuk satu apel atau satu jeruk dan aku ingin tahu yang mana yang lebih membuatku lebih sehat.”. Jawabannya yang pasti adalah APEL.

Tetapi jika, anggap satu apel harganya 50 cents, sedangkan satu jeruk hanya 5 cents. Dalam kasus ini peneliti berkata : “Bagaimana supaya ‘kantong’ saya lebih efesien untuk digunakan?”.  Jawabannya adalah tentu JERUK. Untuk satu dollar habis untuk dua apel, hal ini menyebabkan kunjungan ke dokter berkurang tiga. Dengan satu dollar yang sama, maka akan habis untuk 20 jeruk yang mengkibatkan penurunan kunjungan ke dokter sebesar lima.

Kemudian contoh lain (dengan penambahan variabel X3). Anggap X3 adalah persepsi responden terhadap dokter, apakah menguntungkan atau sebaliknya. Dengan skala pengukuran atara 1 (tidak menguntungkan) sampai 10 (sangat menguntungkan) Persamaannya menjadi : (persmaan 5)_

(5)Kemudian apakah dikatakan bahwa persepsi “lebih penting” daripada apel karena 2 lebih besar daripada 1.5?

Pada intinya, hanya variabel penjelas yang memiliki unit pengukuran/skala pengukuran yang umum dan bermakna yang bisa dibandingkan.

Masalah kedua : Koefisien Determinasi (R2)

R2 seringkali disebut dengan koefisien determinasi. Sayangnya R2 kadang diinterpretasikan sebagai ukuran besarnya pengaruh variabel X terhadap Y. Terkadang juga  mengartikan sebagai ukuran kebaikan antara model statistik dan model sebenarnya. Semakin besar nilai R2, maka model baik telah terpenuhi. Semakin besar R2 maka diartikan model semakin baik.

Semua pernyataan di atas adalah SALAH. R2 adalah ukuran sebaran titik-titik di sekitar garis regresi. R2 dapat didefinisikan sebagai jumlah kuadrat dari semua variabel Y (sum of squares due to the regression) dibagi  dengan jumlah kuadrat semua variabel Y (sum of squares total) : (persmaan 6)

(6)Tidak ada teori statistik yang melatarbelakangi statistik R2. Oleh karena itu, R2 bukan estimator  karena tidak ada parameter populasinya.

Berikut adalah petikan diskusi seputar R2 :

Q : Bagaimana saya dapat tahu seberapa besar variabel independen saya berpengaruh terhadap variabel dependennya tanpa menggunakan R2?

A : Interpretasikan dengan koefisien regresi unstandardized

Q : Tapi bagaimana dapat saya tahu seberapa bagus koefisien tersebut?

A : Dengan melihat standar errornya.

Q : Tapi bagaimana agar saya tahu seberapa baik regresi tersebut secara keseluruhan?

A : Jika kamu ingin menguji hipotesis bahwa semua koefisiennya sama dengan nol, gunakan F-test.

Q : Ok! Terus bagaimana saya menilai terhadap penyebaran titi-titik di sektiar garis regresi tersebut?

A : Tidak ada yang menarik untuk dilihat tentang penyebaran titik-titik di sekitra garis regresi. Jika kamu tertarik untuk melihat seberapa tepat kesimpulan yang kamu dapatkan, lihatlah standar erronya! Atau kamu juga bisa melakukan simulasi dengan data in-sampel dan ramalan data out-sampel. Ramalan hasil out-sampel akan memberikan nilai yang tepat untuk variabel penjelasmu. Hal ini merupakan cara yang tepat untuk mengestimasi dan kemudian meghasilkan probabilitas ramalan atau bahkan menghitung ramalan konfiden interval. Tapi bagaimanapun juga, R2 tidak bisa menggantikan “posisi” konfiden interval.

Q : jadi kamu benar-benar ingin saya tidak menggunakan R2? Setelah saya tahu bahwa nilai R2 saya lebih besar daripada hasil teman-teman saya yang lain?

A : jika tujuanmu adalah untuk mendapatkan nilai R2 yang besar, dan ternyata tujuan ini tidak sama dengan analisa regresi yang sudah kamu disain. Tujuan analisa regresi dan analisa parametrik statistik lainnya adalah untuk mengestimasi parameter populasi (koefisien regresi). Model regresi terbaik biasanya memiliki R2 yang lebih rendah dari yang biasanya yang ada.

Q : Apakah ada kegunaan lain dari R2?

A : Ya. Paling tidak ada satu kegunaan langsung dan beberapa kegunaan tak langsung. Kamu bisa gunakan langsung R2 ketika membandingkan dua persamaan dengan beda variabel penjelas dan dengan variabel dependen yang identik.

Untuk kegunaan tak langsungnya ada beberapa macam. Seringkali R2 yang tinggi dibarengi dengan standar error yang kecil, koefisien yang besar dan konfiden interval yang pendek. Oleh karena itu,  semakin besar R2 maka menandakan secara umum bagus. Karena alasan ini, R2 tidak selalu “menyesatkan”. Bagaimanapun juga informasi yang berguna yang didapatkan dari R2 sudah terakomodasi dengan nilai statistik yang ada secara umum. Bahkan ukuran statistik itu lebih akurat daripada R2. Di sana ada beberapa permasalahan teori yang bisa dijawabnya secara langsung sedangkan R2 tidak bisa.

Walapun masih ada beberapa penjelasan permasalahan statistik, tapi saya cukupkan resensi tentang artikel ini sampai disini. Semoga yang sedikit ini sudah bisa mengakomodasi ketidaktahuan para pembaca tentang kesalahan-kesalahan umum yang seringkali terjadi dalam pengolahan statistik.

By : Azwar Rhosyied

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s