Senin, 09 Juni 2008

Mengukur Validitas dan Reliabilitas Alat Ukur

Mengukur Validitas dan Reliabilitas Alat Ukur

Validitas
Sifat valid memberikan pengertian bahwa alat ukur yang digunakan mampu memberikan nilai yang sesungguhnya dari apa yang kita inginkan. Jika pada suatu kesempatan kita ingin memperoleh tinggi suatu meja, penggaris merupakan alat ukur yang valid, karena dengan alat ini kita akan dapatkan berapa centi meter tinggi meja tersebut. Meteran gulung juga alat yang valid. Selain itu, pengukuran dengan jengkal tangan juga merupakan cara yang bisa dilakukan. Namun tidak demikian halnya jika kita gunakan termometer badan. Bagaimana kita bisa memperoleh tinggi meja hanya dengan sebuah termometer?
Dalam kesempatan lain kita menginginkan pengukuran tinggi terhadap tingkat keseahteraan keluarga. Bagaimana cara mengukur tingkat kesejahteraan keluarga? Berbagai variabel mungkin digunakan untuk itu, sebut saja: pendapatan keluarga, pengeluaran keluarga, pendidikan anak, dan tingkat gizi anggota keluarga. Kesemuanya bisa kita ajukan dan debatkan sebagai “alat” yang valid untuk tujuan yang diinginkan. Bagaimana halnya dengan pertanyaan berapa rata-rata lama meononto TV anggota keluarga tersebut? Apakah itu adalah ‘alat” yang valid? Untuk menjawab ini, coba jawab dulu dua pertanyaan berikut:
1. Apakah keluarga yang rata-rata menonton TV lebih besar, memiliki tingkat kesejahteraan yang lebih tinggi?
2. Atau sebaliknya, apakah keluarga yang lebih sedikit menonton TV adalah keluarga yang lebih sejahtera?
Jika Anda menjawab TIDAK untuk kedua pertanyaan tersebut, maka itu pertanyaan berapa rata-rata lama menonton TV anggota keluarga bukanlah “alat” yang valid untuk mengukur kesejahteraan keluarga.

Salah satu ukuran validitas untuk sebuah kuesioner adalah apa yang disebut sebagai validitas konstruk (construct validity). Dalam pemahaman ini, sebuah kuesioner yang berisi beberapa pertanyaan untuk mengukur suatu hal, dikatakan valid jika setiap butir pertanyaan yang menyusun kuesioner tersebut memiliki keterkaitan yang tinggi. Misalkan saja untuk kuesioner yang digunakan mengukur kesejahteraan keluarga, maka butir-butir penyusunnya semuanya menuju ke satu titik, yaitu pengukuran kesejahteraan.
Ukuran keterkatian antar butir pertanyaan ini umumnya dicerminkan oleh korelasi jawaban antar pertanyaan. Pertanyaan yang memiliki korelasi rendah dengan butir pertanyaan yang lain, dinyatakan sebagai pertanyaan yang tidak valid.
Metode yang sering digunakan untuk memberikan penilaian terhadap validitas kuesioner adalah korelasi produk momen (moment product correlation, Pearson correlation) antara skor setiap butir pertanyaan dengan skor total, sehingga sering disebut sebagai inter item-total correlation. Formula yang digunakan untuk itu adalah:


dengan
xij = skor responden ke-j pada butir pertanyaan i
xi = rata-rata skor butir pertanyaan i
tj = total skor seluruh pertanyaan untuk responden ke-j
t = rata-rata total skor
ri = korelasi antara butir pertanyaan ke-i dengan total skor

Dalam bentuk tabel, struktur data yang digunakan untuk mengukur validitas dengan cara di atas adalah:
Responden
Pertanyaan 1
Pertanyaan 2

Pertanyaan k
Total
1
X11
X21

Xk1
t1
2
X12
X22

Xk2
t2
3

….



.





.





.





n
X1n
X2n

Xkn
tn

X1
X2

Xk
t

Untuk membuat keputusan valid atau tidaknya sebuah pertanyaan, yang digunakan adalah nilai ri. Semakin besar nilai ri (ingat nilai ri berkisar antara –1 dan 1), maka semakin valid pertanyaan tersebut. Sebaliknya jika ri semakin kecil.
Mengukur Reliabilitas
Sifat reliable (terandal) dari sebuah alat ukur berkenaan dengan kemampuan alat ukur tersebut memberikan hasil yang konsisten. Bisa dibayangkan jika kita mempunyai alat yang hasilpengukurannya berbeda-besda pada setiap kali proses pengukuran. Sekarang diperoleh hasil 50, beberapa saat kemudian dilakukan pengukuran ulang diperoleh hasil 100. Begitu seterusnya tidak pernah konvergen. Bagaimana kita menggunakan datanya? Hasil pengukuran mana yang kita gunakan?
Trochim mengatakan bahwa
In research, the term reliability means "repeatability" or "consistency". A measure is considered reliable if it would give us the same result over and over again (assuming that what we are measuring isn't changing!).
Pada saat kita membahas kevalidan suatu alat, bisa disepakati bahwa meteran dan jengkal tangan merupakan dua alat yang valid untuk mengukur tinggi suatu objek atau benda. Jika benda itu adalah sebuah meja, dan kita melakukan pengukuran tinggi berulang-ulang dengan menggunakan meteran, hasil yang diperoleh tidak akan jauh berbeda. Seandainya pada pengukuran pertama diperoleh angka 1.02 meter, pengukuran selanjutnya akan memberikan hasil di sekitar nilai tersebut. Begitu juga dengan penggunaan jengkal tangan, hasil 5 jengkal pada pengukuran pertama juga akan didapatkan pada pengukuran berikutnya. Untuk kasus pengukuran tinggi meja, meteran dan jengkal tangan selain merupakan alat yang valid, juga alat yang RELIABLE (TERANDAL)
Bagaimana jika objek yang diukur adalah gedung 15 lantai? Mungkinkah jengkal tangan akan memberikan hasil yang konsisten? Kemungkinan besar TIDAK. Dalam hal ini, jengkal tidak lagi merupakan alat yang reliable.
Sifat-sifat ini juga harus dimiliki oleh kuesioner yang akan digunakan untuk mengumpulkan data. Yang menjadi permasalahan adalah, bagaiamana cara kita mengetahui keterandalan (reliability) dari sebuah kuesioner.
Mari kita lihat dengan lebih detail apa yang dimaksud dengan reliable (terandal) yang mengandung pengertian kemampuan kueisoner memberikan hasil pengukuran yang konsisten.
Kita mulai dengan terlebih dahulu mendefinisikan nilai X, yaitu sesuatu yang ingin kita ukur, ingin kita ketahui nilainya untuk suatu objek tertentu. Ini bisa berupa tingkat kesejahteraan sebuah keluarga, tingkat kepuasan seseorang pada pelayanan tertentu dan sebagainya. Selanjutnya, yang paling mudah untuk melihat kekonsistenan adalah dengan melakukan pengukuran sebanya dua kali, misalkan saja diperoleh X1 pada pengukuran pertama, dan X2 pada pengukuran kedua. Jika kita mengasumsikan bahwa cara kita mengukur tidak ada perbedaan (kalimat yang digunakan, kondisi responden, dsb), kita bisa menilai sejauh mana kekonsistenan hasil yang didapatkan. Andaikan saja setiap hasil pengukuran mengandung dua bagian, nilai yang sebenarnya (T) dan galat (e). Gambarannya adalah sebagai berikut.

Perlu diingat bahwa nilai yang kita peroleh adalah X dan kita tidak pernah tahu besarnya nilai T dan e. Misalkan saja, seseorang mungkin memberikan nilai 85 untuk tingkat kepuasan dia terhadap jalannya pemerintahan saat ini. Itu adalah apa yang kita peroleh, X sebesar 75. Namun, berapa tingkat kepuasan yang sebenarnya dari orang tersebut tidak pernah kita ketahui. Misalkan saja, yang sebenarnya adalah 89. Ini berarti bahwa galat (error) untuk orang tersebut adalah –14. Apa artinya? Mungkin, meskipun tingkat kepuasan sesungguhnya adalah 89, tapi karena hari itu adalah hari yang kurang menguntungkan bagi orang tersebut maka ketiak ditanyakan kepuasan, dia hanya memberikan 75. Faktor-faktor seperti ini yang memberikan kontribusi pada kesalahan pengukuran.
Kembali ke masalah keterandalan. Jika alat ukur (kuesioner) kita terandal, maka nilai X yang didapatkan dari dua kali pengukuran akan memberikan hasil yang (sangat) mirip. Mengapa begitu? Perhatikan kembali gambar di atas. Satu hal yang sama pada dua kali pengukuran adalah nilai T. Perbedaan subscript pada galat (e1 dan e2) menunjukkan bahwa keduanya berbeda nilainya. Ini berarti bahwa kedua nilai hasil pengukuran, X1 dan X2 terhubung hanya melalui T. Besarnya galat diasumsikan bersifat acak, kadang-kadang galat memiliki besaran yang membuat X membesar, kadangkala sebaliknya. Namun besarnya T, tetap.
Sekarang kita akan coba definisikan reliabilitas (keterandalan) dengan lebih jelas. Keterandalan merupakan rasio dari dua hal, atau dituliskan sebagai berikut:
Nilai sebenarnya
Reliabilitas = ----------------------------------------------
Nilai yang diperoleh
Dengan kata lain, reliabilitas bisa kita anggap sebagai proporsi “kebenaran” dari hasil pengukuran. Selanjutnya kita tidak membicarakan reliabilitas pendukuran dari satu individu, namun merupakan karakteristik alat ukur terhadap beberapa individu. Sehingga, untuk menuju ke definisi formalnya, mari ktia coba menulis ulang dalam konteks ada segugus data hasil pengamatan. Cara yang paling sederhana dan mudah adalah dengan menggunakan ragam nilai pengukuran. Ingat bahwa ragam adalah ukuran penyebaran dari sekelompok nilai. Dengan demikian, reliabilitas bisa kita tulis ulang sebagai
Ragam nilai sebenarnya
Reliabilitas = --------------------------------------
Ragam nilai hasil pengukuran
atau
Var (T)
Reliabilitas = --------------------------------------
Var (X)
Sekarang kita sampai pada bagian yang penting. Jika diperhatikan persamaan di atas, mudah sekali mendapatkan nilai penyebutnya, tinggal menghitung nilai ragam dari skor yang diperoleh dari hasil pengukuran. Namun, bagaimana cara menghitung ragam dari nilai skor sebenarnya ? Yang kita peroleh hanya nilai X, nilai T tidak kita ketahui. Hanya TUHAN yang tahu besarnya nilai T. Dan jika kita tidak bisa memperoleh ragam dari nilai sebenarnya, maka kita tidak bisa mendapatkan rasio dari kedua ragam, ini berarti nilai reliabiltias tidak diperoleh.
we can't compute reliability because we can't calculate the variance of the true scores
Lalu selanjutnya bagaimana? Jika kita tidak bisa menghitung reliabilitas, mudah-mudahan kita bisa menduganya. Mungkin saja kita bisa mendapatkan dugaan bagi ragam nilai sebenarnya. Bagaimana melakukannya? Masih ingat dengan hasil dua kali pengukuran, X1 dan X2? Kita asumsikan bahwa kedua hasil pengamatan saling berkorelasi melalui besarnya nilai sebenarnya. Dan jika kita hitung korelasi antara X1 dan X2, formula yang digunakan adalah:
covariance(X1, X2)
reliabilitas = ----------------------------------------------
sd(X1) * sd(X2)
dengan sd adalah simpangan baku. Jika kita amati lebih teliti persamaan tersebut, adalah nilai yang mengukur kontribusi dari kedua pengukuran. Dengan demikian, pembilang pada persamaan tersebut adalah penduga dari Var(T). Dan karena bagian penyebutnya adalah perkalian dari dua simpangan baku, dan kita menganggap keduanya sama, maka penyebut itu tidak lain adlah Var(X). Dari uraian ini jelas bahwa, korelasi antara pengukuran pertama dan pengukuran kedua merupakan ukuran untuk menduga besarnya reliabilitas.
Kini saatnya membuat beberapa kesimpulan. Sudah dijelaskan bahwa kita tidak mungkin bisa menghitung besarnya reliabilitas karena tidak mampu memperoleh nilai amatan yang sebenarnya. Namun demikian kita bisa menduga besarnya keragaman nilai yang sebenarnya melalui besarnya covariance dari kedua pengukuran. Dengan cara berpikir seperti ini, penduga reliabilitas adalah korelasi antar kedua pengukuran.
Berikutnya kita bahas kisaran besarnya penduga reliabilitas. Untuk itu perhatikan kembali persamaan
Var (T)
Reliabilitas = --------------------------------------
Var (X)
dan ingatlah bahwa X = T + e, sehingga pada bagian penyebut bisa kita lakukan substitusi menjadi
Var (T)
Reliabilitas = --------------------------------------
Var (T) + Var (e)
Dengan sedikit perubahan tersebut, sekarang dengan mudah kita bisa mengetahui kisaran nilai penduga reliabilitas. Jika sebuah pengukuran bersifat terandal sempurna, tidak ada galat (error) pada pengukuran tersebut – semua yang diamati adalah nilai yang sebenarnya, maka persamaan di atas tereduksi menjadi
Var (T)
Reliabilitas = --------------------------------------
Var (T)
dan nilai reliabilitas = 1. Sedangkan untuk pengukuran yang tidak terandal sama sekali, tidak ada unsur nilai sebenarnya – semua yang teramati adalah galat, maka persamaan di atas tereduksi menjadi:
0
Reliabilitas = --------------------------------------
Var (e)
dan nilai reliabilitas = 0. Dari sini kita dapat mengetahui bahwa besarnya nilai reliabilitas berkisar antara 0 dan 1. Nilai reliabilitas memberikan pengertian proporsi keragaman nilai sebenarnya yang bisa diterangkan dari hasil pengukuran. Jika diperoleh nilai reliabilitas 0.5, berarti sekitar setengah keragaman hasil pengukuran disumbang oleh nilai sebenarnya, setengah yang lain oleh galat (error). Nilai reliabilitas sebesar 0.8 berarti bahwa keragaman yang terbentuk, 80% oleh nilai sebnarnya dan 20% oleh galat.
Sekarang kita akan coba menguraikan berbagai cara/jenis menghitung dugaan nilai keterandalan (reliabilitas). Paling tidak ada empat kelompok besar, yaitu:

Inter-Rater or Inter-Observer Reliability
Digunakan untuk menilai seberapa besar para pengukur/penilai/pengamat memberikan hasil yang konsisten pada pengukuran objek yang

Test-Retest Reliability
Digunakan untuk menilai kekonsistenan pengukuran antar waktu yang berbeda

Parallel-Forms Reliability
Digunakan untuk menilai kekonsistenan hasil dari dua jenis alat ukur yang berisi materi yang sama dan mengukur hal yang sama pula.

Internal Consistency ReliabilityDigunakan untuk menilai kekonsistenan internal antar butir pertanyaan yang ada dalam sebuah alat ukur (kuesioner).
Sekarang mari kita diskusikan satu persatu dari keempat macam cara di atas.
Inter-Rater or Inter-Observer Reliability
Kapanpun kita menggunakan manusia sebagai bagian dari proses pengukuran, maka selalu ada kekhawatiran apakah hasilnya itu terandal atau konsisten. Manusia cenderung melakukan ketidakkonsistenan karena mudah terpengaruh. Misalkan saja, kita akan merasa capaek setelah melakukan pekerjaan cukup lama, ktia kadang-kadang memiliki suasana hati yang berbeda-beda, kadangkala juga antar manusia memiliki pemahaman yang berbeda terhadap suatu hal.
Jadi bagaimana menentukan apakah dua pengamat/pengukur yang dilibatkan memiliki kekonsistenan antar mereka? Masalah ini sering kali tidak dimasukkan langsung dalam studi (penelitian yang dilakukan). Namun jika muncul ketidakkonsistenan, kita akhirnya terjebak karena memiliki data yang tidak bisa diandalkan. Yang paling baik adalah melakukan studi pendahuluan untuk memeriksa hal ini. Jika penelitian itu berlangsung dalam jangka yang cukup panjang, perlu juga diperiksa kekonsistenan para pengukur/pengamat dari waktu ke waktu untuk memerikasa ada tidaknya perubahan.
Ada dua cara utama yang bisa digunakan untuk menduga inter-rate reliability. Jika pengukuran yang dilakukan melibatkan pengelompokkan, yaitu petugas pengukur/pengamat melakukan pengelompokkan berdasar apa yang ia lihat, kita bisa menghitung berapa persentase kesepakatan antar petugas. Sebagai contoh, misalkan kita memiliki 100 objek yang diamati dan dinilai/diukur oleh dua orang petugas. Untuk setiap objek amatan, petugas harus menentukan objek tersebut masuk kedalam satu dari tiga kelompok. Misalkan saja habwa ada 86 dari 100 objek yang dikelompokkan pada kelompok yang sama oleh kedua petugas. Pada contoh ini, persentase kesepakatan adalah 86%. Memang, itu adalah dugaan yang kasar, tapi memebrikan petunjuk berapa besar kesepakatan yang terjadi. Dan ini bisa dilakukan tidak tergantung berapa banyak kelompok yang ditentukan.
Cara yang lain untuk menduga besarnya inter-rater reliability adalah jika pengukuran yang dilakukan menghasilkan nilai yang kontinu (numerik). Dalam hal ini, yang harus kita lakukan adalah menghitung korelasi antar rating yang dihasilkan oleh kedua petugas pengukur. Sebagi contoh, mereka mungkin kita minta untuk memberikan penilaian terhadap keaktifan kelas kulaih, dengan memberi nilai antara 1 sampai 7. Kedua pengamat memberikan nilai untuk beberapa kelas. Korelasi antar nilai yang dihasilkan oleh keduanya bisa dijadikan penduga reliabilitas atau konsistensi antar petugas.
Kita juga bisa menganggap bahwa reliabilitas jenis ini sebagai upaya “mengkalibrasi” petugas. Ada hal-hal lain yang bisa diupayakan untuk mengevaluasi keterandalan antar petugas, namun tidak menduga berapa besar nilainya. Misalkan, seseorang perawat yang bekerja di bagian psychiatric setiap pagi harus memeriksa pasien dengan mengajukan 10 butir pertanyaan. Dari pertanyaan tersebut perawat menilai kondisi pasien. Tentu saja kita tidak bisa mengharapkan perawat tersebut ada setiap hari, sehingga kadang kala harus digantikan oleh yang lain. Jelas bahwa harus ada kesepakatan antar perawat. Untuk memeriksanya mungkin diperlukan pertemuan mingguan membahas hasil penilaian, sehinggga jika ada ketidaksepakatan antar perawat bisa diluruskan disana.

Test-Retest Reliability
Kita melakukan pendugaan test-retest reliability jika kita berhadapan dengan pengukuran yang sama (mirip) terhadap objek yang sama dalam dua waktu yang berbeda. Pendekatan ini mengasumsikan bahwa tidak ada perubahan substansial yang terjadi pada obejk yang diukur pada dua waktu yang ditentukan. Jarak antar waktu yang digunakan sangat penting, hal ini karena kita pahami bahwa korelasi antar hasil pengamatan pada waktu yang berbeda dipengaruhi oleh jarak waktu antar pengamatan. Semakin sempit jarak waktunya, semakin tinggi korelasinya; sebaliknya semakin panjang jarak waktu antar pengamatan, semkain kecil korelasinya. Hal ini disebabkan pada pengamatn/pengukuran yang jaraknya sempit, faktor yagn mempengaruhi galat (error) relatif sama. Karena itulah, penduga yang kita peroleh sangat tergantung pada selang waktu antar pengukuran.
Parallel-Forms Reliability
Mengenai jenis ini, pada tahap awal kita harus membuat dua form (alat ukur/kuesioner) sejenis. Salah satu cara untuk memperolehnya adlaah dengan membuat seklompok besar pertanyaanyang mengukur/menilai hal yang sama, dan secara acak membagi menjadi dua kelompok. Selanjutnya, kedua kelompok pertanyaan tersebut kita ajukan kepada responden. Korelasi antara nilai hasil kedua form/kelompok pertanyaan tersebut adalah penduga dari reliabilitas. Masalah utama dari cara ini adalah kita haurs mampu menyusun banyak pertanyaan yang mengukur satu hal. Ini sering kali tidak mudah. Lebih lannjut, pendekatan ini juga membuat asumsi bahwa pembagian secara acak pertanyaan tersebut mampu membuat form yang paralel (sama sifatnya).
Kadang kala, tidak selalu, pendekatan parallel form ini sangat mirip dengan split-half reliability, yang akan didiskusikan berikutnya. Perbedaan utamanya adalah, pada form paralel kedua kelompok pertanyaan disusun sehingga dapat digunakan secara bebas satu sama lain dan mengukur hal yang sama. Sebagai misal, untuk mengevaluasi keberhasil program, kita bisa menggunakan form ayng satu untuk pre-test dan form yang lain untuk post-test. Sedangkan pada split-half, kita hanya membuat satu gugus pertanyaan, satu alat ukur, hanya saja ketika akan menghitung dugaan keterandalan menggunakan proses pembagian secara acak butir-butir tersebut.
Internal Consistency Reliability
Jenis yang selanjutnya adalah menggunakan satu alat ukur yang diajukan kepada sekelompok responden (objek). Pada kasus ini kita ingin mendapatkan penilaian seberapa bagus butir-butir pertanyaan yang terlibat mampu memberikan hasil yang sama. Atau kit amelihat seberapa konsisten hasil dari butir-butir yang berbeda. Ada banyak macam ukuran kekonsistenan yang bisa digunakan.
Average Inter-item Correlation (rataan korelasi antar butir)
Cara ini menggunakan semua bitir pertanyaan yang ada dalam alat ukur (kuesioner) yang didesain untuk mengukur satu hal. Pertama kali kita harus menghitung korelasi setiap pasang butir pertanyaan, seperti diilustrasikan pada gambar. Misalkan saja, jika ada enam butir pertanyaan maka akan ada sebanyak 15 pasang butir pertanyaan, 15 nilai korelasi yang diperoleh. Rata-rata dari korelasi antar butir itulah yang dijadikan penduga reliabilitas. Pada contoh di gamabr diperoelh rata-rata sebesar 0.90 dengan korelasi antar butir berkisar 0.84 hingga 0.95.
Average Item-total Correlation (rataan korelasi antar butir-total)
Pada pendekatan ini yang digunakan adalah korelasi antara butir pertanyaan dengan total skor (sama dengan waktu kita membicarakan validitas). Mula-mula kita hitung total skor dari seluruh pertanyaan, kemudian dicari rata-rata setiab butir dengan total skor. Dari sana baru kita cari rata-ratanya. Ilustrasi pada gambar meberikan contoh kasus ada 6 butir pertanyaan, yang masing-masing korelasi dengan total skor berkisar 0.82 hingga 0.88, dan diperoelh rata-rata 0.85. Nilai inilah yang dijadikan penduga reliabilitas.
Split-Half Reliability (belah dua)
Pada kasus ini kita membagi secara acak butir-butir pertnayaan menjadi dua bagian, namun setiap reaponden menjawab semua butir pertanyaan. Selanjutnya kita mengbitung total skor dari setiap belahan. Korealsi antara total kedua belahan itulah yang dijadikan sebagai penduga reliabilitas. Pda contoh di gambar diperoleh penduga reliabilitas sebesar 0.87.
Cronbach's Alpha ()
Bayangkan kita menghitung koefisien keterandalan (reliabilitas) belah dua, karena belahan dilakukan secara acak maka kita bisa melakukannya kembali berkali-kali dan diperoleh hasil yang berbeda-beda. Secara matematis, Cronbach’s Alpha adalah rata-rata dari semua kemungkinan nilai reliabilitas yagn dihitung dengan cara belah dua.
Dengan menggunakan pendekatan ini kita tidak perlu menghitung semua reliabilitas belash dua, cukup menggunakan formula Cronbach’s Alpha, yaitu:

dengan
k = banyaknya butir pertanyaan
Si2 = ragam skor butir pertanyaan ke-i
ST2 = ragam skor total




























KEPUSTAKAAN

Aswarni Sudjud, Pengarah Penelitian. Makalah khusus disampaikan di depan calon peneliti guru-guru Sekolah Laboratori IKIP Yogyakarta: 1978.

Suharsimi Arikunto, Prof. Dr., Prosedur Penelitian Suatu Pendekatan Praktek, PT Rineka Cipta, Jakarta: 1998.

Sutrisno Hadi, Metodologi Research, Jilid 1, Cetakan IV, Yayasan Penerbit, Fakultas Psikologi UGM, Yogyakarta: 1976
Winarno Surakhmad, Dasar dan Teknik Research, Tarsito, Bandung: 1972

Tidak ada komentar: