Tim Asistensi Penyusunan FSVA kerjasama BKP-WFP
Pendahuluan
Indikator sosial ekonomi yang selama ini disajikan masih belum
menggambarkan pada tingkat agregasi yang rendah karena adanya keterbatasan data
yang tersedia. Small Area Estimation
merupakan salah satu solusi bagi permasalahan tersebut. Small Area Estimation merupakan suatu
metode yang menggunakan modeling dengan basis data survei untuk mengestimasi karakteristik
pada tingkat agregasi yang lebih rendah. Berbagai metode telah dikembangkan
seiring dengan semakin pentingnya Small Area Estimation. Diantaranya
adalah metode direct dan indirect.
Metode indirect adalah metode yang paling sering digunakan karena
kelebihannya dalam menggunakan berbagai sumber informasi tidak terbatas pada
waktu dan cakupan wilayah. Beberapa metode indirect yang pernah
digunakan adalah metode Fay Herriot dan metode Elbers (etal). Pada pilot
project ini akan digunakan metode Elbers (etal) karena sudah menyediakan aplikasi
yang interaktif dan lebih efisien dalam teknisnya. Metode ini menggabungkan dua
kriteria sumber data yang berbeda, data yang diperoleh dari survei dan data
yang diperoleh dari sensus (pencacahan lengkap). Data survei pada umumnya
memiliki keterbatasan dalam jumlah observasi (sampel), sehingga hanya bisa
digunakan untuk estimasi di tingkat
tertentu. Meskipun demikian, data survei
memiliki kelengkapan informasi yang lebih baik.
Misalnya mengenai pengeluaran/pendapatan. Di sisi lain, data sensus memiliki
cakupan observasi yang menyeluruh (semua populasi) tetapi memuat informasi yang
terbatas.
Metode ini memanfaatkan kelebihan dari masing-masing jenis data untuk
mendapatkan estimasi dari ukuran-ukuran indikator dan ketimpangan pada tingkat
yang lebih rendah. Karena kemampuannya
dalam mengestimasi pada tingkat agregasi yang lebih rendah, ukuran-ukuran indikator
yang dihasilkan akan sangat bermanfaat untuk keperluan targeting dari
program-program pemerintah ataupun kebijakan-kebijakan yang berorientasi pada tingkat
wilayah kecil.
Sesuai ketersediaan data, maka untuk pilot project ini digunakan beberapa
jenis data, yaitu: dataset populasi (Podes 2008), dataset survei (Susenas 07-08).
Metode ini mempertimbangkan nilai bias yang signifikan karena adanya sampling
error yang biasanya terjadi pada penghitungan indikator-indikator sosial
yang didasarkan pada model survei. Selain itu, penerapan model agregasi dari
suatu tingkat ke tingkat yang lebih rendah cenderung tidak reliable serta tidak
representatif. Untuk itu perlu
dijalankan proses bootstrap yang dapat secara signifikan memperbaiki
tingkat akurasi estimasi.
Metodologi
Metode ini terdiri dari 2 tahap:
1.
Tahap
pembentukan modeling dan dekomposisi komponen random.
Untuk
bisa mengaplikasikan modeling dengan menggunakan model regresi, maka
variabel-variabel regresor dalam model harus ada di kedua dataset (survei dan populasi).
Pada tahap ini dihasilkan suatu dataset model yang akan digunakan selanjutnya.
2.
Tahap simulasi.
Dalam tahap ini sebagian besar
proses menjalankan bootstrapping dengan menggunakan model yang telah
diestimasi pada tahap pertama dan menjalankan pengambilan berulang komponen
random yang berbeda untuk mem-bootstrap dependent variables.
Program penghitungan dimulai
dengan estimasi fungsi indikator. Dalam pilot project ini indikator sebagai
dependent variable dan berupa proporsi. Indikator berupa proporsi dikarenakan
data populasi hanya menyediakan pada tingkat agregasi (Podes 08). Diasumsikan basic
left hand side variable dan cluster adalah tingkat agregasi pada
tingkat yang sedikit lebih tinggi dan digunakan dalam dataset survei dan dataset
populasi.
Berdasarkan Elbers (etal) dapat
dikembangkan estimasi indikator berupa proporsi/persentase menggunakan model berikut: teori elbers dkk
Seluruh pekerjaan pemetaan
kemiskinan ini akan menggunakan berbagai SOFTWARE diantaranya : STATA , Visual
Foxpro, MS Office. Proses simulasi menggunakan paket program yang pernah
digunakan untuk poverty mapping yaitu Povmap.Exe / PovmapPacker.Exe.
PROSEDUR (Contoh untuk indikator
% penduduk tanpa akses listrik):
Dataset dibedakan atas Urban dan Rural.
1.
Penyiapan Dataset 1 (data modeling):
a.
Melakukan matching pada level rumahtangga data Susenas07-08
kor (variabel individu kepala rt dan variable rt) dan variabel indikator.
b.
Mengenerate
variabel baru (termasuk dummy) dari variabel kor.
c.
Membuat variabel agregasi pada level desa data b
d.
Melakukan
matching dan penggabungan data podes dengan data c, dengan menggunakan identitas
transformasi yang sudah clean. Selanjutnya mengecek hasil
matching!.
e.
Mengenerate
variable baru dari variable podes2000 pada data c.
f.
Mengcollapse atau membuat variable agregat (rata-rata/proporsi)
level kecamatan dari semua variable baru data d.
g.
Melakukan matching dan penggabungan pada level kecamatan
data f dan data d, dengan menggunakan identitas transformasi yang sudah
clean. Selanjutnya mengecek hasil matching!.
2.
Penyiapan Dataset 2 (data simulasi):
a.
Dari data e (data podes) pada penyiapan dataset 1,
dilakukan penggabungan data dengan data agregasi podes level kecamatan menggunakan
ID transformasi. Selanjutnya mengecek hasil matching!.
b.
Mengenerate
variable baru dari variable podes2000 pada data a (sama persis seperti point e
pada penyiapan dataset 1).
c.
Mengcollapse atau membuat variable agregat (rata-rata/proporsi)
level kecamatan dari semua variabel baru data b.
Ingat !: Variabel pada dataset 1
dan dataset 2 harus sama nama dan definisinya, , karena variabel ini
selanjutnya akan digunakan pada proses simulasi.
3.
Modelling pada Dataset 1:
a.
Melakukan t-tes terhadap variabel level desa antara
data survei dan data podes. Selanjutnya variable yang memiliki sebaran yang
sama yang akan digunakan dalam modeling
(variable t-tes).
b.
Melakukan regresi stepwise (ln dependent variable)
terhadap seluruh variable t-tes dari data survei level desa (mean/proporsi).
Menyeleksi variabel yang masuk dalam model beta.
c.
Menghitung rata-rata ln y pada level kecamatan,
selanjutnya melakukan regresi stepwise mean ln y terhadap seluruh variabel
agregat kecamatan. Menyeleksi variable yang masuk dalam model beta.
d.
Melakukan regresi stepwise kembali ln y terhadap
variabel survei yang terseleksi (point b) dengan variable agregat (point c).
Menyeleksi variabel akhir yang masuk dalam model beta.
e.
Menghitung residual dari model d. Menghitung agregat
residual level kecamatan.
f.
Melakukan
regresi ln residual kecamatan terhadap semua variabel independent. Menyeleksi
variable yang memiliki korelasi yang kuat (indikatornya adalah sebaran sisaan
yang terpola), kemudian memasukkan variabel tersebut dalam model alpha
(ditambah variable _Yhat_).
4.
Simulasi Dataset 2:
a.
Menyiapkan
dataset 1 dan dataset 2 dalam format STATA.
b.
Masuk ke Dos
Promt, kemudian posisi di folder yang ada program POVMAPPACKER dan POVMAP.
Program POVMAPPACKER berfungsi menghasilkan file PDA (biasanya dihasilkan oleh
SAS). Untuk menjalankannya ketik, misal:
d:\latihan\povmappacker
model_u.txt
file ikutan yang muncul adalah file
PLI, PRESC, OUT.
model_u.txt adalah text file yang berisi definisi model beta dan alpha. Contoh
file definisi model :
srvdata=dataset1_u.dta
lhs=lny
rhs=hhsize educh1 educh3 educh4
secth1 secth3 pradwk elsch pr_telp
arhs=_Yhat_
Cluster=id2008
sWeight=wert
CenData=dataset2_u.dta
cWeight=hhsize
cKeyVar=id2008
LocErr=YES
DataOut=trial1_u.pda
c.
Melakukan running program POVMAP dengan input PDA file
yang dibaca secara otomatis dari hasil POVMAPPACKER. Untuk menjalankan program
POVMAP ketik:
d:\latihan\povmap konfig_u.pcf –vAB –r -0100
file ikutan yang muncul adalah PLO
sedangkan –vAB –r -0100 adalah option.
Konfig_u.pcf
adalah file konfigurasi untuk menghasilkan output yang diinginkan. Dengan file
konfigurasi ini selanjutnya dapat ditentukan ukuran indikator yang ingin
didapatkan. Contoh file konfigurasi:
DataSource=trial1_u.pda
Outputfile=trial1_u.pou
nSim=100
CDist=N
HDist=N
PovLine=92321
(Cut of Point)
memorysize=200
MinImpute=auto
maximpute=auto
yBound=0.999
abound=none
bbound=.99
cbound=auto
hbound=auto
eBound=0.999
seed=12345678
INDICES=FGT0
FGT1 FGT2 DIST:50
Simulation=0
3 6 8
END
Output dari hasil simulasi adalah
file *.POU yang dapat diakses dengan Excell. Isi
file ini adalah nilai estimasi indikator pada level desa/kelurahan, kecamatan,
kab/kota, dan propinsi. Hasil output juga dilengkapi dengan standard error
hasil simulasi. Perlu digarisbawahi bahwa command Povline adalah command
standard karena awalnya ditujukan untuk menghitung penduduk miskin, tetapi
intinya adalah sebagai cut of point saja. Misalkan untuk % penduduk tanpa akses
listrik, maka cut of-nya adalah kode sumber penerangan <1, dan lain
sebagainya.
Untuk mengecek tingkat akurasi
hasil simulasi khususnya pada level kabupaten/kota (jika dibandingkan dengan
survei), maka dilakukan serangkaian TES DIAGNOSTIC, sebagai
berikut:
- Melakukan Dekomposisi Variabel Model:
Tujuannya
adalah untuk menyelidiki variabel-variabel yang menyebabkan hasil simulasi
memiliki perbedaan yang signifikan dengan data survei. Indikatornya adalah
seberapa besar perbedaan rata-rata indikator antara hasil simulasi dengan
model. Variabel-variabel yang diduga memiliki perbedaan rata-rata antara survei
dan podes tersebut harus dikeluarkan dari model. Untuk menjaga kestabilan
model, khususnya R-Square, maka variabel tersebut harus diganti dengan variabel
lain yang dapat menstabilkan model, sekaligus menstabilkan hasil dekomposisi
antara variabel model dan variable dalam simulasi.
Contoh bentuk dekomposisi variabel yang memuaskan adalah
sbb:
Variabel
|
Survey
|
Census/Podes
|
parameter
|
Survey
|
Census/Podes
|
name
|
Weigted mean
|
Weight mean
|
estimate
|
Weighted
|
Weighted
|
thhsize
|
5.60
|
5.28
|
-0.18225
|
-1.02
|
-0.96
|
educh1
|
0.39
|
0.36
|
-0.12819
|
-0.05
|
-0.05
|
educh3
|
0.31
|
0.33
|
0.09992
|
0.03
|
0.03
|
educh4
|
0.07
|
0.08
|
0.42028
|
0.03
|
0.03
|
secth1
|
0.13
|
0.17
|
-0.17839
|
-0.02
|
-0.03
|
secth3
|
0.35
|
0.39
|
-0.15277
|
-0.05
|
-0.06
|
pradwk
|
0.38
|
0.37
|
0.33449
|
0.13
|
0.12
|
pr_telp
|
0.16
|
0.11
|
0.71980
|
0.11
|
0.08
|
prsckid
|
0.26
|
0.25
|
0.17210
|
0.04
|
0.04
|
vmarried
|
0.83
|
0.84
|
1.71149
|
1.43
|
1.44
|
vwork
|
0.90
|
0.90
|
-1.70144
|
-1.53
|
-1.54
|
thhsize2
|
35.78
|
31.77
|
0.00805
|
0.29
|
0.26
|
constant
|
|
|
12.49686
|
12.49686
|
12.49686
|
|
|
|
|
|
|
|
|
|
|
11.88
|
11.87
|
- Mengecek Heterosedasticity:
Tujuannya
adalah untuk mereduksi efek dari error rumahtangga. Dikarenakan OLS (Ordinary Least Square)
memiliki asumsi varians dari error-term adalah konstan, maka perlu
diperhatikan dalam menyeleksi variabel yang akan masuk dalam alpha model adalah
variabel yang benar-benar memiliki pengaruh yang nyata terhadap residual pada
tingkat desa/kel yaitu variabel yang memiliki korelasi yang positif terhadap error-term
tersebut.
- Mengecek Pola Sebaran Hasil Simulasi:
Tujuannya
untuk melihat akurasi dari sebaran distribusi estimasi indikator hasil simulasi
dan hasil survei. Idealnya kedua sebaran tersebut sama, sehingga dapat diambil
kesimpulan bahwa ditingkat kabupaten/kota estimasi indikator mencerminkan
keadaan yang sama. Besarnya perbedaan yang terjadi disebabkan karena masih
tidak samanya pola distribusi tersebut.
- Mereduksi Standard Error :
Tujuannya untuk dapat menghasilkan tingkat
akurasi estimasi yang tinggi, dikarenakan dalam metode ini disajikan sampai
level terkecil (kecamatan/desa/kelurahan). Untuk memberikan gambaran secara
umum pada level propinsi/kabupaten, maka standard error hasil simulasi
dibandingkan dengan standard error hasil survei. Penghitungan standard
error data survei menggunakan “Normal Approximation”. Metode ini
mendekati sama jika menggunakan Bootstrap. Jika hasilnya memuaskan, maka pada level ini sudah dapat diterima. Untuk
mereduksi standard error pada level terkecil, maka perlu penambahan
variabel-variabel lokasi. Variabel-variabel lokasi tersebut harus diteliti
sehingga dapat menjelaskan efek dari residual pada level desa/kelurahan. Perlu
diingat bahwa penambahan variable akan meningkatkan akurasi dari model, akan
tetapi perlu dicermati bahwa kita harus memperhatikan variasi dari setiap
variabel tersebut.
Aplikasi
Metode prop NTB & NTT :
Indikator
|
No
|
Nama Variabel dari kuesioner
|
Sumber data
|
% penduduk tanpa akses thdp listrik
% rt tanpa akses ke air bersih
% perempuan buta huruf (5 th ke atas)
|
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
1.
2.
3.
4.
5.
6.
7.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
|
Hubungan dengan KRT
Tingkat pendidikan KRT
Lapangan pekerjaan KRT
Sumber penerangan
Status penguasaan bangunan tempat tinggal
Jenis atap terluas
Jenis dinding terluas
Fasilitas tempat buang air besar
Jml Kepala Keluarga pengguna listrik
Ketinggian dari permukaan laut
Wilayah desa berada dlm/sekitar/luar hutan
Jml pasar permanent/tidak permanen
Jml minimarket/restoran/toko,dll
Jml RT yg menggunakan telepon
Sumber air minum (air bersih = air kemasan/ air isi ulang/leding
meteran/leding eceran/ sumur bor,pompa/sumur terlindung)
Sumber penerangan
Status penguasaan bangunan tempat tinggal
Fasilitas tempat buang air besar
Jml Kepala Keluarga pengguna listrik
Ketinggian dari permukaan laut
Wilayah desa berada dlm/sekitar/luar hutan
Umur
Dapat membaca dan menulis
Hubungan dengan KRT
Tingkat pendidikan KRT
Lapangan pekerjaan KRT
Sumber penerangan
Status penguasaan bangunan tempat tinggal
Jenis atap terluas
Jenis dinding terluas
Fasilitas tempat buang air besar
Jml Kepala Keluarga pengguna listrik
Ketinggian dari permukaan laut
|
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Podes 08
Podes 08
Podes 08
Podes 08
Podes 08
Podes 08
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Podes 08
Podes 08
Podes 08
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Podes 08
Podes 08
|