Sabtu, 11 April 2009

MODEL SMALL AREA ESTIMATION (Petunjuk Teknis)

Tim Asistensi Penyusunan FSVA kerjasama BKP-WFP

 

Pendahuluan


Indikator sosial ekonomi yang selama ini disajikan masih belum menggambarkan pada tingkat agregasi yang rendah karena adanya keterbatasan data yang tersedia.  Small Area Estimation merupakan salah satu solusi bagi permasalahan tersebut.  Small Area Estimation merupakan suatu metode yang menggunakan modeling dengan basis data survei untuk mengestimasi karakteristik pada tingkat agregasi yang lebih rendah. Berbagai metode telah dikembangkan seiring dengan semakin pentingnya Small Area Estimation. Diantaranya adalah metode direct dan indirect.  
Metode indirect adalah metode yang paling sering digunakan karena kelebihannya dalam menggunakan berbagai sumber informasi tidak terbatas pada waktu dan cakupan wilayah. Beberapa metode indirect yang pernah digunakan adalah metode Fay Herriot dan metode Elbers (etal). Pada pilot project ini akan digunakan metode Elbers (etal) karena sudah menyediakan aplikasi yang interaktif dan lebih efisien dalam teknisnya. Metode ini menggabungkan dua kriteria sumber data yang berbeda, data yang diperoleh dari survei dan data yang diperoleh dari sensus (pencacahan lengkap). Data survei pada umumnya memiliki keterbatasan dalam jumlah observasi (sampel), sehingga hanya bisa digunakan  untuk estimasi di tingkat tertentu.  Meskipun demikian, data survei memiliki kelengkapan informasi yang lebih baik.  Misalnya mengenai pengeluaran/pendapatan. Di sisi lain, data sensus memiliki cakupan observasi yang menyeluruh (semua populasi) tetapi memuat informasi yang terbatas.
Metode ini memanfaatkan kelebihan dari masing-masing jenis data untuk mendapatkan estimasi dari ukuran-ukuran indikator dan ketimpangan pada tingkat yang lebih rendah.  Karena kemampuannya dalam mengestimasi pada tingkat agregasi yang lebih rendah, ukuran-ukuran indikator yang dihasilkan akan sangat bermanfaat untuk keperluan targeting dari program-program pemerintah ataupun kebijakan-kebijakan yang berorientasi pada tingkat wilayah kecil.
Sesuai ketersediaan data, maka untuk pilot project ini digunakan beberapa jenis data, yaitu: dataset populasi (Podes 2008), dataset survei (Susenas 07-08). Metode ini mempertimbangkan nilai bias yang signifikan karena adanya sampling error yang biasanya terjadi pada penghitungan indikator-indikator sosial yang didasarkan pada model survei. Selain itu, penerapan model agregasi dari suatu tingkat ke tingkat yang lebih rendah cenderung tidak reliable serta tidak representatif.  Untuk itu perlu dijalankan proses bootstrap yang dapat secara signifikan memperbaiki tingkat akurasi estimasi.

Metodologi
Metode ini terdiri dari 2 tahap:
1.      Tahap pembentukan modeling dan dekomposisi komponen random.
Untuk bisa mengaplikasikan modeling dengan menggunakan model regresi, maka variabel-variabel regresor dalam model harus ada di kedua dataset (survei dan populasi). Pada tahap ini dihasilkan suatu dataset model yang akan digunakan selanjutnya.
2.      Tahap simulasi.
Dalam tahap ini sebagian besar proses menjalankan bootstrapping dengan menggunakan model yang telah diestimasi pada tahap pertama dan menjalankan pengambilan berulang komponen random yang berbeda untuk mem-bootstrap dependent variables.

Program penghitungan dimulai dengan estimasi fungsi indikator. Dalam pilot project ini indikator sebagai dependent variable dan berupa proporsi. Indikator berupa proporsi dikarenakan data populasi hanya menyediakan pada tingkat agregasi (Podes 08). Diasumsikan basic left hand side variable dan cluster adalah tingkat agregasi pada tingkat yang sedikit lebih tinggi dan digunakan dalam dataset survei dan dataset populasi.

Berdasarkan Elbers (etal) dapat dikembangkan estimasi indikator berupa proporsi/persentase  menggunakan model berikut:    teori elbers dkk

Seluruh pekerjaan pemetaan kemiskinan ini akan menggunakan berbagai SOFTWARE diantaranya : STATA , Visual Foxpro, MS Office. Proses simulasi menggunakan paket program yang pernah digunakan untuk poverty mapping yaitu Povmap.Exe / PovmapPacker.Exe.

PROSEDUR (Contoh untuk indikator % penduduk tanpa akses listrik):

Dataset dibedakan atas Urban dan Rural.

1.      Penyiapan Dataset 1 (data modeling):
a.       Melakukan matching pada level rumahtangga data Susenas07-08 kor (variabel individu kepala rt dan variable rt) dan variabel indikator.
b.      Mengenerate variabel baru (termasuk dummy) dari variabel kor.
c.       Membuat variabel agregasi pada level desa data b
d.      Melakukan matching dan penggabungan data podes dengan data c, dengan menggunakan identitas transformasi yang sudah clean. Selanjutnya mengecek hasil matching!.
e.       Mengenerate variable baru dari variable podes2000 pada data c.
f.       Mengcollapse atau membuat variable agregat (rata-rata/proporsi) level kecamatan dari semua variable baru data d.
g.       Melakukan matching dan penggabungan pada level kecamatan data f dan data d, dengan menggunakan identitas transformasi yang sudah clean. Selanjutnya mengecek hasil matching!.

2.      Penyiapan Dataset 2 (data simulasi):
a.       Dari data e (data podes) pada penyiapan dataset 1, dilakukan penggabungan data dengan data agregasi podes level kecamatan menggunakan ID transformasi. Selanjutnya mengecek hasil matching!.
b.      Mengenerate variable baru dari variable podes2000 pada data a (sama persis seperti point e pada penyiapan dataset 1).
c.       Mengcollapse atau membuat variable agregat (rata-rata/proporsi) level kecamatan dari semua variabel baru data b.

Ingat !: Variabel pada dataset 1 dan dataset 2 harus sama nama dan definisinya, , karena variabel ini selanjutnya akan digunakan pada proses simulasi.

3.      Modelling pada Dataset 1:
a.       Melakukan t-tes terhadap variabel level desa antara data survei dan data podes. Selanjutnya variable yang memiliki sebaran yang sama  yang akan digunakan dalam modeling (variable t-tes).
b.      Melakukan regresi stepwise (ln dependent variable) terhadap seluruh variable t-tes dari data survei level desa (mean/proporsi). Menyeleksi variabel yang masuk dalam model beta.
c.       Menghitung rata-rata ln y pada level kecamatan, selanjutnya melakukan regresi stepwise mean ln y terhadap seluruh variabel agregat kecamatan. Menyeleksi variable yang masuk dalam model beta.
d.      Melakukan regresi stepwise kembali ln y terhadap variabel survei yang terseleksi (point b) dengan variable agregat (point c). Menyeleksi variabel akhir yang masuk dalam model beta.
e.       Menghitung residual dari model d. Menghitung agregat residual level kecamatan.
f.       Melakukan regresi ln residual kecamatan terhadap semua variabel independent. Menyeleksi variable yang memiliki korelasi yang kuat (indikatornya adalah sebaran sisaan yang terpola), kemudian memasukkan variabel tersebut dalam model alpha (ditambah variable _Yhat_). 

4.      Simulasi Dataset 2:
a.       Menyiapkan dataset 1 dan dataset 2 dalam format STATA.
b.      Masuk ke Dos Promt, kemudian posisi di folder yang ada program POVMAPPACKER dan POVMAP. Program POVMAPPACKER berfungsi menghasilkan file PDA (biasanya dihasilkan oleh SAS). Untuk menjalankannya ketik, misal:
d:\latihan\povmappacker model_u.txt
file ikutan yang muncul adalah file PLI, PRESC, OUT.
model_u.txt adalah text file yang berisi definisi model beta dan alpha. Contoh file definisi model :
srvdata=dataset1_u.dta
lhs=lny
rhs=hhsize educh1 educh3 educh4 secth1 secth3 pradwk elsch pr_telp
arhs=_Yhat_
Cluster=id2008
sWeight=wert
CenData=dataset2_u.dta
cWeight=hhsize
cKeyVar=id2008
LocErr=YES
DataOut=trial1_u.pda
                                   
c.       Melakukan running program POVMAP dengan input PDA file yang dibaca secara otomatis dari hasil POVMAPPACKER. Untuk menjalankan program POVMAP ketik:
d:\latihan\povmap konfig_u.pcf –vAB –r -0100
file ikutan yang muncul adalah PLO sedangkan –vAB –r -0100 adalah option.
Konfig_u.pcf adalah file konfigurasi untuk menghasilkan output yang diinginkan. Dengan file konfigurasi ini selanjutnya dapat ditentukan ukuran indikator yang ingin didapatkan. Contoh file konfigurasi:
DataSource=trial1_u.pda
Outputfile=trial1_u.pou
nSim=100
CDist=N
HDist=N
PovLine=92321 (Cut of Point)
memorysize=200
MinImpute=auto
maximpute=auto
yBound=0.999
abound=none
bbound=.99
cbound=auto
hbound=auto
eBound=0.999
seed=12345678
INDICES=FGT0 FGT1 FGT2 DIST:50
Simulation=0 3 6 8
END   

Output dari hasil simulasi adalah file *.POU yang dapat diakses dengan Excell. Isi file ini adalah nilai estimasi indikator pada level desa/kelurahan, kecamatan, kab/kota, dan propinsi. Hasil output juga dilengkapi dengan standard error hasil simulasi. Perlu digarisbawahi bahwa command Povline adalah command standard karena awalnya ditujukan untuk menghitung penduduk miskin, tetapi intinya adalah sebagai cut of point saja. Misalkan untuk % penduduk tanpa akses listrik, maka cut of-nya adalah kode sumber penerangan <1, dan lain sebagainya.

Untuk mengecek tingkat akurasi hasil simulasi khususnya pada level kabupaten/kota (jika dibandingkan dengan survei), maka dilakukan serangkaian TES DIAGNOSTIC, sebagai berikut: 

  1. Melakukan Dekomposisi Variabel Model:
Tujuannya adalah untuk menyelidiki variabel-variabel yang menyebabkan hasil simulasi memiliki perbedaan yang signifikan dengan data survei. Indikatornya adalah seberapa besar perbedaan rata-rata indikator antara hasil simulasi dengan model. Variabel-variabel yang diduga memiliki perbedaan rata-rata antara survei dan podes tersebut harus dikeluarkan dari model. Untuk menjaga kestabilan model, khususnya R-Square, maka variabel tersebut harus diganti dengan variabel lain yang dapat menstabilkan model, sekaligus menstabilkan hasil dekomposisi antara variabel model dan variable dalam simulasi.
Contoh bentuk dekomposisi variabel yang memuaskan adalah sbb:

Variabel
Survey
Census/Podes
parameter
Survey
Census/Podes
name
Weigted mean
Weight mean
estimate
Weighted
Weighted
thhsize
5.60
5.28
-0.18225
-1.02
-0.96
educh1
0.39
0.36
-0.12819
-0.05
-0.05
educh3
0.31
0.33
0.09992
0.03
0.03
educh4
0.07
0.08
0.42028
0.03
0.03
secth1
0.13
0.17
-0.17839
-0.02
-0.03
secth3
0.35
0.39
-0.15277
-0.05
-0.06
pradwk
0.38
0.37
0.33449
0.13
0.12
pr_telp
0.16
0.11
0.71980
0.11
0.08
prsckid
0.26
0.25
0.17210
0.04
0.04
vmarried
0.83
0.84
1.71149
1.43
1.44
vwork
0.90
0.90
-1.70144
-1.53
-1.54
thhsize2
35.78
31.77
0.00805
0.29
0.26
constant


12.49686
12.49686
12.49686










11.88
11.87


  1. Mengecek Heterosedasticity:
Tujuannya adalah untuk mereduksi efek dari error rumahtangga. Dikarenakan OLS (Ordinary Least Square) memiliki asumsi varians dari error-term adalah konstan, maka perlu diperhatikan dalam menyeleksi variabel yang akan masuk dalam alpha model adalah variabel yang benar-benar memiliki pengaruh yang nyata terhadap residual pada tingkat desa/kel yaitu variabel yang memiliki korelasi yang positif terhadap error-term tersebut.

  1. Mengecek Pola Sebaran Hasil Simulasi:
Tujuannya untuk melihat akurasi dari sebaran distribusi estimasi indikator hasil simulasi dan hasil survei. Idealnya kedua sebaran tersebut sama, sehingga dapat diambil kesimpulan bahwa ditingkat kabupaten/kota estimasi indikator mencerminkan keadaan yang sama. Besarnya perbedaan yang terjadi disebabkan karena masih tidak samanya pola distribusi tersebut.

  1. Mereduksi Standard Error :
Tujuannya untuk dapat menghasilkan tingkat akurasi estimasi yang tinggi, dikarenakan dalam metode ini disajikan sampai level terkecil (kecamatan/desa/kelurahan). Untuk memberikan gambaran secara umum pada level propinsi/kabupaten, maka standard error hasil simulasi dibandingkan dengan standard error hasil survei. Penghitungan standard error data survei menggunakan “Normal Approximation”. Metode ini mendekati sama jika menggunakan Bootstrap. Jika hasilnya memuaskan, maka pada level ini sudah dapat diterima. Untuk mereduksi standard error pada level terkecil, maka perlu penambahan variabel-variabel lokasi. Variabel-variabel lokasi tersebut harus diteliti sehingga dapat menjelaskan efek dari residual pada level desa/kelurahan. Perlu diingat bahwa penambahan variable akan meningkatkan akurasi dari model, akan tetapi perlu dicermati bahwa kita harus memperhatikan variasi dari setiap variabel tersebut.

Aplikasi Metode prop NTB & NTT :

Indikator
No
Nama Variabel dari kuesioner
Sumber data
% penduduk tanpa akses thdp listrik












% rt tanpa akses ke air bersih







% perempuan buta huruf (5 th ke atas)


1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.

1.


2.
3.
4.
5.
6.
7.

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
Hubungan dengan KRT
Tingkat pendidikan KRT
Lapangan pekerjaan KRT
Sumber penerangan
Status penguasaan bangunan tempat tinggal
Jenis atap terluas
Jenis dinding terluas
Fasilitas tempat buang air besar
Jml Kepala Keluarga pengguna listrik
Ketinggian dari permukaan laut
Wilayah desa berada dlm/sekitar/luar hutan
Jml pasar permanent/tidak permanen
Jml minimarket/restoran/toko,dll
Jml RT yg menggunakan telepon

Sumber air minum (air bersih = air kemasan/ air isi ulang/leding meteran/leding eceran/ sumur bor,pompa/sumur terlindung)
Sumber penerangan
Status penguasaan bangunan tempat tinggal
Fasilitas tempat buang air besar
Jml Kepala Keluarga pengguna listrik
Ketinggian dari permukaan laut
Wilayah desa berada dlm/sekitar/luar hutan

Umur
Dapat membaca dan menulis
Hubungan dengan KRT
Tingkat pendidikan KRT
Lapangan pekerjaan KRT
Sumber penerangan
Status penguasaan bangunan tempat tinggal
Jenis atap terluas
Jenis dinding terluas
Fasilitas tempat buang air besar
Jml Kepala Keluarga pengguna listrik
Ketinggian dari permukaan laut

Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Podes 08
Podes 08
Podes 08
Podes 08
Podes 08
Podes 08

Susenas Kor 07,08,09 Juli


Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Podes 08
Podes 08
Podes 08

Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Susenas Kor 07,08,09 Juli
Podes 08
Podes 08