Data ganda/duplikat dan KTP-el ganda adalah dua hal yang berbeda

Sore ini, seorang sahabat menanyakan ke saya mengenai berita di https://www.jpnn.com/news/ada-sebanyak-45304-duplikat-e-ktp-di-bekasi

Berita tersebut belum jelas bagi saya, apakah yang dimaksud “duplikat” itu maksudnya terjadi pada saat proses pemadanan berlangsung, sehingga diketahui ada upaya org membuat KTP-el lebih dari satu, dan sempat dicegah oleh sistem. Ataukah duplikasi terjadi, dan sistem tidak mengetahuinya, sehingga terlanjur dierbitkan dua KTP-el bagi orang yang sama.

Pemahaman saya, perlu dibedakan antara data ganda dan KTP-el ganda. KTP-el ganda terjadi karena  sistem deduplikasi tidak bekerja dengan baik sehingga seseorang yang merekam data biometrik lebih dari satu kali,  tidak tertangkap oleh sistem (baca penjelasan di bawah). Sedangkan data ganda/duplikat terjadi ketika sistem bekerja dengan baik dan berhasil mendeteksi fraud ketika penduduk berupaya merekam lebih dari 2 kali. Dua kata tersebut sepertinya sering dianggap bermakna sama, padahal secara teknis bertolak belakang.

Untuk memahami apa yang terjadi, perlu analisis yang lebih dalam, agar bisa mengetahui penyebabnya. Tetapi saya coba tuliskan penjelasan umum dari sisi teknologi biometrik, mengenai dua tipe error yang mungkin terjadi sebagai karakteristik yang melekat pada proses pemadanan biometrik.

Ada 2 error yg mungkin terjadi pada proses deduplikasi yaitu tipe I dan tipe II.  Tipe I terjadi ketika dua orang yang berbeda, data biometrik-nya dinyatakan match, karena memiliki tingkat similarity yang tinggi. Ketika A melakukan perekaman, datanya dinyatakan match dengan data penduduk B (org yang berbeda) & sudah pernah merekam. Matching scorenya lebih tinggi dari threshold. akibatnya A dinyatakan pernah merekam dan baginya tidak diterbitkan KTP-el. Ini disebut dalam statistika sbg error tipe I atau false match. Penduduk A akan protes, karena dia tidak pernah merekam sebelumnya. Dalam hal tsb petugas akan memakai ajudikator untuk memastikan apakah A dan B orang yang sama atau berbeda. Yaitu dg mencocokkan data kedua penduduk scr manual.

Tipe error kedua terjadi ketika orang yang sama, sebut saja C, sebelumnya pernah melakukan perekaman biometrik KTP-el dan dinyatakan tunggal. Kemudian dia melakukan perekaman ulang, dan sistem deduplikasi ketika mencocokkan data pada perekaman kedua tersebut dengan jutaan records yang telah merekam, ternyata tidak ada satu pun yang nilai matching scorenya melebihi threshold pemadanan. Bahkan ketika dicocokkan dengan data C sendiri yang sebenarnya sudah tersimpan di database, ternyata tidak cukup tinggi nilai similarity nya, sehingga pada perekaman kedua tersebut data C (perekaman kedua) dinyatakan unik. Kepada si C akan diterbitkan KTP-el, sehingga C memiliki lebih dari satu identitas sah. Tipe error seperti ini dalam statistika disebut error tipe II, atau false non match. berbeda dengan error tipe I, error tipe II ini tidak akan ketahuan selama tidak ada pelaporan dari ybs. Ilustrasi kasus ini dapat dilihat pada Gambar berikut

Rangkuman proses pemadanan dan kemungkinan yang muncul dapat dilihat pada gambar berikut:

Screen Shot 2018-03-30 at 11.10.23

Jumlah data ganda (ingat : bukan KTP-el ganda !) menurut kemendagri ada 2 juta [3]. Pada gambar di atas, angka ini mengacu pada hasil “True Match”, yang menunjukkan keberhasilan sistem dalam menangkal upaya pembuatan identitas ganda.

Ilustrasi besarnya peluang kedua tipe error dapat dilihat pada Gambar berikut.

Screen Shot 2018-04-11 at 08.10.44

Error dalam proses deduplikasi : area merah + area biru dalam relasi tradeoff. Apabila yang satu diperkecil, yang lain akan menjadi lebih besar. Mengkontrolnya melalui threshold, menyesuaikan resiko yang harus ditanggung oleh sistem (error cost). Pemahaman awam bahwa teknologi biometrik itu error free, maksudnya antara kedua distribusi tersebut terpisah, tidak ada overlapping area nya.

Apakah kedua error itu benar dan mungkin terjadi ?

Ada ! Contoh error tipe I adalah kasus Brandon Mayfield, seorang lawyer Oregon yang ditangkap oleh FBI dan dituduh sbg pelaku pengeboman kereta di Madrid pada 11 Maret 2014. Terry Green, ahli sidik jari FBI menemukan kesamaan lebih dari 15 titik sidik jari Mayfield dengan sidik jari laten yang tertinggal di tas detonator. Sindicato Nacional de Policía (SNP, yang artinya Kepolisian Nasional Spanyol) tidak setuju dengan analisis FBI dan belakangan disimpulkan bahwa pemillik sidik jari di TKP adalah Ouhnane Daoud. Brandon Mayfield akhirnya bebas dari tuduhan menyeramkan tsb. Simon A. Cole menuliskan laporan di journal of criminal law & criminology : “More than zero : accounting for error in latent fingerprint identification”, vol.95, no.3, pp.985-1078 (2005). Dilaporkan pada tulisan tsb kompilasi 22 kasus misidentifikasi sidik jari sebagaimana yang dialami Mayfield

Contoh tipe II error misalnya ketika pelaku kriminal berusaha merusak jarinya agar tidak terdeteksi ketika melakukan kejahatan. Misalnya seorg gangster, teman Al Capone, yaitu Gus Winkler, mengubah pattern sidik jarinya dari twin loop menjadi left loop. John Dillinger mengaburkan bagian pusat sidik jarinya dengan memakai cairan asam agar polanya rusak. Contoh lain adalah operasi plastik dan pemakain Hormon Replace Therapy pada kasus transgender akan membuat wajah seseorg berubah sehingga tidak dikenali sistem.

Bagaimana kaitannya dengan multimodal biometrics ?

Penjelasan mengenai error tipe I dan II di atas memakai asumsi bahwa proses deduplikasi dilakukan dengan single modality (1 sidik jari). Pada program KTP-el, selain 10 sidik jari, juga dilakukan perekaman 2 iris mata dan wajah. Tentunya akan lebih meningkatkan kinerja sistem (error lebih rendah) dibandingkan kalau memakai single modality.

Misalnya sebagaimana hasil pengukuran kinerja identifikasi multimodal biometrik pada UID. Sumbu vertikal merepresentasikan FNIR (sama dengan FNMR) sedangkan sumbu mendatar memperlihatkan log FPIR (sama dengan FMR). Grafik tersebut memperlihatkan bahwa 2 iris mata lebih unggul dibandingkan 10 jari yang terlihat dari garis putus-putus (iris mata) yang lebih rendah daripada garis putus titik (10 jari).  Akan tetapi gabungan keduanya paling unggul, yang terlihat dari garis solid yang merapat ke sumbu horizontal  [2].

Screen Shot 2018-03-30 at 08.05.04

Image source :   Introduction to Biometrics, Anil K. Jain, Arun A. Ross, Karthik Nandakumar, Springer, 2011, page 221.

Apakah penyebab kedua error tersebut ? Mengapa bisa demikian ?

Penyebab error tipe I dan II tidak selalu berasal dari biometric trait (jari, iris mata, wajah dsb) ybs. Tetapi bisa juga berasal dari sensor, perilaku ketika dipindai, environment yg mungkin kotor, basah, bisa juga berasal dari malpraktek operator yang tidak memenuhi SOP, maupun faktor software biometrik itu sendiri (akurasinya tidak baik, atau operating threshold terlalu tinggi atau terlalu rendah). Fish-bone diagram berikut saya buat untuk menjelaskan titik-titik yang harus dianalisis ketika terjadi biometrics failure.

Ketika terjadi salah satu dari dua error tsb. maka analisis mendalam diperlukan untuk menentukan sumber terjadinya. Tidak selalu sistem yang salah dan sebaliknya. Jangan sampai terjadi : kesalahan pada operasional (SOP dilanggar) dipakai untuk menyimpulkan bahwa sistemnya lah yang salah, desainnya yang salah. Sama saja dengan kamar yang aksesnya diamankan dengan password yang sulit, tapi bisa ditembus karena passwordnya dibocorkan. Bukan salah teknologinya tapi salah orangnya.

Biometrics, spam filter, OCR, Google translation, SIRI dan berbagai teknologi lain adalah berbasis proses statistika. Tidak bisa peluang error tipe I dan error tipe II dibuat menjadi nol semua. Seperti biometrik, misalnya, ketika threshold dibuat infinite maka semua proses otentikasi tertolak (error tipe I : 0% error tipe II : 100%). Sebaliknya ketika error dibuat sangat rendah, misalnya minus infinite, maka semua akan lolos. Tidak ada yg direject tetapi maling pun bisa lenggang kangkung masuk dan bersiul siul. error tipe I menjadi 100% sedangkan error tipe II menjadi 0%. kedua tipe error tsb berelasi trade off.

Untuk mendapatkan hasil optimal, antara lain dilakukan hal-hal sbb. :

  1. Pilih software yang baik kinerjanya
  2. Pilih operational threshold yang optimal sesuai dengan karakteristik aplikasi yang diinginkan, dan biasanya operational threshold ini disesuaikan mengikuti skala data di gallery
  3. Kawal prosesnya dengan pemilihan operator yang baik dan dipercaya, diberikan pelatihan dan sosialisasi atau kalau mungkin sertifikasi
  4. Kawal proses dengan SOP yang baik.

Teknologi, Proses dan People tidak bisa dipisahkan agar implementasi IT di dunia nyata dapat berhasil dg baik.

PS : ulasan di atas mengasumsikan software biometrics memakai similarity sbg proximity metrics. Data yg mirip karakteristiknya akan menghasilkan score yang nilainya besar. Hal ini perlu ditulis sbg asumsi awal, karena ada juga software biometrics yang memakai dissimilarity sbg proximity metrics, yaitu dua data yang mirip/sama akan menghasilkan nilai pemadanan yang rendah. Pemakaian hamming distance pada iris recognition misalnya adalah contoh pemakaian dissmilarity metrics.

Referensi dan Link ke artikel terkait :

  1. Simon A. Cole, More than Zero: Accounting for Error in Latent Fingerprint Identification, 95 J. Crim. L. & Criminology 985. ( 2004-2005) Artikel dapat didownload dari https://pdfs.semanticscholar.org/e445/d4e23e616fc06871ea433455cc4d067eab35.pdf
  2. Introduction to Biometrics, Anil K. Jain, Arun A. Ross, Karthik Nandakumar, Springer, 2011, page 221
  3. https://news.okezone.com/read/2018/03/10/337/1870691/kemendagri-sebut-ada-2-juta-penduduk-datanya-ganda
  4. https://asnugroho.wordpress.com/2017/12/05/menghindari-salah-kaprah-pemahaman-teknologi-ktp-el/
  5. https://www.bppt.go.id/teknologi-informasi-energi-dan-material/3028-ktp-elektronik-ktp-el-dtinjau-dari-aspek-teknologi
  6. https://asnugroho.wordpress.com/2017/02/10/perlunya-memahami-error-tipe-ii-seandainya-ktp-el-reader-dipakai-di-pilkada/
  7. https://asnugroho.wordpress.com/2013/10/01/memahami-false-match-false-non-match/
  8. https://asnugroho.wordpress.com/2016/01/26/dua-jenis-error-pada-mesin-presensi/
Iklan
Dipublikasi di research | Meninggalkan komentar

Pemahaman karakteristik aplikasi menentukan formulasi masalah yang tepat

Untuk penelitian yang sifatnya applied, perlu mendefinisikan karakteristik aplikasinya. Misalnya kalau di biometrik ada beberapa parameter yang menentukan karakteristik aplikasi. Yaitu cooperative vs non-cooperative, overt vs covert deployment, dan berbagai parameter lain. Karena karakteristik ini akan menentukan tantangan yang diperoleh, research problem, metode yang dipilih dan cara pengukuran kinerjanya.

Dalam pengenalan wajah, misalnya. Aplikasi yang sifatnya overt deployment (object sadar kalau datanya diambil), biasanya bersifat kooperatif. Contohnya, perekaman data KTP-el, user akan diminta bekerjasama, sehingga hasilnya akan relatif baik dan mengacu standar tertentu. Wajah tegak lurus, iluminasi bagus, wajah terlihat semua area, tidak memakai kacamata dsb. Akan tetapi untuk aplikasi yang sifatnya covert deployment (object tidak sadar kalau dilakukan akuisisi) seperti surveillance, sulit diharapkan data wajah dalam kondisi ideal. Biasanya non-cooperative. Intra-class variance akan banyak timbul misalnya karena pose yang mungkin tidak lurus ke depan, iluminasi tidak merata, oklusi. Tantangan pada penelitian ini sangat berbeda dengan yang pertama, walaupun sama-sama bertujuan membangun face recognition system. Karena tantangannya berbeda, formulasi masalahnya akan berbeda, metode yang dipakai sebagai solusi mungkin saja berbeda, karena menyesuaikan dengan masalah yang akan diselesaikan.

Pengenalan sidik jari, biasanya overt karena user menyadari bahwa sidik jarinya akan dikenali oleh sistem. Tetapi pengenalan sidik jari bisa juga bersifat covert, yaitu saat diaplikasikan untuk keperluan forensik, seperti identifikasi pelaku kriminal dari sidik jari laten, yang tertinggal di TKP. Tantangan kedua aplikasi tersebut berbeda. Yang pertama biasanya sidik jarinya berkualitas bagus, bisa memanfaatkan informasi minutiae. Tetapi untuk sidik jari laten, biasanya kualitas citranya tidak bagus. Perlu teknik yang berbeda dan lebih kompleks untuk mengenali pattern yang berkualitas rendah.

Penelitian yang sifatnya aplikatif, jika tidak memperhatikan karakteristik aplikasi, dikhawatirkan tidak akan pernah terpakai karena research problem yang dipilih tidak sesuai dengan masalah yang muncul di lapangan.

Dipublikasi di research | Meninggalkan komentar

Catatan Keuangan Rumah Tangga

Mumpung masih awal tahun, saya merapikan catatan kas rumah tangga. Kebiasaan ini saya kerjakan sejak menikah tahun 2000. Saat itu saya baru tahu, istri saya punya kebiasaan mencatat pengeluaran di buku kas. Saya kemudian ikut-ikutan belajar, membantu mencatat di buku yang sama. Kalau di Jepang, pencatatan relatif lebih mudah. Karena setiap belanja, di pasar sekalipun, kami selalu menerima struk belanja (reshiito). Sehingga walaupun sudah berhari-hari, selama struk itu tersimpan di dompet, mudah untuk melakukan pencatatan. Setahun kemudian, ketika istri saya opname selama 2 bulan karena kasus anak pertama kami yang masih dalam kandungan, proses pencatatan saya ambil alih dan berlanjut sampai sekarang. Tetapi karena mencatat manual itu memerlukan bantuan kalkulator untuk menghitung total belanja, saldo, akhirnya per 12 November 2001, saya mulai melakukan pencatatan di spreadsheet, memakai MS Excel. Catatan pertama saya saat itu adalah sbb.

Screen Shot 2018-01-06 at 11.01.57

Kalau melihat catatan tersebut, sepertinya hari itu saya mengantar istri saya ke bandara, yang akan pulang sebentar ke Indonesia dan menghadiri pernikahan adik.

Saya membagi pos belanja menjadi 7 :
1. Konsumsi
2. Peralatan rumah tangga & buku
3. Komunikasi
4. Transportasi (pada contoh di atas, saya salah memasukkan angka 3180 yen, mestinya ke pos no.4, bukan no.3)
5. Habis pakai
6. Kesehatan
7. Hiburan

Sejak pulang ke Indonesia tahun 2007, saya membuat file catatan baru untuk membedakan transaksi yang sebelumnya memakai mata uang yen, maka sejak tahun 2007 menjadi rupiah. Catatan ini berlanjut selama 10 tahun sampai hari ini. Tak terasa ukuran file catatan keuangan sejak 2007-2017 telah berukuran 3.5 MB. Sudah waktunya untuk membuat file baru, dimulai dari 2018.

Sengaja saya pakai excel yang sederhana, tidak memakai aplikasi macam-macam, agar bisa bertahan lama dan bisa dibaca di berbagai platform (OSX-Windows-Linux). Dengan catatan seperti ini, kadang teman saya tanya : “buat apa sih ?”. Saya jawab, kalau hobby saya itu mencatat…apa saja    

Tapi dengan catatan yang rinci, saya bisa tahu, pengeluaran terbesar di pos mana, bagaimana kondisi keuangan suatu waktu. Saya juga tahu apakah saya selama ini terlalu boros atau tidak, seberapa jauh saya bisa menabung, ataukah tiap bulan tekor melulu. Di ekonomi dikenal Engel coefficient. Yaitu rasio pengeluaran di pos konsumsi terhadap total pengeluaran. Dengan pembagian tabel spt di atas, saya juga bisa menghitung Engel Coefficient pribadi saya. Dengan mengetahui kondisi kita dalam angka, akan memudahkan dalam membuat perencanaan.

 

Dipublikasi di coffee morning | Meninggalkan komentar