Sore ini, seorang sahabat menanyakan ke saya mengenai berita di https://www.jpnn.com/news/ada-sebanyak-45304-duplikat-e-ktp-di-bekasi
Berita tersebut belum jelas bagi saya, apakah yang dimaksud “duplikat” itu maksudnya terjadi pada saat proses pemadanan berlangsung, sehingga diketahui ada upaya org membuat KTP-el lebih dari satu, dan sempat dicegah oleh sistem. Ataukah duplikasi terjadi, dan sistem tidak mengetahuinya, sehingga terlanjur dierbitkan dua KTP-el bagi orang yang sama.
Pemahaman saya, perlu dibedakan antara data ganda dan KTP-el ganda. KTP-el ganda terjadi karena sistem deduplikasi tidak bekerja dengan baik sehingga seseorang yang merekam data biometrik lebih dari satu kali, tidak tertangkap oleh sistem (baca penjelasan di bawah). Sedangkan data ganda/duplikat terjadi ketika sistem bekerja dengan baik dan berhasil mendeteksi fraud ketika penduduk berupaya merekam lebih dari 2 kali. Dua kata tersebut sepertinya sering dianggap bermakna sama, padahal secara teknis bertolak belakang.
Untuk memahami apa yang terjadi, perlu analisis yang lebih dalam, agar bisa mengetahui penyebabnya. Tetapi saya coba tuliskan penjelasan umum dari sisi teknologi biometrik, mengenai dua tipe error yang mungkin terjadi sebagai karakteristik yang melekat pada proses pemadanan biometrik.
Ada 2 error yg mungkin terjadi pada proses deduplikasi yaitu tipe I dan tipe II. Tipe I terjadi ketika dua orang yang berbeda, data biometrik-nya dinyatakan match, karena memiliki tingkat similarity yang tinggi. Ketika A melakukan perekaman, datanya dinyatakan match dengan data penduduk B (org yang berbeda) & sudah pernah merekam. Matching scorenya lebih tinggi dari threshold. akibatnya A dinyatakan pernah merekam dan baginya tidak diterbitkan KTP-el. Ini disebut dalam statistika sbg error tipe I atau false match. Penduduk A akan protes, karena dia tidak pernah merekam sebelumnya. Dalam hal tsb petugas akan memakai ajudikator untuk memastikan apakah A dan B orang yang sama atau berbeda. Yaitu dg mencocokkan data kedua penduduk scr manual.
Tipe error kedua terjadi ketika orang yang sama, sebut saja C, sebelumnya pernah melakukan perekaman biometrik KTP-el dan dinyatakan tunggal. Kemudian dia melakukan perekaman ulang, dan sistem deduplikasi ketika mencocokkan data pada perekaman kedua tersebut dengan jutaan records yang telah merekam, ternyata tidak ada satu pun yang nilai matching scorenya melebihi threshold pemadanan. Bahkan ketika dicocokkan dengan data C sendiri yang sebenarnya sudah tersimpan di database, ternyata tidak cukup tinggi nilai similarity nya, sehingga pada perekaman kedua tersebut data C (perekaman kedua) dinyatakan unik. Kepada si C akan diterbitkan KTP-el, sehingga C memiliki lebih dari satu identitas sah. Tipe error seperti ini dalam statistika disebut error tipe II, atau false non match. berbeda dengan error tipe I, error tipe II ini tidak akan ketahuan selama tidak ada pelaporan dari ybs. Ilustrasi kasus ini dapat dilihat pada Gambar berikut
Rangkuman proses pemadanan dan kemungkinan yang muncul dapat dilihat pada gambar berikut:
Jumlah data ganda (ingat : bukan KTP-el ganda !) menurut kemendagri ada 2 juta [3]. Pada gambar di atas, angka ini mengacu pada hasil “True Match”, yang menunjukkan keberhasilan sistem dalam menangkal upaya pembuatan identitas ganda.
Ilustrasi besarnya peluang kedua tipe error dapat dilihat pada Gambar berikut.
Apakah kedua error itu benar dan mungkin terjadi ?
Ada ! Contoh error tipe I adalah kasus Brandon Mayfield, seorang lawyer Oregon yang ditangkap oleh FBI dan dituduh sbg pelaku pengeboman kereta di Madrid pada 11 Maret 2014. Terry Green, ahli sidik jari FBI menemukan kesamaan lebih dari 15 titik sidik jari Mayfield dengan sidik jari laten yang tertinggal di tas detonator. Sindicato Nacional de Policía (SNP, yang artinya Kepolisian Nasional Spanyol) tidak setuju dengan analisis FBI dan belakangan disimpulkan bahwa pemillik sidik jari di TKP adalah Ouhnane Daoud. Brandon Mayfield akhirnya bebas dari tuduhan menyeramkan tsb. Simon A. Cole menuliskan laporan di journal of criminal law & criminology : “More than zero : accounting for error in latent fingerprint identification”, vol.95, no.3, pp.985-1078 (2005). Dilaporkan pada tulisan tsb kompilasi 22 kasus misidentifikasi sidik jari sebagaimana yang dialami Mayfield
Contoh tipe II error misalnya ketika pelaku kriminal berusaha merusak jarinya agar tidak terdeteksi ketika melakukan kejahatan. Misalnya seorg gangster, teman Al Capone, yaitu Gus Winkler, mengubah pattern sidik jarinya dari twin loop menjadi left loop. John Dillinger mengaburkan bagian pusat sidik jarinya dengan memakai cairan asam agar polanya rusak. Contoh lain adalah operasi plastik dan pemakain Hormon Replace Therapy pada kasus transgender akan membuat wajah seseorg berubah sehingga tidak dikenali sistem.
Bagaimana kaitannya dengan multimodal biometrics ?
Penjelasan mengenai error tipe I dan II di atas memakai asumsi bahwa proses deduplikasi dilakukan dengan single modality (1 sidik jari). Pada program KTP-el, selain 10 sidik jari, juga dilakukan perekaman 2 iris mata dan wajah. Tentunya akan lebih meningkatkan kinerja sistem (error lebih rendah) dibandingkan kalau memakai single modality.
Misalnya sebagaimana hasil pengukuran kinerja identifikasi multimodal biometrik pada UID. Sumbu vertikal merepresentasikan FNIR (sama dengan FNMR) sedangkan sumbu mendatar memperlihatkan log FPIR (sama dengan FMR). Grafik tersebut memperlihatkan bahwa 2 iris mata lebih unggul dibandingkan 10 jari yang terlihat dari garis putus-putus (iris mata) yang lebih rendah daripada garis putus titik (10 jari). Akan tetapi gabungan keduanya paling unggul, yang terlihat dari garis solid yang merapat ke sumbu horizontal [2].
Image source : Introduction to Biometrics, Anil K. Jain, Arun A. Ross, Karthik Nandakumar, Springer, 2011, page 221.
Apakah penyebab kedua error tersebut ? Mengapa bisa demikian ?
Penyebab error tipe I dan II tidak selalu berasal dari biometric trait (jari, iris mata, wajah dsb) ybs. Tetapi bisa juga berasal dari sensor, perilaku ketika dipindai, environment yg mungkin kotor, basah, bisa juga berasal dari malpraktek operator yang tidak memenuhi SOP, maupun faktor software biometrik itu sendiri (akurasinya tidak baik, atau operating threshold terlalu tinggi atau terlalu rendah). Fish-bone diagram berikut saya buat untuk menjelaskan titik-titik yang harus dianalisis ketika terjadi biometrics failure.
Ketika terjadi salah satu dari dua error tsb. maka analisis mendalam diperlukan untuk menentukan sumber terjadinya. Tidak selalu sistem yang salah dan sebaliknya. Jangan sampai terjadi : kesalahan pada operasional (SOP dilanggar) dipakai untuk menyimpulkan bahwa sistemnya lah yang salah, desainnya yang salah. Sama saja dengan kamar yang aksesnya diamankan dengan password yang sulit, tapi bisa ditembus karena passwordnya dibocorkan. Bukan salah teknologinya tapi salah orangnya.
Biometrics, spam filter, OCR, Google translation, SIRI dan berbagai teknologi lain adalah berbasis proses statistika. Tidak bisa peluang error tipe I dan error tipe II dibuat menjadi nol semua. Seperti biometrik, misalnya, ketika threshold dibuat infinite maka semua proses otentikasi tertolak (error tipe I : 0% error tipe II : 100%). Sebaliknya ketika error dibuat sangat rendah, misalnya minus infinite, maka semua akan lolos. Tidak ada yg direject tetapi maling pun bisa lenggang kangkung masuk dan bersiul siul. error tipe I menjadi 100% sedangkan error tipe II menjadi 0%. kedua tipe error tsb berelasi trade off.
Untuk mendapatkan hasil optimal, antara lain dilakukan hal-hal sbb. :
- Pilih software yang baik kinerjanya
- Pilih operational threshold yang optimal sesuai dengan karakteristik aplikasi yang diinginkan, dan biasanya operational threshold ini disesuaikan mengikuti skala data di gallery
- Kawal prosesnya dengan pemilihan operator yang baik dan dipercaya, diberikan pelatihan dan sosialisasi atau kalau mungkin sertifikasi
- Kawal proses dengan SOP yang baik.
Teknologi, Proses dan People tidak bisa dipisahkan agar implementasi IT di dunia nyata dapat berhasil dg baik.
PS : ulasan di atas mengasumsikan software biometrics memakai similarity sbg proximity metrics. Data yg mirip karakteristiknya akan menghasilkan score yang nilainya besar. Hal ini perlu ditulis sbg asumsi awal, karena ada juga software biometrics yang memakai dissimilarity sbg proximity metrics, yaitu dua data yang mirip/sama akan menghasilkan nilai pemadanan yang rendah. Pemakaian hamming distance pada iris recognition misalnya adalah contoh pemakaian dissmilarity metrics.
Referensi dan Link ke artikel terkait :
- Simon A. Cole, More than Zero: Accounting for Error in Latent Fingerprint Identification, 95 J. Crim. L. & Criminology 985. ( 2004-2005) Artikel dapat didownload dari https://pdfs.semanticscholar.org/e445/d4e23e616fc06871ea433455cc4d067eab35.pdf
- Introduction to Biometrics, Anil K. Jain, Arun A. Ross, Karthik Nandakumar, Springer, 2011, page 221
- https://news.okezone.com/read/2018/03/10/337/1870691/kemendagri-sebut-ada-2-juta-penduduk-datanya-ganda
- https://asnugroho.wordpress.com/2017/12/05/menghindari-salah-kaprah-pemahaman-teknologi-ktp-el/
- https://www.bppt.go.id/teknologi-informasi-energi-dan-material/3028-ktp-elektronik-ktp-el-dtinjau-dari-aspek-teknologi
- https://asnugroho.wordpress.com/2017/02/10/perlunya-memahami-error-tipe-ii-seandainya-ktp-el-reader-dipakai-di-pilkada/
- https://asnugroho.wordpress.com/2013/10/01/memahami-false-match-false-non-match/
- https://asnugroho.wordpress.com/2016/01/26/dua-jenis-error-pada-mesin-presensi/