Corat-coret Anto S. Nugroho

Paper survey, Trip Report, Summary

Arsip untuk April 20th, 2009

Komentar u/ tulisan Pak Tahir

Ditulis oleh Anto Satriyo Nugroho di/pada April 20, 2009

Yth.Pak Tahir

Menanggapi statement pak Tahir

“Kalau OCR membaca huruf hasil cetakan, maka ICR membaca tulisan tangan. Kalau OCR saja tidak 100% akurat apalagi ICR, maka adalah omong kosong jika ada ICR yang mampu mencapai akurasi 98%, kecuali jika tesnya sangat terbatas dan kondisinya terekayasa dengan apik.”

di
http://geeks.netindonesia.net/blogs/tahir/archive/2009/04/08/teknologi-icr-dan-pemilu-2009.aspx

perkenankan saya menanggapi dalam kapasitas pribadi, sebagai seorang scientist yang memang menekuni pattern recognition, khususnya handwriting character recognition. Komentar ini juga sekaligus saya tampilkan di blog saya http://asnugroho.wordpress.com

  1. Akurasi handwriting digit recognition di dunia sudah lazim kalau lebih dari 99%. Silakan bapak explore tulisan2 Yan Le Cun (beliau salah satu tokoh terdepan di dunia untuk masalah handwriting character recognition) di web MNIST
  2. Setidaknya, dari pengalaman kami melakukan riset character recognition, akurasi 99% ke atas untuk handwriting digit itu sudah sewajarnya yang harus dicapai, bukan omong kosong (sebagaimana bapak tulis). Silakan bapak membaca paper kami sbb.
    H. Kawajiri, Y. Takatoshi, T. Junji, A.S. Nugroho and A. Iwata : Hand-written Numeric Character Recognition for Facsimile Auto-dialing by Large Scale Neural Network CombNET-II, Proc. of 4th.International Conference on Engineering Applications of NeuralNetworks, pp.40-46, June 10-12,1998, Gibraltar.
    Paper ini sudah lolos dari evaluasi para reviewer yang memang ahli di bidang tersebut, sehingga diterima untuk dipublikasikan di conference di atas. Versi pdf nya bisa didownload dari http://asnugroho.net/publist.html
  3. Character recognition yg dipakai oleh SANYO yang dilaporkan di paper tsb. dikembangkan dari hasil riset di Iwata Laboratory, Nagoya Inst. of Technology, Japan. Model yang dipakai disebut “CombNET-II” yang merupakan gabungan competitive neural network & multilayer perceptron. Paper mengenai CombNET-II mendapat best paper award dari IEICE Japan (IEEE-nya Jepang) sekitar tahun 1992. Selain untuk character recognition, saya memakai model tsb. untuk meteorological prediction dan meraih first prize award dari kompetisi peneliti neural network di Jepang pada th.1999. Jadi keberadaaan riset tsb. , model tsb. dan akurasinya bukan omong kosong, pak.
  4. Sanyo sejak awal tahun 90 an tertarik untuk memakai model tsb. pada facsimile-nya dan berhasil mencapai akurasi lebih dari 99%. Setting training & testing setnya silakan bapak baca di paper tsb. Testing set diperoleh dari tulisan tangan sekitar 2000 orang yang dikumpulkan oleh Tottori Sanyo Electric Co. Total sekitar 13 ribu samples per huruf, 5500 sample (per huruf) untuk training dan sisanya untuk testing. mplementasi dari riset itu sudah dipasarkan di Jepang lebih dari 10 tahun yll. a.l. facsimile SFX-70CL.
  5. Salah satu kesulitan dalam handwriting character recognition adalah bervariasinya tulisan tangan orang. Dalam pattern recognition, ini diatasi dengan mengkonversikan variasi tulisan tersebut ke representasi yang disebut feature vector. Feature maksudnya adalah informasi yang membedakan sebuah kategori dengan kategori yang lain. Walaupun variasi penulisannya bermacam-macam, feature extraction algorithm yang baik akan mampu fokus mengekstrak discriminative information dari citra angka tersebut. Selanjutnya variasi yang terdapat pada feature vector ini akan diolah oleh bagian classifier yang bertugasmenghasilkan input output mapping yang benar.
  6. Resiko false positive adalah hal wajar dalam pattern recognition. Tidak ada sebuah model yang dijamin mampu mencapai akurasi 100%. Justru disitulah tantangannya. Bukan hanya untuk character recognition, tetapi juga untuk berbagai aplikasi machine learning yang lain.
  7. Berita di kompas, bahwa tim BPPT telah melakukan ujicoba dengan 50 ribu sampel itu tidak benar. Pak Husni saat itu salah dalam menjelaskannya. Namun informasi itu telah kami koreksi bersama, saat konferensi pers di KPU 7 April 2009. Silakan baca di http://tipemilu2009.wordpress.com/2009/04/07/pengujianperformaicr/

Agar sebuah teknologi bisa mencapai performa yang baik, ada syarat-syarat yang harus dipenuhi. ICR yang dipakai dalam pemilu ini misalnya mensyaratkan cetakan kertas yang memenuhi standard, penulisan yang “wajar” (di dalam kotak), maupun sosialisasi yang cukup memadai kepada para pelaksana di TPS dan KPUD. Apabila syarat-syarat ini tidak terpenuhi, tentu saja hasilnya tidak akan optimal, tetapi tidak lantas dapat diambil kesimpulan bahwa teknologi yang dipakai adalah salah. Demikian penjelasan tambahan saya. Harapan saya, agar kita semua bisa fair memandang kelebihan dan kelemahan sebuah teknologi.

Ditulis dalam neuro, research | 7 Komentar »