e-kolokium : Segmentasi text memakai stroke analysis neural network

Disampaikan sebagai pengantar diskusi e-kolokium di milis sc-ina@yahoogroups.com

Penelitian ini saya lakukan di tahun pertama doktoral di Nagoya Inst. of Technology (2000-2001). Sebelumnya, di program master, salah satu tema yang sempat saya kerjakan adalah Japanese handwriting character recognition memakai neural network yang merupakan kerjasama lab. kami dengan SANYO. Menjelang program doktor, saya merasa bahwa riset character recognition ini tidak terlalu menarik lagi dan sudah mendekati titik jenuh. Kebanyakan riset akhirnya bermuara pada bagaimana meningkatkan akurasi. Memang meningkatkan akurasi -misalnya- dari 95% ke 97% bukanlah hal yang mudah, dan memerlukan banyak eksperimen. Tetapi masalah peningkatan akurasi itu sendiri sudah tidak menarik lagi, dan cukup membosankan. Sulit untuk menemukan masalah yang benar-benar menarik dan belum terpecahkan (Dalam satu pendapat, dikatakan : untuk menyelesaikan satu masalah perlu cukup satu orang saja, tetapi menemukan masalah yang baik memerlukan kolaborasi berbagai orang). Pendekatan online lebih efektif daripada off line character recognition. Kebosanan itu membuat saya akhirnya berpaling pada riset character/text segmentation. Masih banyak open problem di tema ini.

Indera penglihatan manusia demikian menakjubkan. Begitu kita membuka mata -katakanlah saat itu sedang di pinggir jalan- dengan cepat akan bisa membaca huruf-huruf yang tertulis di papan iklan, nama stasiun, nomer mobil, dsb. Proses yang berlangsung dalam hal ini adalah : (1) scene image yang ditangkap oleh mata akan diolah oleh otak, object apa saja yang ada, dan perhatian kita akan difokuskan pada object yang dituju yaitu deretan huruf (2) Selanjutnya object berupa deretan huruf itu akan dibaca dengan membangkitkan kembali pengetahuan kita mengenai huruf, yang sudah terekam di dalam otak. Proses no. (1) disebut segmentasi, dan (2) adalah character recognition. Dua buah tahapan ini berlangsung demikian cepat, kurang dari satu detik. Demikian luar biasa kemampuan visual yang dimiliki oleh manusia. Kalau pada riset character recognition, umumnya difokuskan pada tahap (2). Boleh dikatakan character recognition “sudah selesai”. Modelnya terbagi dua : feature extraction & classification. Untuk classifier, bisa memakai berbagai metode seperti PDC-nya NTT, Local Line Direction, Weighted Histogram, dsb. Sedangkan untuk tahap classifier, neural network dapat menyelesaikannya. Sedangkan untuk problem yang melibatkan ribuan class sebagaimana huruf Kanji, keterbatasan Multi Layer Perceptron dapat diatasi dengan memakai strategi Divide & Conquer, seperti misalnya CombNET-II yang merupakan gabungan vector quantization network & modul-modul multilayerperceptron. Tetapi, bagaimana halnya dengan tahap (1) ? Bagaimana proses indera penglihatan kita mampu menemukan posisi sebuah object dari sebuah citra: di sana letak object “mobil”, di posisi itu ada object “jalan”, agak di atas sedikit ada object papan iklan, agak jauh sedikit diseberang ada tulisan “stasiun gambir”. Bukan hal yang mudah !

Tetapi kalau sistem ini bisa dibuat, aplikasinya terbuka lebar, misalnya antara lain:

  1. Dipasang sebagai sistem penglihatan pada mata robot
  2. Video indexing
  3. Searching berbasis image
  4. Alat bantu bagi tuna netra. Ini sebenarnya tujuan saya mengerjakan riset ini. Ide saya, text segmentation dan recognition ini kalau digabung dengan TTS (Text To Speech) Synthesizer, akan mengkonversikan informasi berupa text ke dalam suara yang dapat didengar oleh para tuna netra atau visually handicapped. Dengan demikian, walau masih terbatas, para tuna netra bisa “membaca” informasi yang tertulis.

Awalnya saya berniat memecahkan masalah ini dengan membuat model matematika dari indera penglihatan manusia. Oleh sensei, saya disarankan membaca “bible”-nya computer vision : buku David Marr. Tetapi dalam proses survey paper, saya menemukan berbagai referensi menarik yang membuat saya mengalihkan niat : tidak perlu membuat model indera penglihatan, melainkan pendekatan image processing. Hal ini karena tujuan akhir saya bukan menemukan mekanisme penglihatan manusia, melainkan pada murni pada aplikasi. Jadi saya cari cara yang paling cepat mewujudkan tujuan itu, walaupun hasil akhirnya bukan berupa model proses informasi pada manusia. Untuk terbang, manusia tidak perlu menjadi burung.

Paper yang saya jadikan referensi antara lain:

  1. A.K.Jain, B.Yu , “Automatic Text Location in Images and video Frames”, Pattern Recognition, vol.31, no.12, pp.2055-2076, 1998
  2. V.Wu, R.Manmatha, E.M.Riseman , “TextFinder : An Automatic System to Detect and Recognize Text In Images”,IEEE Trans. on Pattern Analysis and Machine Intelligence, Vol.21, no.11, pp.1224-1229, Nov.1999
  3. Y.Liu, T.Yamamura, N.Ohnishi, N.Sugie, “Extraction of Character String Regions from a Scene Image”, IEICE Trans. Inf. & Syst, vol.J81-D-II, No.4, pp.641-650, April 1998

Ternyata group Prof. Jain mengerjakan juga riset ini.  Berita baik: berarti tema yang saya pilih ini memang menarik dan challenging, sehingga dedengkot pattern recognition seperti Anil Jain menaruh minat juga. Berita buruk: ternyata tema ini sudah dikerjakan oleh group peneliti yang sangat beken di dunia pattern recognition. Berarti saya mendapat rival yang sangat berat ! Tetapi tunggu dulu …. Ternyata saya masih punya peluang menemukan masalah baru. Riset Prof. Jain, Victor Wu dan peneliti yang lain umumnya bekerja dengan roman alphabets, bukan dengan huruf Kanji. Berarti ada peluang saya menemukan masalah baru di sini.

Roman alphabets dan Huruf Kanji memiliki konsep dan karakteristik yang berbeda. Roman alphabets (a, b, …, z) adalah representasi dari sebuah fonem. Dengan demikian, sebuah kata yang memiliki makna akan disusun oleh sederetan huruf (string), sedemikian hingga memiliki karakteristik spatial yang unik, yaitu mirip garis. Bayangkan saat melihat surat kabar dari jarak agak jauh. Kita bisa menentukan secara pasti “dimana lokasi huruf/text” pada surat kabar itu, tanpa harus membacanya terlebih dahulu untuk memastikan bahwa “itu” adalah deretan huruf. Akan tetapi, huruf Kanji menurut sejarahnya berasal dari gambar. Dengan demikian sebuah huruf merupakan representasi dari sebuah gambar yang memiliki makna (lihat slide halaman 4). Konsekuensi yang timbul adalah sebuah kata yang bermakna dalam bahasa Jepang atau Cina, bisa saja terdiri dari sebuah huruf/coretan/stroke. Dengan demikian, untuk menentukan di mana letak text/huruf Cina atau Jepang pada sebuah scene image, adakalanya kita tidak dapat memakai asumsi bahwa text itu terdiri dari banyak huruf yang membentuk karakteristik spatial tertentu. Misalnya saja, banyak nama stasiun di Jepang yang terdiri dari satu atau dua huruf saja. Proses segmentasinya cukup menyulitkan. Metode yang dibangun oleh paper Jain dan Wu, tidak bisa diterapkan, karena asumsi awalnya tidak dipenuhi. Setelah saya survey lebih lanjut lagi, peneliti-peneliti Jepang pun dalam membangun metodenya mengasumsikan bahwa deretan huruf itu terdiri dari minimal 3 atau 4 huruf, misalnya pada paper no.3 di atas (group Prof. Ohnishi). Sampai di sini saya merasa lega : akhirnya saya temukan sebuah masalah baru !

Selanjutnya silakan membaca paper berikut:

A.S. Nugroho, S. Kuroyanagi, A. Iwata: An algorithm for locating characters in color image using stroke analysis neural network, Proc. of the 9th International Conference on Neural Information Processing (ICONIP’02), Vol.4, pp.2132-2136, November 18-22, 2002, Singapore

Sekiranya anda berminat mengikuti diskusi, silakan bergabung di milis sc-ina@yahoogroups.com dengan mengirimkan sc-ina-subscribe@yahoogroups.com Milis sc-ina adalah media komunikasi & diskusi Komunitas Soft Computing Indonesia.

Foto dg. Pak Son Kuswadi saat sesi istirahat di ICONIP Singapore, 2002

Iklan

Tentang Anto Satriyo Nugroho

My name is Anto Satriyo Nugroho. I am working as research scientist at Center for Information & Communication Technology, Agency for the Assessment & Application of Technology (PTIK-BPPT : Pusat Teknologi Informasi & Komunikasi, Badan Pengkajian dan Penerapan Teknologi). I obtained my doctoral degree (Dr.Eng) from Nagoya Institute of Technology, Japan in 2003. My office is located in Serpong, Tangerang Selatan City. My research is on pattern recognition and image processing with applied field of interests on biometrics identification & development of computer aided diagnosis for Malaria. Should you want to know further information on my academic works, please visit my professional site at http://asnugroho.net
Pos ini dipublikasikan di neuro, research, talk & seminars. Tandai permalink.

Satu Balasan ke e-kolokium : Segmentasi text memakai stroke analysis neural network

  1. ando berkata:

    buat mas anto saya mau tanya nih,saya masih bingung dalam memilih kasus untuk kuliah kolokium,di mana kolokium kali ini tentang neural network,mungkin mas anto bisa memberi contoh atau ide tentang kasus2 yang menggunakan neural network

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s