Tanya Jawab e-kolokium di milis sc-ina@yahoogroups.com (1)

1. Pertanyaan Pak Rahmat Widyanto

Pak Anto Yth.
Terima kasih atas makalah yg disajikan. Sambil menunggu rekan2 lain
untuk bertanya, perkenankan saya untuk mengajukan pertanyaan:

  1. Apakah sebenarnya mencari kanji atau romaji itu “sama saja” ? Dalam arti, kalau ingin kita generalisir, apakah itu sama saja dengan mencari obyek dalam citra yang biasanya dilakukan dengan template based matching?
  2. Riset yg Pak Anto lakukan adalah sudah 5 tahun lalu. Bagaimana kira-kira perkembangan riset sejenis akhir2 ini ?

Sebelumnya terima kasih.
rahmat

2. Pertanyaan Pak Handri Santosa

Dengan hormat,
Pak Anto, saya tertarik dgn topik yg Bapak bawakan, ada beberapa pertanyaan dari saya

  1. Apalah metode bapak juga applicaple buat aplhabet character recogniton ?
  2. Didalam color quantization, method apa yang bapak gunakan (maafsaya ngga bs akses reference 3) ? dan seberapa robust terhadap perubahan illumination ?
  3. Di Fig 3, dipaper tsb menjelaskan metode utk meng-extract feature dr sebuah characters, bisa dijelaskan lebih detail pak, gimana caranya mendapatkan nilai2 tsb ?

Terima kasih sebelumnya
salam
handri

Jawaban untuk pertanyaan Pak Rahmat Widyanto

Mas Rahmat yth.

Terima kasih atas pertanyaannya.

> 1. Apakah sebenarnya mencari kanji atau romaji itu “sama saja” ?
> Dalam arti, kalau ingin kita generalisir, apakah itu sama saja
> dengan mencari obyek dalam citra yang biasanya dilakukan
> dengan template based matching ?

Ada dua pendekatan mencari posisi text pada scene image:
1. text dianggap sbg. textured object, shg. dapat dilakukan
texture analysis terhadapnya (Gabor filtering, spatial variance,
dsb.). Tetapi metode ini sensitif terhadap font style
2. Connected component analysis. Biasanya relatif lebih cepat daripada
metode pertama, tetapi hanya bisa diaplikasikan pada binary image.
Karena itu pada pendekatan ini, dilakukan binarisasi lewat
multivalued image decomposition.

Hal ini dijelaskan di paper Jain-Yu, yang dapat didownload dari
http://www.cse.msu.edu/publications/tech/TR/MSU-CPS-97-33.ps.gz

Dalam bhs. Jepang (dan juga Cina), karena sebuah kata bermakna bisa ditulis memakai 1 atau 2 huruf saja, saya memakai pendekatan kedua yang saya anggap lebih cocok, yaitu connected componen analysis. Perbedaan mendasar antara huruf romawi dan Jepang, adalah pada jumlah segmen/stroke-nya. Huruf romawi umumnya terdiri dari 1 segmen, seperti a, b. Hanya ada satu connected component saja. Tetapi huruf Jepang dan Cina sangat rumit, dan umumnya multisegmen: satu huruf terdiri dari berbagai segmen yang terpisah (connected component). Karena itu tahap segmentasi pada huruf Jepang jauh lebih sulit daripada pada huruf Romawi.

Pendekatan yg saya pakai adalah secara bertahap menganalisa kemungkinan dua buah segment/connected component membentuk bagian dari huruf secara bertahap. Setelah preprocessing, akan diperoleh berbagai segmen (connected component) yang mungkin merupakan bagian dari sebuah huruf, atau bisa jadi bukan. Dua buah segmen yang jaraknya paling dekat dicoba untuk digabungkan dan diprediksi memakai neural network: mungkinkah mereka membentuk bagian dari huruf atau tidak. Jika score-nya tinggi, berarti dua buah segmen itu kemungkinan merupakan bagian dari sebuah huruf, dan dua buah segmen itu digabungkan (merge). Selanjutnya proses di atas diulangi : mencari dua buah segmen yang jaraknya terdekat, dan dilakukan analisa yg sama. Demikian berulang-ulang dilakukan sehingga akhirnya dapat diidentifikasikan mana yang merupakan huruf, dan mana yang bukan.

Adapun untuk huruf romawi, karena umumnya mereka terdiri dari single segment, proses di atas dapat juga dilakukan, hanya saja iterasinya tidak sebanyak huruf Kanji yang multisegment.

Untuk pertanyaan pak Rahmat yg kedua: sayang sekali saya tidak lagi banyak mengikuti perkembangan di bidang ini shg. tidak dapat memberikan jawaban yg memuaskan. Tetapi sebatas yg saya baca, di Jepang tidak banyak yang melakukannya. Di antaranya ada dua group yang saya tahu: Prof. Jun Ohya (disertasi doktoralnya di Tokyo Univ. dulu mengenai hal ini juga), dan group Prof. Ohnishi (Nagoya University) yang diaplikasikan ke mata robot. Sekitar satu atau dua tahun yll. saya mengikuti conference, dimana salah satu presenter mendemokan text segmentation system yang sudah diimplementasikan di handphone. Dengan camera pada handphonenya mereka memotret sebuah object yang memiliki bagian berupa text, selanjutnya citra itu dikirimkan ke sebuah server yang akan melakukan proses segmentasi & character recognition terhadap citra yang diterima. Hasil recognition itu akan dikembalikan ke handphone dan ditampilkan sebagai text.

Beberapa saat yll. saya baca salah satu perusahaan (Hewlet Packard kalau nggak salah) juga mengembangkan sistem yg sama : Segmentasi + Recognition, hanya saja setelah itu ditambahkan language translator, untuk menterjemahkan text pada rambu-rambu lalu lintas di negara asing (bukan Inggris) ke dalam bahasa Inggris. Dengan demikian, seseorang tidak perlu khawatir lagi tidak mampu memahami rambu-rambu lalulintas saat mengendarai mobil di negara asing, karena sistem yg dikembangkan mampu “menterjemahkan”-nya ke dalam bahasa Inggris. Saya sudah coba cari artikel itu, sayang tidak ketemu.

Wassalam

Anto S. Nugroho
Jawaban untuk pertanyaan pak Handri Santoso

Pak Handri Santoso yth.

Terima kasih atas pertanyaannya.

> 1. Apalah metode bapak juga applicaple buat aplhabet character
> recogniton ?

Secara teori, algoritmanya memungkinkan hal tsb. walau saya belum sempat mencoba untuk data yang melibatkan campuran huruf Romawi dan Kanji. Tetapi algoritma saya didesain untuk huruf yang terdiri dari
berbagai segmen, sehingga kalau diterapkan pada huruf yang single segment (seperti huruf Romawi) akan banyak proses yang tidak terpakai, shg. boros di komputasi.

> 2. Didalam color quantization, method apa yang bapak gunakan (maaf
> saya ngga bs akses reference 3) ? dan seberapa robust terhadap
> perubahan illumination ?

Saya memakai single link clustering untuk melakukan color quantization.

Karena original image-nya diekspresikan memakai 24 bit RGB, pertama-tama saya lakukan color reduction dengan jalan memakai dua bit pertama untuk tiap warna, sehingga citra itu direpresentasikan memakai
6 bit (2 bit pertama R, 2 bit pertama G dan 2 bit pertama pada B). Total warna yg dapat dipakai direduksi menjadi : 2^6 = 64. Untuk mereduksi color space dan menemukan warna yang “terpenting” pada citra, dilakukan color quantization memakai single link clustering : dua buah warna yang paling mirip di-merge. Proses clustering ini diulangi terus hingga akhirnya diperoleh dua buah prototype atau jumlah lain yg ditentukan sebelumnya. Selanjutnya dilakukan multivalued image decomposition terhadap hasil yg diperoleh.

Mengenai pengaruh iluminasi terhadap algoritma ini belum saya telitilebih jauh, karena saat itu fokus riset saya adalah pada tahap berikutnya.

> 3. Di Fig 3, dipaper tsb menjelaskan metode utk meng-extract feature
> dr sebuah characters, bisa dijelaskan lebih detail pak, gimana
> caranya mendapatkan nilai2 tsb ?

Feature extraction dilakukan dengan melakukan encoding dari empat arah terhadap segmen sebuah huruf.

Di gambar 3, saya memakai huruf “IKE” (yg berarti kolam) sebagai contoh. Huruf “IKE” terdiri dari 4 segmen yang sepintas terbagi dua : tiga di kiri dan satu di kanan. Tiga segmen di kiri ini dalam bahasa Jepang disebut “SAN SUI HEN” dan merupakan sebuah root dari karakter Kanji.

Pertama-tama dilakukan labelling terhadap tiap segmen dari template yang sudah disediakan sebelumnya. Sebagai hasilnya dua buah segmen dilabel dengan kode “1”, sebuah segmen dengan “2” dan sebuah yg
terakhir dengan “3”.

Pertama-tama huruf itu di-scan dari atas ke bawah (arah A) sehingga berturut-turut diperoleh kode 3,1,1 dan 2. Karena scanning depth diset 5, sehingga hasil scanning itu ditulis menjadi 3 1 1 2 0. Hal yang sama dilakukan dari arah kanan ke kiri (arah B), berturutturut diperoleh 3,1,2,1 sehingga hasilnya ditulis menjadi 3 1 2 1. Untuk arah C : 2 3 1 1 0. Arah D: 2 1 1 3 0
Hasil akhir ditulis sebagai 20-dimensional vector menjadi [ arah A arah B arah C arah D]:

[ 3 1 1 2 0 3 1 1 2 0 2 3 1 1 0 2 1 1 3 0 ]

Tujuan dari proses ini adalah saya dapat merepresentasikan posisi relatif sebuah segmen terhadap segmen yang lain.

Demikian deskripsi feature extraction yang dipakai di studi ini.

Wassalam

Anto S. Nugroho

Tentang Anto Satriyo Nugroho

My name is Anto Satriyo Nugroho. I am working as research scientist at Center for Information & Communication Technology, Agency for the Assessment & Application of Technology (PTIK-BPPT : Pusat Teknologi Informasi & Komunikasi, Badan Pengkajian dan Penerapan Teknologi). I obtained my doctoral degree (Dr.Eng) from Nagoya Institute of Technology, Japan in 2003. My office is located in Serpong, Tangerang Selatan City.Since 2015, I was appointed as Program Director of R&D activities in Intelligent Computing Laboratory (former name: Digital Signal Processing Laboratory). The activities in the laboratory are organized into three groups : (i) Natural Language Processing (ii) Multimodal biometrics Identification (iii) ICT solution for Tropical Disease. I also enjoy to teach the students, as a part time lecturer in Swiss German University Serpong & UNS Sebelas Maret Surakarta. Should you want to know further information on my academic works, please visit my professional site at http://asnugroho.net
Pos ini dipublikasikan di neuro, research, talk & seminars. Tandai permalink.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s