Catatan perjalanan seminggu: Solo-Kuta-Serpong-Bandung

trip

Seminggu kemarin merupakan hari-hari sibuk dengan agenda padat, dari kota ke kota. Pada hari Senin 18 Mei 2015, saya berada di UNS mengajar Computer Graphics. Kebetulan hari itu jadwal Ujian Kemampuan Dasar ke-3.uns Ujian dimulai pk.07.30 dan soal hanya satu. Tapi agak di luar ekspektasi saya karena ternyata makan waktu sampai 150 menit. Selesai ujian, saya berangkat ke Bali. Karena perjalanan dinas saya dibiayai DIPA BPPT, keberangkatan harus dari Jakarta. Sehingga perjalanan ke Bali ditempuh dari Jakarta. Saya berangkat dari Solo ke Jakarta, ganti pesawat menuju ke Bali.

Saya sampai di Bali relatif sudah malam, sekitar pk 10 malam, dan diantar panitia PACLING ke hotel Best Western. Conference berlokasikan di Stone hotel, tak jauh dari hotel kami menginap. Jalan kaki hanya makan waktu sekitar 3 menit.

PACLING 2015 hari pertama dimulai dengan keynote speech dari Prof.Dwi Hendratmo mengenai text summarization dari multiple documents. Paparan yang beliau sampaikan sangat menarik. Saya perhatikan dari paparan yang beliau sampaikan, dokumen yang beragam tsb. sepertinya berasal dari satu bidang keilmuan (komputasi) sehingga saya tertarik untuk bertanya satu hal. Pertanyaan saya kepada beliau adalah aplikasi dari text summarization pada dokumen dari domain keilmuan yang berbeda. Bagaimana kira-kira hasil yagn diperoleh jika dilakukan summarization ? Misalnya untuk mempelajari tema terkait multidisiplin seperti bioinformatics, tak jarang saya harus membaca paper yang diterbitkan di jurnal ilmu-ilmu biologi maupun medis seperti Nature, Cell, Science, maupun paper yang diterbitkan di jurnal komputasi. Style penulisan jurnal tsb. berbeda. Di jurnal-jurnal ilmu hayati, aspek komputasi kadang hanya dibahas secara ringkas, karena tujuannya adalah membahas aspek temuan yang diperoleh dari sisi biologi. Sebaliknya dalam jurnal komputasi, justru aspek komputasi mendominasi substansi paper. Kalau dilakukan summarization secara otomatis, tentunya ada perlakuan berbeda pada kedua paper tsb.  Pak Dwi menjawab kalau hal tsb. menarik untuk dicoba. Saat ini percobaan yang beliau lakukan terbatas pada paper dari domain keilmuan komputasi. Sesi pak Dwi berakhir, dan dilanjutkan dengan presentasi oral.  Dalam presentasi oral yang pertama, saya bertugas sebagai moderator. Dari 4 paper, sayangnya hanya 3 paper yang dipaparkan. Waktu presentasi saya set : 20 menit untuk paparan, dengan kode 1x bel pada menit ke 15 dan 2x bel pada menit ke 20. Selanjutnya sisa 10 menit dipakai untuk diskusi. Sebagaimana lazimnya seminar, selain ada presenter yang siap menyajikan dengan bagus, ada juga presenter yang belepotan dan terlihat kurang persiapan dalam presentasi. Jika pertanyaan dari forum cukup aktif, tugas moderator relatif menyenangkan. Tetapi jika tidak ada pertanyaan dari forum, tugas moderator adalah memberikan satu dua pertanyaan sebagai pancingan agar suasana hidup. Sesi kedua setelah makan siang adalah poster session yang didahului dengan paparan singkat masing-masing peneliti tanpa tanya jawab. Tanya jawab dilakukan saat berkunjung ke poster yang bersangkutan.  Sesi ketiga pada hari tsb. adalah  diskusi mengenai penelitian terkait teknologi bahasa Indonesia. Diskusi tersebut diikuti oleh peneliti-peneliti dari industri (a.l. Solusi 247 ), Pulselab UN, ITB, UI, Univ. Telkom, Univ. Kristen Maranatha, kami dari BPPT, dan berbagai institusi lainnya. Beberapa senior peneliti NLP di Indonesia juga hadir, a.l. Pak Ary Akhmad Arman, Pak Dwi, bu Ayu, bu Desi, bu Masayu (ITB), bu Mirna (UI), sedangkan dari BPPT diwakili Pak Hammam, Pak Teduh dan pak Gunarso.  Umumnya peserta diskusi berpendapat sangat penting untuk menjalin komunikasi dan sinergi antar peneliti NLP di Indonesia. Pak Hammam misalnya mengusulkan agar forum yang selama ini ada (Fortekba) diformalkan menjadi society resmi yang berbadan hukum. Selain itu ada keinginan agar anggota dapat saling membantu dan bekerjasama dalam pengembangan dan pemanfaatan resource (korpus). Bu Ayu mengajak forum untuk menjalin kegiatan kolaborasi dengan menuliskan beberapa tema secara konkrit. Di akhir diskusi, disepakati bahwa diskusi akan dilanjutkan lewat milis maupun instant messaging (what’s app group). PACLING masih berlanjut sampai 3 hari, tetapi karena ada agenda lain pada hari Rabu saya berpamitan dan pulang ke Jakarta.

pacling-1 pacling-2pacling-3

Sebelum pulang alhamdulillah berksempatan menengok keluarga adik saya yang bungsu, yang tinggal di Denpasar. Dik Nang bekerja di BRI Denpasar, tinggal bertiga bersama istrinya, dik Achie, dan anaknya Armand. Armand lucu sekali, dan senang sekali saya bisa menggendong keponakan saya yang paling kecil. 🙂

armand kelg-d

Hari Rabu sore saya mengajar di Swiss German University. Minggu tsb. adalah yang ke-13,  dan saya juga “melunasi” hutang, kekurangan mengajar pattern recognition. Seperti biasa, setiap masuk kelas statistics & probability, saya mengadakan kuis. Hanya saja kalau biasanya kuis statistics probability hanya saya berikan 1 soal dan nilainya biner : 100 atau 1 (dulunya bukan “1”, tapi “0”. Sejak tahun yll. saya ubah jadi “1” sebagai upah menulis, jika semua jawaban salah), tetapi minggu kemarin saya berikan 4 soal. Nilainya sudah pasti : 100, 75, 50, 25 atau 1.  🙂

Screen Shot 2015-05-26 at 6.24.12 AMHari Kamis, lab. kami (intelligent computing laboratory)  mengadakan konsinyering di hotel Millenium. Konsinyering tsb. bertujuan untuk koordinasi kegiatan keseluruhan Work Package (WP), yaitu WP 1.1 dan WP 1.2 terkait dengan Teknologi Bahasa WP 1.3 terkait Pengembangan Sistem dan Layanan Pengujian Biometrics dan WP 1.4 TIK Kesehatan. Setelah itu saya mengisi acara dengan mereview pengetahuan dasar Teknologi Pengolahan Citra, sebagai persiapan rekan-rekan lab. untuk mengikuti pelatihan pada awal Juni yad. Dengan kegiatan review / refreshing tersebut, diharapkan anggota tim dapat melakukan persiapan lebih baik, sehingga pelatihan bulan Juni yad. benar-benar efektif dan meningkatkan kompetensi teknis anggota. Slide-slide yang selama ini saya pakai untuk mengajar mata kuliah Image Processing saya kumpulkan dan satukan. Alhamdulillah, dapat 236 halaman. Tidak mengcover semua topik tentunya, tapi minimal sebagai bahan persiapan awal.

bertigaKamis malam hari saya makan malam bareng dengan Nuke, mantan murid saya di UAI, dan Rheza. Nuke salah seorang murid saya yang paling lama ikut dengan saya. Sejak bimbingan skripsi 1 tahun dan magang di BPPT selama 1 tahun lebih. Malam harinya saya berangkat ke Solo dengan kereta Senja Utama.

Hari Jumat saya bekerja di UNS, dan malam harinya berangkat lagi ke Bandung memenuhi undangan sahabat saya Prof. Rajesri Govindaraju. Rajes adalah teman seangkatan saya di Teknik Informatika ITB, angkatan 1989.  Pada hari Sabtu 23 Mei 2015 tsb. saya diminta untuk mengisi kelas bu Rajes di Teknik Industri ITB dengan materi pengantar data mining dan prakteknya memakai Weka.  Acara tersebut diikuti murid-murid dan kelompok penelitian beliau di Teknik Industri, sekitar 25 orang.  Foto di bawah adalah saat foto makan siang dengan tumpeng yang dipesan Dr.Rajes (Thanks Rajes.. 🙂  )

itbDalam sesi diskusi saya mendapat pertanyaan menarik : berapa jumlah sampel yang diperlukan dalam mendesain sebuah model klasifikasi ? Saya jawab demikian. Diperlukan jumlah sampel yang cukup banyak sebagai training set, agar classifier yang dilatih dapat menemukan pola I/O mapping yang cukup akurat. Kalau data terlalu sedikit, dikhawatirkan classifier tsb. akan kurang mampu melakukan generalisasi, shg underperformance saat dipakai untuk mengenali data pada testing set. Tentu saja selain kuantitas, kualitas juga harus diperhatikan.

Screen Shot 2015-05-26 at 6.28.16 AMTetapi anda juga harus menyediakan data yang cukup banyak, untuk dipakai sebagai testing set, agar hasil estimasi performa classifiernya valid. Bandingkan dengan 2 orang A dan B yang jualan alat peramal cuaca. Kedua-duanya mengclaim, akurasinya 99%. Tetapi A memperoleh angka 99% itu dari eksperimen memakai 100 sampel, dan 1 di antaranya gagal diprediksi. Sedangkan B memakai 1 juta sampel. Tentu saja pembeli akan lebih percaya dengan produk yang dijual B, karena sudah diuji dengan data yang sangat besar. Karena itu, untuk mendapatkan hasil test yang reliable, anda harus menyediakan data testing yang cukup banyak. Dalam studi yang dilakukan oleh Isabelle Guyon yg dipublikasikan di IEEE Trans.PAMI, secara sederhana jumlah sampel minimal yang harus disediakan jika mau mengklaim tingkat error x, adalah 100/x. Maksudnya kalau ingin mengklaim akurasi suatu sistem 99% (error: 1%) dengan confidence level yg cukup tinggi (saya lupa detailnya), data yang harus disediakan untuk testing akurasi adalah 100/1% = 10 ribu sampel.
“What size test set gives good error rate estimates?”, I. Guyon, J. Makhoul, R. Schwartz, and V. Vapnik. PAMI, 20 (1), pages 52–64, IEEE. 1998 (available from http://www.clopinet.com/isabelle/Papers/ )

Nah, masalahnya bagaimana jika data yg tersedia jumlahnya terbatas, seperti misalnya pada analisa data biomedis. Estimasi akurasi dilakukan dengan skenario cross validation dengan jumlah fold : 5 atau 10. Misalnya saja memakai 5-CV, berarti seluruh data dibagi dalam 5 bagian yg jumlahnya sama. Misalnya saja 5 blok : A, B, C, D dan E. Untuk pengukuran kualitas suatu kombinasi parameter tertentu, lakukan eksperimen 5 kali, pada eksperimen pertama : A sbg testing set, dan sisanya sbg training. Putaran kedua, B sbg testing set dan sisanya sbg training. Demikian dilakukan 5 kali sehingga tiap blok mendapat kesempatan sekali sebagai testing set, dan 4 kali sebagai training set. Kualitas parameter diukr dengan menghitung rata-rata akurasi yang diperoleh selama 5 kali eksperimen. Dalam kondisi yang lebih ekstrim, jumlah blok = jumlah sampel. Ini disebut dengan skenario Leave One Out Cross Validation (LOO-CV). Dari berbagai skenario tsb. mana, kelebihan dan kelemahannya bisa dianalisis dengan teori bias-variance decomposition. Tapi hal yang terakhir ini tidak saya bahas kemarin.

Dapat dibaca dari buku Trevor Hastie : The Elements of Statistical Learning: Data Mining, Inference, and Prediction (Second Edition)
by Trevor Hastie, Robert Tibshirani and Jerome Friedman (2009), Chap.7 Model Assessment.  http://web.stanford.edu/~hastie/pub.htm

genkiDalam perjalanan pulang, di stasiun Bandung saya berkesempatan bertemu dengan Genki, putra pertama Mbak Rina (Dr.Iriawati Biologi ITB) dan mas Gatot (T Mesin UI). Mbak Rina dan mas Gatot adalah sahabat saya saat kami masih kuliah di Jepang. Saat itu saya masih studi S1, sedangkan mereka mengambil S3, berkenalan dan menikah saat studi di Jepang. Waktu berlalu demikian cepat, dan putranya sudah kuliah di T.Fisika ITB. Genki konsultasi ke saya,  mengenai kemungkinan PKL di BPPT. Selain membicarakan hal tsb. saya juga sempat cerita, bagaimana asal mula namanya   🙂

Tentang Anto Satriyo Nugroho

My name is Anto Satriyo Nugroho. I am working as research scientist at Center for Information & Communication Technology, Agency for the Assessment & Application of Technology (PTIK-BPPT : Pusat Teknologi Informasi & Komunikasi, Badan Pengkajian dan Penerapan Teknologi). I obtained my doctoral degree (Dr.Eng) from Nagoya Institute of Technology, Japan in 2003. My office is located in Serpong, Tangerang Selatan City.Since 2015, I was appointed as Program Director of R&D activities in Intelligent Computing Laboratory (former name: Digital Signal Processing Laboratory). The activities in the laboratory are organized into three groups : (i) Natural Language Processing (ii) Multimodal biometrics Identification (iii) ICT solution for Tropical Disease. I also enjoy to teach the students, as a part time lecturer in Swiss German University Serpong & UNS Sebelas Maret Surakarta. Should you want to know further information on my academic works, please visit my professional site at http://asnugroho.net
Pos ini dipublikasikan di catatan kerja. Tandai permalink.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s