Interpretable Machine Learning & Imbalanced Data

Saya tertarik dengan topik yang diangkat Dr. Andre Python dalam wawancara di https://techxplore.com/news/2021-08-machine-terrorism-worldwide.html
Ketertarikan itu ketika saya membaca terminologi “interpretable” pada judul artikel di atas. Pada artikel tersebut, memakai tree-based machine learning. Sehingga keputusan yg diambil sifatnya eksplisit. Bisa dijelaskan lewat “path” yang dipilih sampai keputusan diambil. Hanya saja, satu masalah lagi yang timbul : black swan events, yaitu munculnya suatu event yang sangat jarang. Dalam studi tersebut, narasumbernya menjelaskan kasus data imbalanced yang melemahkan presisi dari model. Maksudnya, teroris muncul dalam hitungan kurang dari 2% pengamatan.

Data imbalanced ini memang masalah yang umum terjadi pada kasus riil. Misalnya deteksi anomali untuk anggaran, supercooling fog dalam meteorologi, dan berbagai kasus yang lain dalam pattern recognition. Pagi ini seorang sahabat menanyakan metode yang paling prospective dalam menangani imbalanced dataset. Saya jawab: Ada berbagai pendekatan.
(1) Modifikasi pada sisi dataUpsampling, downsampling, kombinasi keduanya.
(2) Modifikasi modelnya. Seperti yang dilakukan Anand dalam papernya : R. Anand, K.G. Mehrotra, C.K. Mohan, and S. Ranka, “An improved algorithm for neural network classification of imbalanced training sets”, IEEE Trans. Neural Networks, vol. 4, pp.962-969, 1993

Kemudian satu lagi, cara mengevaluasi hasilnya yang harus hati-hati. Perlu melibatkan domain expert, orang yang memahami masalah di penerapan pada bidang tertentu. Karena cost/bobot untuk error tiap class berbeda. Tidak bisa kita pakai “pengukuran akurasi” secara umum pada semua kasus.

Ada situs yg memuat rangkuman masalah imbalanced problem, Natalie Japkowicz di https://www.site.uottawa.ca/~nat/Research/class_imbalance_bibli.html Dulu saya pernah kontak beliau waktu masih mahasiswa, untuk mendaftarkan paper saya agar dicantumkan dalam bibliografi beliau. Karena dulu studi S2/S3 saya terkait dengan masalah data imbalanced untuk prediksi super cooling fog.

Tentang Anto Satriyo Nugroho

My name is Anto Satriyo Nugroho. I am working as research scientist at Center for Information & Communication Technology, Agency for the Assessment & Application of Technology (PTIK-BPPT : Pusat Teknologi Informasi & Komunikasi, Badan Pengkajian dan Penerapan Teknologi). I obtained my doctoral degree (Dr.Eng) from Nagoya Institute of Technology, Japan in 2003. My office is located in Serpong, Tangerang Selatan City. My research is on pattern recognition and image processing with applied field of interests on biometrics identification & development of computer aided diagnosis for Malaria. Should you want to know further information on my academic works, please visit my professional site at http://asnugroho.net
Pos ini dipublikasikan di catatan kerja, research. Tandai permalink.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google

You are commenting using your Google account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s