Berapakah jumlah sampel yang dibutuhkan seiring dengan meningkatnya dimensionality dari data ?

Pada saat mempresentasikan topik Dimensionality Reduction using Feature Subset Selection di 1set meetup Id Big Data di kampus UAI tangal 25 Februari 2015 yang lalu, seorang peserta menanyakan : “Pak, berapakah jumlah sampel yang diperlukan, dalam kaitannya dengan jumlah atribut suatu data ?”

Sebelumnya saya pernah menulis hal serupa di https://asnugroho.wordpress.com/2007/12/31/curse-of-dimensionality-kutukan-dimensi-tinggi/

Saya jawab demikian. Misalnya saja kita bayangkan atribut pertama yang menjelaskan karakteristik suatu data itu sebagai suatu garis lurus (1 dimensional feature vector space), terbagi dalam 10 bagian yang sama. Ada 10 petak yang melambangkan 10 nilai yang mungkin terukur dari atribut tersebut. Apabila kita ingin membedakan 2 class, misalnya atlet sumo vs atlet soccer, kita perlu 10 sampel (instances) agar seluruh petak itu terisi. MIsalnya Sumo itu kita lambangkan dengan bola biru, Soccer player dengan bola merah, maka kita harus siapkan bola biru dan bola merah untuk mengisi 10 petak tersebut, memberikan label untuk tiap kemungkinan angka yang muncul.  Misalnya dengan urutan : merah, merah, merah, merah, merah, biru, biru, biru, biru, biru. Batas antara keduanya adalah pada angka 5. Jika kurang dari atau sama dengan 5, berarti soccer player. Lebih dari 5 berarti sumo player. Di situlah letaknya class boundary, perbatasan antara dua class yang berbeda.

Jika data itu memiliki 2 atribut, dengan asumsi banyaknya nilai yg muncul pada atribut kedua sama dengan atribut pertama di atas, maka kita akan dapati ruang vektor 2 dimensi, dengan banyaknya kotak yang harus diisi : 10×10 = 100. Untuk mampu melakukan klasifikasi dengan baik, kita memerlukan 100 buah bola kombinasi warnah merah dan biru untuk memberikan “label” pada tiap posisi. Semua bola harus ditempatkan pada petak 10×10 tersebut. Class boundarynya bisa linear, bisa juga non linear.

Jika data itu memiliki 3 atribut, maka ruang vektor yang terbentuk adalah 3 dimensi, dan memerlukan 1000 bola untuk mengisi semua area. Jika dilanjutkan, secara sederhana bisa kita simpulkan bahwa semakin tinggi dimensionality data, banyakya sampel yang diperlukan juga akan meningkat secara eksponensial.

Dalam mendesain suatu machine learning system, seringkali kita berfikir, jika kita bisa menambahkan informasi karakteristik suatu object, tentunya proses klasifikasi akan bisa lebih akurat. Padahal dengan bertambahnya dimensionality, kebutuhan data untuk bisa melakukan pemetaan dengan akurat juga bertambah secara eksponensial. Dengan jumlah data yang fixed, penambahan dimensionality akan membuat data itu berada di ruang vektor yang sangat sparse. Jika kita bekerja dengan data yang jumlahnya terbatas, machine learning akan kesulitan untuk menemukan class boundaryScreen Shot 2015-02-27 at 1.17.13 PM yang benar. Karena itu diperlukan proses feature subset selection, untuk memilih atribut apa yang paling informatif dan diperlukan

Bahasan di atas berasal dari Neural Networks for Pattern Recognition, Christopher M.Bishop, Oxford University Press, 1995, pp.7-9. Buku favourite saya, yang dulu saya copy dari perpustakaan meikodai, 26 Maret 2001. Yaitu ketika anak pertama kami Sarah Sekar Kinanti berusia 25 minggu 5 hari dalam kandungan.

Tentang Anto Satriyo Nugroho

My name is Anto Satriyo Nugroho. I am working as research scientist at Center for Information & Communication Technology, Agency for the Assessment & Application of Technology (PTIK-BPPT : Pusat Teknologi Informasi & Komunikasi, Badan Pengkajian dan Penerapan Teknologi). I obtained my doctoral degree (Dr.Eng) from Nagoya Institute of Technology, Japan in 2003. My office is located in Serpong, Tangerang Selatan City.Since 2015, I was appointed as Program Director of R&D activities in Intelligent Computing Laboratory (former name: Digital Signal Processing Laboratory). The activities in the laboratory are organized into three groups : (i) Natural Language Processing (ii) Multimodal biometrics Identification (iii) ICT solution for Tropical Disease. I also enjoy to teach the students, as a part time lecturer in Swiss German University Serpong & UNS Sebelas Maret Surakarta. Should you want to know further information on my academic works, please visit my professional site at http://asnugroho.net
Pos ini dipublikasikan di research. Tandai permalink.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s