Corat-coret Anto S. Nugroho

Catatan kehidupan

  • Corat-coret Terbaru

  • Januari 2007
    S S R K J S M
    « Des   Feb »
    1234567
    891011121314
    15161718192021
    22232425262728
    293031  
  • Kategori

  • Arsip

Menyelidiki kegagalan eksperimen memakai SVM

Posted by Anto Satriyo Nugroho pada Januari 29, 2007

Di milis sc-ina, mas Achmad Widodo (PKNU-Busan) mengemukakan masalah yang dihadapinya dalam memakai Support Vector Machine (SVM) untuk time-series prognosis. Saya kutip di sini tanggapan yg saya berikan, sebagai dokumentasi yang barangkali bermanfaat untuk yad. Kebetulan saat ini sedang menyiapkan materi e-tutorial SVM di milis indo-dm, jadi sekalian saja dimasukkan ke materi.

Point-point yang diperiksa jika SVM tidak berhasil mencapai performa yang memuaskan:

  1. Data Preprocessing
    1. Apakah sudah dicoba prediksi itu dengan melibatkan data sebelumnya pada interval tertentu ? Misalnya untuk memprediksi situasi saat waktu=t, model itu dilatih dengan input yang terdiri dari data pada waktu t-1, t-2,t-3,…. Saya dulu pernah membuat prediktor kemunculan kabut memakai neural network dari data hasil observasi kondisi cuaca. Datanya meliputi tekanan udara, kecepatan angin, bentuk awan, dsb. yang diamati tiap 30 menit. Untuk mendapatkan hasil yg baik saat itu saya masukkan juga data 30 menit, 60 & 90 menit sebelumnya, dst. dan dicari yg terbaik (paper1, paper2)
    2. Apakah memungkinkan jika dilakukan feature selection/extraction untuk mereduksi input yang tidak diperlukan ? Di studi yang saya lakukan mengenai analisa data interferon, SVM relatif lebih stabil terhadap keberadaan irrelevant features, dibandingkan dengan k-NN. Walau demikian, proses feature selection ini mungkin bisa membantu agar proses training SVM berlangsung efektif.
  2. Training
    1. Apakah sudah diselidiki kemungkinan pilihan fungsi Kernel & proses optimisasi parameternya kurang berhasil ?
      Selama ini saya lebih sering memakai Gaussian Kernel, dan lakukan grid search terhadap dua parameter (sigma-nya Gaussian Kernel & nilai C pada SVM). Tetapi kalau datanya skala besar, mungkin bisa memakai strategi DOE (Design of Experiment).
    2. Dari ulasan yg diberikan, mas Widodo memakai Hold-Out method untuk melakukan optimisasi parameter. Hold Out : membagi data menjadi dua: satu bagian untuk training dan satu bagian lagi untuk testing. Kalau parameter tuning dilakukan terhadap test-set, akan berakibat hasilnya kurang well-generalized. Kalau memungkinkan, ada baiknya dibagi 3 yang saling independen : training set, validation set dan test-set. Validation set dipakai untuk melakukan optimasi parameter.
    3. Salah satu hal yang mungkin bisa terjadi (walaupun ini jarang terjadi) adalah statistical characteristics (distribusi data) antara training set dan test-set berlainan. Akibatnya sejauh apapun parameter di optimize terhadap training set, hasilnya tidak akan bagus terhadap test-set. Ada baiknya dicoba mengubah pembagian datanya, untuk menghindari kemungkinan ini.
  3. -

Referensi

  1. Hastie, Tibshirani, Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001
  2. Ishii, et al. Wakariyasui Patan Ninshiki, Ohmsha, 1998
About these ads

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Logout / Ubah )

Twitter picture

You are commenting using your Twitter account. Logout / Ubah )

Facebook photo

You are commenting using your Facebook account. Logout / Ubah )

Google+ photo

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s

 
Ikuti

Get every new post delivered to your Inbox.

Bergabunglah dengan 101 pengikut lainnya.

%d bloggers like this: