Datamining dalam Bioinformatika : menggali informasi terpendam dalam lautan data biologi(majalah SDA Asia No.13, pp.64-66, Maret 2006)

Tulisan ini adalah versi asli dari artikel yang dimuat di majalah SDA Asia No.13, pp.64-66, Maret 2006

Ketika sedang mengerjakan eksperimen untuk disertasi doktoral, tiba-tiba saya dipanggil oleh professor. Rupanya ada permintaan kolaborasi penelitian dari satu lembaga penelitian genetic medicine di Jepang, untuk menganalisa data microarray dari pasien kanker. Saya diminta untuk menganalisa data yang mereka kumpulkan dari sekitar 100 orang pasien penderita penyakit kanker. Saat itu saya belum ada gambaran sama sekali, jenis data apa yang akan saya olah. Penelitian saya selama ini hanya memakai data citra, tulisan tangan dan data meteorologi saja. Berbagai terminologi dalam biologi molekuler, seperti transcriptome analysis, mRNA, gene expression sangat asing bagi saya. Dari situlah awal perkenalan saya dengan satu bidang baru yang sedang berkembang dengan pesat, yaitu bioinformatika.

Membicarakan bioinformatika, tak dapat lepas dari proses lahirnya bidang tersebut. Sebagaimana diketahui, bioteknologi dan teknologi informasi merupakan dua di antara berbagai teknologi penting yang mengalami perkembangan signifikan dalam beberapa tahun terakhir ini. Bioteknologi berakar dari bidang biologi, sedangkan perkembangan teknologi informasi tak dapat dilepaskan dari matematika. Umumnya biologi dan matematika dianggap sebagai dua bidang yang sangat berbeda, dan sulit untuk dipadukan. Tetapi perkembangan ilmu pengetahuan terkini justru menunjukkan sebaliknya. Perpaduan antara biologi dan matematika, menghasilkan embrio suatu cabang pengetahuan baru yang memiliki masa depan yang menjanjikan di abad 21 ini. Embrio itulah yang bernama bioinformatika. Bioinformatika merupakan perpaduan harmonis antara teknologi informasi dan bioteknologi, yang dilatarbelakangi oleh ledakan data (data explosion) observasi biologi sebagai hasil yang dicapai dari kemajuan bioteknologi. Contohnya adalah pertumbuhan pesat database DNA pada GenBank. Genbank adalah database utama dalam biologi molekuler, yang dikelola oleh NCBI (National Center for Biotechnology Information) di AS.

Gambar 1

Statistik data yang disimpan di GenBank per 16 Februari 2005 (http://www.ncbi.nih.gov/Genbank/genbankstats.html)

Data sekuens DNA yang dikoleksi di situs tersebut berasal dari kontribusi para peneliti biologi molekuler di seluruh dunia. Data yang tersimpan di genbank berkembang sangat cepat sebagaimana ditunjukkan pada Gambar 1. Grafik di atas menunjukkan pesatnya pertumbuhan data yang pada situs Genbank. Kalau dilihat pertumbuhan data nukleotida per 10 tahun, maka banyaknya nukleotida yang disimpan pada tahun 1992, sekitar 150 kali lipat daripada data 1982, sedangkan data tahun 2002 hampir 300 kali lipat dari data 1992. Pertumbuhan ini terus akan berlangsung, dan semakin lama semakin besar. Data yang melimpah ini tidak akan ada artinya, bila tidak ada metode komputasi efektif yang mampu mengolah data berskala besar, dan menggali informasi terpendam di dalamnya.

Upaya untuk mengekstrak informasi dari data biologi ini tentu saja telah berkembang sejak puluhan tahun yang lalu. Berbagai pendekatan telah dilakukan, termasuk di dalamnya pemanfaatan metoda statistik. Kalau data tersebut berskala kecil, tentunya analisa dapat dilakukan dengan manual atau dengan metoda statistik konvensional yang sederhana. Namun demikian, dengan semakin meluapnya informasi yang harus segera diolah, kebutuhan akan metode yang mampu menangani problem dengan skala besar semakin dirasakan. Di sinilah teknologi informasi berperan penting. Datamining merupakan solusi yang ditawarkan untuk mengolah ledakan informasi dalam bioinformatika.

Datamining merupakan teknik untuk mengekstrak informasi dari data berskala besar. Informasi tersebut merupakan nilai tambah yang sebelumnya tidak dapat diketahui secara manual. Di sebuah supermarket, misalnya, datamining dapat dipakai untuk mengetahui kecenderungan perilaku konsumen. Analisa transaksi selama seminggu, misalnya, menunjukkan bahwa orang yang membeli roti tawar, membeli juga selai dan mentega. Informasi ini merupakan nilai tambah yang sebelumnya tidak diketahui, dan dapat dipakai untuk menyusun strategi meningkatkan profit. Misalnya saja dengan mengatur agar roti tawar, mentega dan selai ditempatkan berdekatan, atau menjual roti tawar dan selai dalam satu paket. Contoh aplikasi datamining yang lain, misalnya untuk mengetahui kecenderungan perilaku konsumen pada online shop seperti amazon, sehingga dapat diterapkan perlakuan khusus bagi tiap konsumen. Metode-metode dalam datamining meliputi antara lain aturan asosiasi (association rule), yaitu menemukan aturan-aturan dan keterkaitan satu dengan yang lain. Selain itu terdapat pula clustering, yaitu mengelompokkan data ke dalam grup-grup berdasarkan kemiripannya, klasifikasi, dsb. Besarnya perhatian pada datamining ini terlihat dari banyaknya paper yang dipublikasikan di journal maupun konferens. Misalnya pada konferensi internasional ACM SIGMOD (Association for computing machinery, Special Interest Group on Management of Data) tahun 1998, sebanyak 25% dari paper yang diterima, membahas upaya bagaimana mengekstrak informasi dari data, termasuk di dalamnya datamining dan warehousing.

Dalam bioinformatika, datamining dimanfaatkan untuk menganalisa data hasil observasi biologi seperti misalnya sekuens DNA, deretan asam amino, ekspresi gen, agar menjadi informasi yang bermakna. Dengan demikian, diharapkan berbagai masalah kompleks dalam biologi dapat diselesaikan. Misalnya bagaimana kaitan antara fungsi suatu protein dengan strukturnya, korelasi antara penyakit dan profil ekspresi gen seorang pasien, bagaimana mekanisme timbulnya suatu penyakit. Informasi yang diperoleh dari analisa bioinformatika ini bermanfaat bagi kedokteran modern untuk menyusun strategi terapi medis khusus yang efektif dengan menyesuaikan kondisi genetik si pasien, yang disebut tailor made medicine. Dengan tailor made medicine, diharapkan efek samping dapat dihindarkan dan pengobatan berjalan optimal.

Salah satu topik penelitian yang hangat dibicarakan dalam bioinformatika adalah analisa ekspresi/aktifasi gen. Gen adalah bagian DNA yang bertugas untuk menentukan kapan, dimana, seberapa banyak suatu protein diproduksi. Kelainan yang terjadi pada gen, akan menyebabkan ketidaknormalan pada fungsi protein, dan pada gilirannya berkaitan erat dengan mekanisme timbulnya penyakit pada seseorang. Karena itu analisa ekspresi gen ini merupakan informasi penting untuk mengetahui mekanisme timbulnya suatu penyakit, dan mendesain terapi medis yang tepat bagi seorang pasien. Dari perkembangan terakhir, diketahui bahwa banyaknya gen yang terdapat pada sel manusia berkisar 32 ribu. Kalau di masa lalu, pengamatan ekspresi gen dilakukan pada skala kecil, dewasa ini dengan adanya piranti DNA chip dan microarray, memungkinkan kita mengamati pola ribuan ekspresi gen sekaligus. Hal ini memberikan tantangan baru bagi dunia komputasi, karena informasi ekspresi gen tersebut menghasilkan ruang vektor berdimensi sangat tinggi. Di antara berbagai metode yang diaplikasikan untuk menganalisa informasi berdimensi tinggi pada ekspresi gen, salah satu yang mendapat perhatian dari peneliti adalah Support Vector Machine (SVM). SVM dikembangkan oleh seorang Vladimir Vapnik, seorang ilmuwan Rusia yang saat ini menjabat sebagai Professor Statistik di University of London. Dalam berbagai penelitian, SVM memberikan solusi yang lebih baik daripada metode konvensional pengenalan pola, seperti Artificial Neural Network (ANN).

Berita terbaru mengenai riset dan temuan dalam bioinformatika dapat diikuti dari berbagai laporan penelitian pada journal ilmiah, mulai dari yang sifatnya umum seperti Nature, Science, hingga yang dikhususkan untuk bidang bioinformatika, seperti “Bioinformatics” yang diterbitkan oleh Oxford University Press (http://bioinformatics.oxfordjournals.org/archive/). Organisasi profesi elektronika dan informatika terbesar : IEEE dan ACM, sejak tahun 2004 juga menerbitkan “IEEE/ACM Transactions on Computational Biology and Bioinformatics”, yang mewadahi laporan perkembangan terkini dalam bioinformatika. Bioinformatika juga telah diterima oleh komunitas computer science, sehingga dalam berbagai konferensi internasional yang berkaitan dengan computer science, seperti International Joint Conference on Neural Networks (IJCNN), terdapat sessi khusus mengenai aplikasi komputasi dalam bioinformatika.

Daya tarik berbagai masalah dalam bioinformatika ini menyebabkan diangkatnya masalah tersebut sebagai tema kompetisi datamining “KDDCUP” yang diselenggarakan oleh ACM SIGKDD (ACM Special Interest Group on Knowledge Discovery and Datamining). Informasi lengkap mengenai kompetisi yang berlangsung tiap tahun ini dapat dilihat dari

http://www.acm.org/sigs/sigkdd/kddcup/index.php

KDD Cup berlangsung tiap tahun sejak 1997, dimana tiga kali diantaranya mengambil masalah dari bidang bioinformatika. Pada tahun 2001, tema yang diangkat berkaitan dengan bioinformatics & drug discovery, yaitu prediksi bioaktifitas molekul untuk pengembangan obat (drug design), prediksi fungsi gen/protein dan homologi protein. Kompetisi ini diikuti oleh ratusan tim peneliti dari seluruh dunia. Hasil survey yang dilakukan pada peserta kompetisi memberikan informasi menarik. Pertama-tama diketahui bahwa metode yang dikembangkan oleh masing-masing peserta memiliki kemiripan, diantaranya feature selection, decision tree, k-nearest neighbour, boosting dan SVM. Hasil ini menunjukkan bahwa metode-metode tersebut memiliki potensi tinggi untuk mencapai hasil yang akurat. Dari survey itu juga diketahui bahwa kebanyakan peserta memakai customized software, yaitu program yang dibuat sendiri, bukan software komersial. Software komersial sering memiliki keterbatasan yang menyulitkan, jika eksperimen yang dilakukan tidak sesuai dengan spesifikasi software itu. Seperti yang terjadi pada kompetisi di atas, dimana dimensi vektor yang dianalisa pada salah satu soal berkisar 140 ribu. Data dengan karakteristik demikian tidak dapat diolah dengan software komersial yang tersedia, walaupun komputer yang dipakai memiliki 1G RAM. Hal ini menunjukkan pentingnya penguasaan kemampuan pemrograman, dan tidak sekadar mengandalkan software komersial yang ada, jika seseorang ingin terjun dalam penelitian datamining.

Di Indonesia, penelitian datamining dan bioinformatika telah mulai dilakukan di berbagai lembaga penelitian seperti Lembaga Biologi Molekuler Eijkman, BPPT, LIPI maupun kalangan akademisi di berbagai perguruan tinggi. Diskusi bioinformatika dapat diikuti di mailing list HBI (Himpunan Bioinformatika Indonesia) yang beralamatkan ilmukomputer-bioinformatika@yahoogroups.com. Sedangkan komunitas datamining Indonesia memiliki mailing list di indo-dm@yahoogroups.com. Seminar dan workshop bioinformatika telah diselenggarakan beberapa kali, di LIPI, IPB dan universitas yang lain. Peserta yang hadir berasal dari latar belakang beragam, baik biologi maupun komputasi. Dalam berbagai kesempatan menghadiri seminar, maupun diskusi di mailing list, penulis melihat tingginya gairah mahasiswa maupun peneliti Indonesia di bidang bioinformatika dan datamining. Keberadaan database yang mudah diakses dari Indonesia saat ini tengah dirintis oleh tim dalam proyek Mirror Servers for Scientific Data (http://www.arsip.lipi.go.id/). Hal-hal ini merupakan signal positif. Diharapkan komunitas ini kelak berkembang pesat dan dapat berkiprah memberikan kontribusinya bagi kemajuan iptek di tanah air.

Tentang Anto Satriyo Nugroho

My name is Anto Satriyo Nugroho. I am working as research scientist at Center for Information & Communication Technology, Agency for the Assessment & Application of Technology (PTIK-BPPT : Pusat Teknologi Informasi & Komunikasi, Badan Pengkajian dan Penerapan Teknologi). I obtained my doctoral degree (Dr.Eng) from Nagoya Institute of Technology, Japan in 2003. My office is located in Serpong, Tangerang Selatan City. My research is on pattern recognition and image processing with applied field of interests on biometrics identification & development of computer aided diagnosis for Malaria. Should you want to know further information on my academic works, please visit my professional site at http://asnugroho.net
Pos ini dipublikasikan di biomedical eng. & bioinformatics, datamining. Tandai permalink.

17 Balasan ke Datamining dalam Bioinformatika : menggali informasi terpendam dalam lautan data biologi(majalah SDA Asia No.13, pp.64-66, Maret 2006)

  1. Gede Susrama berkata:

    mohon informasi untuk disertasi

  2. fitria berkata:

    saya masih masih bingung dengan bioinformatika ini..
    saya tertarik dan ingin membuat skripsi mengenai bioinformatika ini bisa dibantu gak??????????

  3. adi r berkata:

    sangat menarik. tapi jujur saya juga masih belom benar2 paham seputaran bioinformatika. mohon bantuan dan bimbingannya, saya ada rencana mengangkat bioinformatika untuk dijadikan topik skripsi…

  4. Ibnu uwais berkata:

    mas kapan mau ditambah fitur tentang makalah serial tutorial bioinformatika dan svm + JST mulai dari yang paling dasar… 🙂

    Jawab:
    Pengin nulis sih mas. Tapi saya sulit mengalokasikan waktu, karena akhir pekan selalu ke Solo.

  5. Novi berkata:

    Saya mahasiswa fisika S1 tingkat akhir sub major Biofisika. Saya berencana mengambil skripsi dalam kajian bioinformatika,tapi saya bingung menentukan judul,karena ternyata cakupan bioinformatika luas sekali. Saya ingin membuat skripsi mengenai Bioinformatika yang benar-benar dapat diaplikasikan dalam dunia medis,agar hal yang saya buat ini dapat berguna.Demikian…mungkin anda dapat memberi saran.
    Terima kasih banyak.

    Novi

  6. Mbak Novi & rekan2 yang lain,

    Bioinformatika memang sangat luas cakupannya, dan saya pun (dan juga peneliti lain) hanya mengerjakan sebagian kecil, yaitu aplikasi pattern recognition dalam analisa data microarray. Tips untuk mencari ide riset pernah saya tulis di
    https://asnugroho.wordpress.com/2007/09/19/tips-mencari-tema-penelitian/

    Untuk bioinformatika, ada baiknya survey dimulai dari jurnal bioinformatics (http://bioinformatics.oxfordjournals.org/). Paper yang sudah lewat satu tahun dapat diakses for free. Selain itu ACM/IEEE menerbitkan juga jurnal di bidang ini : IEEE/ACM Transactions on Computational Biology and Bioinformatics.

    Di tempat kerja saya (PTIK-BPPTeknologi) sedang dipersiapkan kegiatan riset ke arah datamining dengan sasaran aplikasi ke arah isu kesehatan. Kalau berminat kolaborasi silakan datang dan ngobrol2. Barangkali ada tema yang bisa kita cari bersama, dan dikerjakan sebagai tugas akhir. Bagi yang berminat, disyaratkan menguasai pemrograman dalam bahasa C (atau C++), dan juga menguasai pemakaian Linux (karena kerjanya di platform Linux).

  7. bengkel molekul berkata:

    sy sdg Tugas Akhir ttg biokomputasi. untungnya di kurikulum baru ITB sudah ada matakuliah yg menunjang tema2 biokomputasi. di prodi Mikrobiologi ada mata kuliah pengantar bioinformatik (sy ambil meskipun bukan mahasiswa mikrobiologi). Kemudian di prodi kimia ada mata kuliah Biokimia Komputasi. Lalu di prodi S2 Bioteknologi ada mata kuliah Bioinformatik. Bioinformatik sebenarnya hanya sebuah domain kecil dari biokomputasi.

    memang bidang2 tersebut sedang menjadi pembicaraan hangat para Ilmuwan. Sebuah laporan dari Microsoft mengatakan biokomputasi akan memiliki peran penting pada masa depan sains. Lihat Towards 2020 Science : http://research.microsoft.com/towards2020science/downloads.htm

    Untuk om-om yg ada di pusat2 penelitian pemerintah sgera dong mengembangkan biokomputasi/bioinformatik. Negeri kita kan kaya dengan keanekaragaman spesies mahluk hidup. Masa belum bisa buat genom database.

  8. zanita berkata:

    tolong bantuannya..
    saya kurang mengerti masalah data mining
    saya ingin mengetahui masalah data mining
    mulai dari pendahuan.batasan maslah.identifikasi maslah sampai dengan kesimpulannya..
    terima kasih..
    tolong secepatnya..

  9. @nn berkata:

    skripsi saya mengenai klasifikasi taksonomi sponge Demospongiae Porifera berdasarkan pola clusternya. tapi saya masih bingung teknik klasifikasi yang sesuai. data yang saya gunakan data kategorik.
    lalu hasil cluster tersebut belum mempunyai label, dan saya masih belum tau bagaimana teknik pelabelan berdasarkan hasil clustering untuk klasifikasi. trima kasih

  10. dinda berkata:

    saya ada tugas buat makalah matematika yang ada aplikasinya ke biologi,bingung……
    bisa bantu g??
    makasih!!

  11. yulia berkata:

    saya mahasiswi smester akhir, untuk skripsi saya mengambil topik tentang pengembangan data base DNA , tetapi saya masih sedikit bingung dengan progarm sekuensing DNAStar…mohon penjelasannya tentang program itu…

  12. Mochamad Untung K. Agung berkata:

    Assalammu’alaikumWr.Wb.,
    saya sedang mencari kajian spesifik untuk proposal S2 saya, di S1 saya mengambil skripsi mengenai isolasi metabolit sekunder dari bakteri laut, rencana pengin ngembangin ke arah genetic sreening untuk bakteri kandidatnya, rencana besarnya : bisa tau potensi bakteri penghasil bahan farmaka + tau tentang konfigurasi molekular bakteri tsb (bisa untuk rekayasa genetik)…
    Pengin minta saran bagaimana alur yang harus saya tempuh utk sampai ke materi dan pemahaman ke arah itu… (dari mana saya harus mulai dan materi apa yang harus saya dahulukan utk saya pelajari)
    Maklum ini hal baru bagi saya, karena dulu di S1 (Ilmu kelautan) saya tidak bnyk belajr ttg hal ini…
    Mohon sarannya Mas… Makasih.

  13. Angga berkata:

    Mas perkenalkan saya angga mahasiswa statistika IPb tingkat akhir,,
    dan saya sednag mencari topik penelitian untuk tugas akhir,,sepertinya saya tertarik sekali dengan topik bioinformatika yang masih jarang di gunakan oleh mahaiswa statistik lainnya,,
    jadi sya mau tanya:
    1. eratkah kaitannya statistik dengan bioinformatika?
    2. apakah bapak punya waktu untuk berdiskusi dengan saya?kapan?dan kemana sayaharus datang?
    terimakasih…

  14. mutiara herfita berkata:

    mas bisa bantu saya, saya lagi mau akan ngerjakan tesis saya mengenai association rule dalam data mining klasifikasi penerimaan mahasiswa baru. jadi apa2 saja yang akan saya lakukan

  15. ain berkata:

    saya rencananya ingin membuat jurnal ilmiah/riset ttg bioinfarmatics..
    kayaknya masih perlu banyak belajar nih…

  16. Alwis berkata:

    Mas Anto, kira2 topik apa yg bagus untuk s3? saya sudah dapat calon profesor di jepang yg mau menerima asalkan researchnya sesuai dengan lab beliau. saya masih bingung apa yg mau dibuat. Mungkin bisa via japri aja ya mas. Makasih.

  17. Hamidi berkata:

    Mas Anto, kira2 topik DATA MINING untuk s3 apa ya mas? saya mau s3 tertarik tentang data mining kira mas punya gak judul ato topik ttg dat mining, terima kasih bantuannya

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout /  Ubah )

Foto Google

You are commenting using your Google account. Logout /  Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout /  Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout /  Ubah )

Connecting to %s