Di kuliah teknologi multimedia, saya menjelaskan tentang konsep entropy coding. Simbol yang paling sering muncul harus di-encode dengan kode yg dengan bit-length paling pendek, sedangkan yang semakin jarang munculnya, memakai bitlength yg makin panjang. Saya bahas di kelas, huruf apa yg sering muncul dalam bhs Inggris. Dari literatur, diketahui bahwa huruf yang paling sering muncul dalam kata bahasa Inggris adalah E, diikuti T, A, I, N, O, S dan seterusnya. Paling jarang muncul adalah Z. Morse memakai informasi untuk mengkonstruksi kode Morsenya. Huruf paling sering muncul di-encode dengan simbol yang relatif pendek, vice versa.
Kemudian saya tanyakan ke kelas, bagaimana dengan bahasa Indonesia ? Huruf apakah yang paling sering dipakai ? Saat itu anak-anak tidak ada yg bisa menjawab. Saya juga belum pernah menghitungnya. Pagi ini saya coba menjawab pertanyaan itu, dengan memakai teks pada bahasa Indonesia. Salah satu yg saya temukan, adalah novel Khopinghoo : Sepasang Pedang Iblis, jilid 007. Dengan membuat satu baris command di linux, akhirnya ketemu juga urutan frekuensi pemakaian huruf dalam kata-kata bahasa Indonesia. Urut dari yang paling sering :
a, n, e, i, k, u, t, m, g, r, d, s, l, h, p, b, y, o, j, w, c, f
Yang belum muncul : q, v, x dan z.
Tentunya ini baru dari 1 novel saja. Perlu dicoba dengan data yg lebih besar agar mendapatkan urutan yang akurat.
Statistik Blog
- 1.668.764 hits
Archives
-
Recent posts
- Melanjutkan studi ke luar negeri
- Suatu pagi di warung nasi gandul
- Take AI to the New Era
- Berkas DUPAK : dulu dan sekarang
- Pemanfaatan Reader KTP elektronik di Polri
- Ketika kami mau tidur….
- Berebut mie dengan bapak
- Perhitungan TKDN (Tingkat Komponen Dalam Negeri)
- Kondisi Ideal Sistem Pengenalan Wajah
- Pengujian Reader KTP elektronik di Pusat Teknologi Informasi dan Komunikasi BPPT
- Resume Standar Biometrik
- Biometrik : dari hulu ke hilir
- Standar Nasional Indonesia Data Citra Wajah
- Naik ke IV-C
- Doa Qunut
Top Posts & Halaman
- Prof Sarlito : Test sidik jari untuk mengetahui bakat itu penipuan
- Pengenalan Pola pada data medis
- Curse of Dimensionality (Kutukan dimensi tinggi)
- Perbandingan Budaya Indonesia dan Jepang
- Membeli alat elektronik di Jepang untuk dipakai di Indonesia
- Penulisan gelar yang bikin repot
- Mengapa sampling dilakukan dalam pengambilan keputusan ?
- Memahami kurva Receiver Operating Characteristics (ROC) dan Pengujian Biometrik KTP-elektronik di PTIK BPPT
- Data ganda/duplikat dan KTP-el ganda adalah dua hal yang berbeda
- Langkah-langkah preprocessing
Recent comments
teriyakiteri pada Prof Sarlito : Test sidik jari… Anto Satriyo Nugroho pada Karyasiswa dan kewajiban … yuzakkihijab pada Karyasiswa dan kewajiban … divajunior pada Catatan dari Riset Lapangan di… relaonedigital pada Huruf apa yang paling sering m… Kategori
Awan Kategori
antobento apki biomedical eng. & bioinformatics catatan kerja coffee morning datamining dunia chip-chup-chop edukasi anak gado-gado Indonesiaku internet japanology keluarga kernel methods kesehatan kuliah linux linux, zaurus, iPod & komputer living in Japan memory neuro nihongo persiapan pulang potret Indonesiaku renungan hidup research scheduler talk & seminars trip report UncategorizedMeta
tr -sc ‘[A-Za-z]’ ‘\n’ < kbbi-kamus-besar-bahasa-indonesia-resmi-official.pdf |tr '[A-Z]' '[a-z]' |fold -w1|sort|uniq -c|sort -nr
126699 t
125586 e
110578 r
100243 o
93893 n
91717 i
83811 s
83751 a
81589 b
80651 p
80266 d
79424 j
77845 c
75538 l
74128 m
73775 g
71234 x
71129 h
68471 y
68184 f
66403 w
64924 u
64178 q
63015 v
62384 k
59958 z