Pencarian dalam sistem temu balik merupakan hal yang dibutuhkan, hal ini dikarenakan ketepatan pencarian sesuai keyword yang dimasukkan user dengan dokumen yang jumlahnya banyak. Vector space model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang
ada dalam indeks. Selanjutnya akan dihitung nilai cosinus sudut dari
dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci.
Vector space model solusi atas permasalah yang dihadapi jika menggunakan algoritma
TF/IDF.Karena pada algoritma TF/IDF terdapat kemungkinan antar dokumen
memiliki bobot yang sama, sehingga ambigu untuk diurutkan. Adapun
Flowchart dari pencarian menggunakan algortima Vector space model sebagai berikut:
Perhatikan contoh berikut, misalnya:
Keyword: kpk dan icw
Dokumen 5 (D5): “ aktivis icw dianiaya
aktivis icw, tama satya langkun, dianiaya oleh segerombolan orang yang
tak dikenal di kawasan duren tiga, jakarta selatan, kamis dini hari.”
Dokumen 6 (D6) : “ cici tegal dipanggil
kpk kpk akan memeriksa pelawak cici tegal dan pesinetron meidiana hutomo
terkait dugaan korupsi pengadaan alat rontgen portable di kementerian
kesehatan pada 2007.”
Dua dokumen berita tersebut akan melalui
proses token untuk menghilangkan tanda baca, angka, dan lainnya.
Kemudian dilakukan pembuangan kata-kata yang termasuk stoplist. Tabel 1. adalah hasil stoplist dari contoh dua dokumen berita untuk proses pencarian.
Tabel 1. Kata Stoplist Untuk Pencarian Pada D5 Dan D6
No.
|
Stoplist
|
Frekuensi
|
1
|
oleh |
1
|
2
|
orang |
1
|
3
|
tak |
1
|
4
|
di |
2
|
5
|
tiga |
1
|
6
|
selatan |
1
|
7
|
kamis |
1
|
8
|
hari |
1
|
9
|
akan |
1
|
10
|
dan |
1
|
11
|
terkait |
1
|
Tabel 2. Kemunculan Kata Pada Dokumen Pencarian Pada D5 Dan D6
Token
|
Keyword(kk)
|
D5
|
D6
|
icw |
1
|
2
|
0
|
kpk |
1
|
0
|
2
|
aktivis |
0
|
2
|
0
|
aniaya |
0
|
2
|
0
|
tama |
0
|
1
|
0
|
satya |
0
|
1
|
0
|
langkun |
0
|
1
|
0
|
gerombol |
0
|
1
|
0
|
kenal |
0
|
1
|
0
|
kawasan |
0
|
1
|
0
|
duren |
0
|
1
|
0
|
jakarta |
0
|
1
|
0
|
dini |
0
|
1
|
0
|
cici |
0
|
0
|
2
|
tegal |
0
|
0
|
2
|
panggil |
0
|
0
|
1
|
memeriksa |
0
|
0
|
1
|
lawak |
0
|
0
|
1
|
sinetron |
0
|
0
|
1
|
meidiana |
0
|
0
|
1
|
hutomo |
0
|
0
|
1
|
duga |
0
|
0
|
1
|
korupsi |
0
|
0
|
1
|
ada |
0
|
0
|
1
|
alat |
0
|
0
|
1
|
rontgen |
0
|
0
|
1
|
portable |
0
|
0
|
1
|
menteri |
0
|
0
|
1
|
sehat |
0
|
0
|
1
|
|q| dan |d| |
1.4142
|
4.58
|
5.09
|
q * d
|
4
|
2
|
|
|q| * |d|
|
6.4806
|
7.211
|
|
q * d/|q| * |d|
|
0.6172
|
0.2774
|
|
tetha
|
51.888
|
73.8949
|
Keterangan Tabel 2. adalah sebagai berikut:
- q = jumlah term keyword
- d = jumlah term dokumen
- |q| = akar dari keyword
- |d| = akar dari dokumen
- tetha = sudut tetha
Maka dari perhitungan VSM, cosine D5
adalah 0.6172 sedangkan cosine D6 adalah 0.2774. Dari hasil akhir cosine
tersebut maka dapat diketahui bahwa D5 memiliki tingkat similiritas
lebih tinggi dibandingkan D6. Sehingga apabila diurut berdasarkan
kemunculannya maka D5 kemudian disusul D6. Hasilnya akan terlihat pada
Gambar 1.
Gambar 1. Implementasi Pencarian Berita
Hal yang penting diperhatikan untuk
mencapai pencarian yang maksimal adalah sebelum proses pencarian
dimulai, aplikasi telah melakukan proses pada dokumen:
- Tokenizing
- Pembuangan stoplist
- Proses stemming
- Pembobotan kata pada masingmasing dokumen.
Sehingga ketika pencarian dilakukan,
aplikasi hanya melakukan proses pengurutan dari hasil bobot
masing-masing dokumen dengan algoritma VSM. Keyword yang dimasukkan user juga lakukan proses Tokenizing, Pembuangan Stoplist, dan proses stemming untuk memperkuat pencarian. Agar aplikasi berjalan dengan optimal maka juga dapat ditambahkan cache untuk menyimpan hasil pencarian yang dilakukan sebelumnya dan strem untuk menampung persamaan atau singkata kata.
Sumber: Harjono, K. D. Perluasan Vektor Pada Metode Search Vector Space. Integral Vol. 10 No.2, Juli 2005 Jurusan
Ilmu Komputer, Universitas Katolik Parahyangan, Bandung.<URL:
http://home.unpar.ac.id/~integral/Volume%2010/Integral%2010%20No.%202/Perluasan%20Vektor.pdf>
mas, itu untuk stemingnya mas pake library apa mas?bole liat library yg dipakai membuat aplikasinya mas?klo bole tolong kirimkan di email saya mas,
BalasHapuselyezerb@gmail.com makasi mas.