Information Retrieval merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri.
Berdasar beberapa sumber :
Information
Retrieval adalah “studi tentang sistem pengindeksan, pencarian, dan mengingat
data, khususnya teks atau bentuk tidak terstruktur lainnya.”[virtechseo.com]
“Information
Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen
itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam
database, apakah relasional database itu berdiri sendiri atau database
hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar,
atau data “ [Wikipedia]
Information Retrieval adalah “bidang di persimpangan ilmu
informasi dan ilmu komputer. Berkutat
dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen
dan sebagian besar-tekstual. Istilah ini diciptakan oleh Mooers pada tahun
1951, yang menganjurkan bahwa diterapkan ke “aspek intelektual” deskripsi
informasi dan sistem untuk pencarian (Mooers, 1951). “ [Hersh, 2003]
Di teknologi informasi terdapat istilah data retrieval, selain information retrieval. Dua hal ini sangatlah berbeda. Data retrieval secara umum menentukan dokumen yang tepat dari suatu koleksi data, yang isi dokumen tersebut mengandung keyword di dalam query user, tidak akan pernah cukup untuk memenuhi kebutuhan informasi user. Berbeda dengan data retrieval, user dari sistem Information Retrieval lebih memperhatikan dalam mendapatkan (retrieve) informasi melalui subyek, daripada retrieve data berdasarkan query yang diberikan, karena user tidak mau tahu bagaimana proses yang sedang berlangsung.
Perbedaan
Information Retrieval dan Data Retrieval
Information Retrieval
|
Data Retrieval
|
Berhubungan dengan text bahasa umum yang tidak
selalu terstruktur dan ada kemungkinan memiliki kerancuan arti
|
Berhubungan dengan data, yang mana semantik
strukturnya sudah terdefinisikan
|
Informasi yang diambil mengenai subyek atau topic
|
Isi dokumen/data mengandung bagian dari keyword
|
Semantik sering kali hilang
|
Semantik terdefinisi dengan baik
|
Kesalahan kecil masih bisa ditorensi
|
Kesalahan kecil/tunggal dari suatu obyek
menunjukkan kegagalan
|
Model yang terdapat dalam Information
Retrieval terbagi dalam 3 model besar, yaitu:
- Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model.
- Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector space model dan latent semantic indexing (LSI).
- Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.
Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents yang ada melalui pencarian query yang diinputkan user.
Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya. Tahap-tahap yang terjadi pada proses indexing ialah:
1.
Word
Token
Yaitu mengubah dokumen menjadi kumpulan term dengan
cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan
mengubah kumpulan term menjadi lowercase.
2.
Stopword
Removal
Proses penghapusan kata-kata yang sering ditampilkan dalam
dokumen seperti: and, or, not dan sebagainya.
3.
Stemming
Proses mengubah suatu kata bentukan menjadi kata dasar.
4.
Term
Weighting
Proses pembobotan setiap term di dalam dokumen.
DAFTAR PUSTAKA

No comments:
Post a Comment