Tuesday, November 12, 2013

Teknik Retrival Data Multimedia

Pengertian Information Retrieval


Information Retrieval merupakan bagian dari computer science yang berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri.  

Berdasar beberapa sumber :


Information Retrieval adalah “studi tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya teks atau bentuk tidak terstruktur lainnya.”[virtechseo.com]



“Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data “ [Wikipedia]



Information Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer.  Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan sebagian besar-tekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan bahwa diterapkan ke “aspek intelektual” deskripsi informasi dan sistem untuk pencarian (Mooers, 1951). “ [Hersh, 2003]



Di teknologi informasi terdapat istilah data retrieval, selain information retrieval. Dua hal ini sangatlah berbeda. Data retrieval secara umum menentukan dokumen yang tepat dari suatu koleksi data, yang isi dokumen tersebut mengandung keyword di dalam query user, tidak akan pernah cukup untuk memenuhi kebutuhan informasi user. Berbeda dengan data retrieval, user dari sistem Information Retrieval lebih memperhatikan dalam mendapatkan (retrieve) informasi melalui subyek, daripada retrieve data berdasarkan query yang diberikan, karena user tidak mau tahu bagaimana proses yang sedang berlangsung.
            Perbedaan Information Retrieval dan Data Retrieval

Information Retrieval
Data Retrieval
Berhubungan dengan text bahasa umum yang tidak selalu terstruktur dan ada kemungkinan memiliki kerancuan arti
Berhubungan dengan data, yang mana semantik strukturnya sudah terdefinisikan
Informasi yang diambil mengenai subyek atau topic
Isi dokumen/data mengandung bagian dari keyword
Semantik sering kali hilang
Semantik terdefinisi dengan baik
Kesalahan kecil masih bisa ditorensi
Kesalahan kecil/tunggal dari suatu obyek menunjukkan kegagalan
  

Model yang terdapat dalam Information Retrieval terbagi dalam 3 model besar, yaitu:

  1. Set-theoretic models, model merepresentasikan dokumen sebagai himpunan kata atau frase. Contoh model ini ialah standard Boolean model dan extended Boolean model.
  2. Algebratic model, model merepresentasikan dokumen dan query sebagai vektor atau matriks similarity antara vektor dokumen dan vektor query yang direpresentasikan sebagai sebuah nilai skalar. Contoh model ini ialah vector space model dan latent semantic indexing (LSI).
  3. Probabilistic model, model memperlakukan proses pengembalian dokumen sebagai sebuah probabilistic inference. Contoh model ini ialah penerapan teorema bayes dalam model probabilistik.

Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan relevant documents dari collection documents yang ada melalui pencarian query yang diinputkan user. 



Proses yang terjadi di dalam Information Retrieval System terdiri dari 2 bagian utama, yaitu Indexing subsystem, dan Searching subsystem (matching system). Proses indexing dilakukan untuk membentuk basisdata terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, yaitu document indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya. Tahap-tahap yang terjadi pada proses indexing ialah:

1.   Word Token

Yaitu mengubah dokumen menjadi kumpulan term dengan cara menghapus semua karakter dalam tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercase.

2.   Stopword Removal

Proses penghapusan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not dan sebagainya.

3.   Stemming

Proses mengubah suatu kata bentukan menjadi kata dasar.

4.   Term Weighting

Proses pembobotan setiap term di dalam dokumen.
  
 DAFTAR PUSTAKA

No comments:

Post a Comment