- information retrieval adalah aktifitas menemukan materi dalam koleksi yang tidak terstruktur yang memenuhi kebutuhan informasi, pada suatu koleksi data yang besar.
- pemrosesan teks dilakukan pada tahap awal yang meliputi beberapa proses seperti tokenisasi, penghilangan stopword, dan stemming
- Tokenisasi adalah proses pemisahan kata menjadi bagian-bagian kecil yang disebut dengan token.
- Token sering diterjemahkan secara bebas sebagai suku kata, meskipun penting adanya suatu pembedaan dalam terhadap istilah token dan type.
- stopword adalah suatu kata yang sering muncul dalam berbagai dokumen adalah diskriminator yang buruk dan tidak berguna dalam temu kembali informasi.
- contoh stopword yaitu aku, kamu, kita, dll dan juga "dan" dan "atau"
- stemming adalah proses pengenalan suatu kata.
- stemming sering melibatkan pemisahan kata dari imbuhan dan tanda baca.
- inverted index adalah salah satu bentuk struktur data pokok yang terdapat disistem pemerolehan informasi.
- Term Frequesncy - Inverse Document Frequency (TF-IDF) adalah skema pembobotan term yang paling popular dalam ranah pemerolehan informasi
- Gaussian-Means (G-Means) adalah salah satu jenis pemodelan cluster yang dapat menentukan jumlah cluster secara otomatis
- Algoritma G-Means ini terbukti memiliki hasil yang lebih baik dibandingkan dengan X-Means dan lainnya.
- G-Means dimulai dengan jumlah cluster yang kecil
- Recall digunakan untuk mengukur seberapa baik suatu sistem melakukan pencarian terhadap dokumen yang relevan terhadap suatu query pengguna.
- Precision digunakan untuk melihat seberapa baik sistem pemerolehan informasi mengeliminasi dokumen yang tidak relevan.
- purity adalah salah satu pengukuran dalam evaluasi cluster
Tugas untuk UAS information retrieval :
- Jurnal : 50 %
- Proses eksperimen : 20%
- Lampiran excel : 20%
- Presentasi powerpoint : 10%
Tidak ada komentar:
Posting Komentar