Konsep
Dasar Artificial Intelligence
&
Pemrosesan
Bahasa Alami
Konsep
dasar AI dianntaranya ;
- Acting Humanly : Pendekatan Uji
Turing
- Thinking Humanly : Pendekatan Model
Kognitif
- Thinking Rationally : The Laws of
Thought Approach
- Acting Rationally : The Rational
Agent Approach
Disiplin
Ilmu Artificial Intelligence ;
- Natural Languange Processing (NLP)
- Expert System (ES)
- Pattern Recognition (PR)
- Robotic
Pemrosesan
Bahasa Alami
Dua alasan utama mengapa agen komputer kita ingin
dapat memproses bahasa alami: untuk berkomunikasi dengan manusia dan untuk
memperoleh informasi dari bahasa tertulis. Faktor umum dalam menangani
tugas-tugas ini adalah penggunaan model bahasa: model yang memprediksi
distribusi probabilitas dari ekspresi bahasa.
Model
Bahasa
Bahasa pemrograman seperti Java atau Python, telah
tepat mendefinisikan model bahasa. Model bahasa kita adalah sebuah perkiraan.
Model
karakter N-gram
Sebuah teks tertulis terdiri dari karakter. Dengan
demikian, salah satu model bahasa yang paling sederhana adalah distribusi
probabilitas atas urutan karakter. Salah satu tugas model karakter n-gram
adalah identifikasi bahasa.
Merapikan
Model n-gram
Komplikasi utama dari model n-gram yaitu corpus
pelatihan hanya menyediakan perkiraan distribusi probabilitas benar.
Evaluasi
Model
Bagaimana kita tahu untuk memilih model apa? Kita
dapat mengevaluasi model dengan cross-validasi. Membagi korpus menjadi korpus
pelatihan dan korpus validasi.
Model
kata N-gram
Semua mekanisme yang sama berlaku sama untuk model
kata dan karakter. Model kata n-gram
perlu berurusan dengan
kosa kata. Tapi dengan
model kata selalu
ada kesempatan untuk
sebuah kata baru
yang tidak dilihat dalam pelatihan
korpus
Klasifikasi
Teks
Klasifikasi teks juga dikenal sebagai kategorisasi.
Identifikasi bahasa dan klasifikasi genre adalah contoh dari klasifikasi teks,
seperti analisis sentiment dan deteksi spam.
Klasifikasi
oleh kompresi data
Sebuah algoritma kompresi lossless mengambil urutan
simbol, mendeteksi pola yang diulang di dalamnya, dan menulis deskripsi dari
urutan yang lebih padat daripada yang asli.
Pengambilan
Informasi
Pengambilan informasi (IR) merupakan pencarian
informasi berupa dokumen-dokumen yang relevan dengan kebutuhan pengguna
informasi sehingga dapat memenuhi keinginan user.
Fungsi
Penilaian IR
Fungsi penilaian atau Scroing Function berasal dari
proyek Okapi Stephen Robertson dan Karen Sparck Jones di London City College
yang telah digunakan dalam mesin pencarian atau search engine.
Sistem
Evaluasi IR
Sistem evaluasi IR mengevaluasi apakah sebuah system
IR bekerja dengan baik atau tidak, dengan menerjemahkan kebutuhan informasi
kedalam kueri. Didalam evaluasi IR ini terdapat 3 level pengukuran yaitu
pemrosesan, pencarian, dan kepuasan pemakai.
Penyempurnaan
IR
Sebagai
penyempurnaan akhir, IR
dapat ditingkatkan dengan
mempertimbangkan metadata-data
di luar teks
dokumen.
Algoritma
PageRank
PageRank adalah salah satu ide – ide asli dua yang
mengatur pencarian google dari mesin telusuri Web lain ketika diperkenalkan
pada tahun 1997.
PageRank
untuk halaman p didefinisikan sebagai : +
The
HITS algorithm ( Algoritma HITS )
Algoritma HITS (Hyperlink-Induced Topic Search
algorithm), juga dikenal sebagai “Hub dan Otoritas”, merupakan algoritma
link-analisis berpengaruh lainnya.
Question
answering
Sistem Question answering NLP ( pengolahan bahasa
alami ) telah ada sejak 1960-an, namun barulah sejak 2001 sistem tersebut
menggunakan pencarian informasi Web untuk meningkatkan cangkupan mereka secara
radikal.
Information
Extraction
Information extraction adalah proses memperoleh
pengetahuan dengan membaca sekilas teks dan mencari kejadian dari kelas objek
dan hubungan antara objek – objek. Tugasnya adalah untuk mengesktrak contoh
alamat dari halaman Web.
Finite-state
automata untuk ekstraksi informasi
Tipe paling sederhana dari sistem ekstraksi informasi
adalah sistem ekstraksi berbasis atribut yang mengasumsikan keseluruhan teks
mengacu pada objek tunggal.
Model
Probabilistik Untuk Ekstraksi Informasi(Informasi Turunan)
Model probabilistik sederhana untuk urutan dengan
keadaan tersembunyi adalah model Markov yang tersembunyi, atau HMM. 18. Bidang acak bersyarat untuk ekstraksi
informasi
Model
HMM untuk mengurai teks dan memulihkan pembicara dan
Semua yang kita butuhkan untuk memahami teks adalah model diskriminatif, yang
bersyarat dari atribut tersembunyi
Ekstraksi
ontologi dari korporasi besar
Sebuah aplikasi yang berbeda dari teknologi ekstraksi
adalah membangun basis pengetahuan besar atau ontologi fakta dari korpus.
Konstruksi
template otomatis
Skema template-generasi sederhana dapat menemukan
template untuk menjelaskan pencocokan. Bahasa template ini dirancang agar dekat
pemetaan untuk pencocokan sendiri
Pembacaan
mesin
Untuk membangun ontologi besar dengan banyak ribuan
hubungan; Kami ingin memiliki sistem ekstraksi tanpa masukan manusia apapun —
sebuah sistem yang bisa membaca sendiri dan membangun database-nya sendiri.