Rabu, 18 April 2018

PTSC 3


Konsep Dasar Artificial Intelligence
&
Pemrosesan Bahasa Alami

Konsep dasar AI dianntaranya ;
  1. Acting Humanly : Pendekatan Uji Turing
  2. Thinking Humanly : Pendekatan Model Kognitif
  3. Thinking Rationally : The Laws of Thought Approach
  4. Acting Rationally : The Rational Agent Approach

Disiplin Ilmu Artificial Intelligence ;
  1. Natural Languange Processing (NLP)
  2. Expert System (ES)
  3. Pattern Recognition (PR)
  4. Robotic

Pemrosesan Bahasa Alami
Dua alasan utama mengapa agen komputer kita ingin dapat memproses bahasa alami: untuk berkomunikasi dengan manusia dan untuk memperoleh informasi dari bahasa tertulis. Faktor umum dalam menangani tugas-tugas ini adalah penggunaan model bahasa: model yang memprediksi distribusi probabilitas dari ekspresi bahasa.

Model Bahasa
Bahasa pemrograman seperti Java atau Python, telah tepat mendefinisikan model bahasa. Model bahasa kita adalah sebuah perkiraan.

Model karakter N-gram
Sebuah teks tertulis terdiri dari karakter. Dengan demikian, salah satu model bahasa yang paling sederhana adalah distribusi probabilitas atas urutan karakter. Salah satu tugas model karakter n-gram adalah identifikasi bahasa.

Merapikan Model n-gram
Komplikasi utama dari model n-gram yaitu corpus pelatihan hanya menyediakan perkiraan distribusi probabilitas benar.

Evaluasi Model
Bagaimana kita tahu untuk memilih model apa? Kita dapat mengevaluasi model dengan cross-validasi. Membagi korpus menjadi korpus pelatihan dan korpus validasi.

Model kata N-gram
Semua mekanisme yang sama berlaku sama untuk model kata dan karakter. Model   kata   n-gram   perlu   berurusan   dengan   kosa   kata. Tapi  dengan  model  kata  selalu  ada  kesempatan  untuk  sebuah  kata  baru  yang  tidak dilihat dalam  pelatihan  korpus

Klasifikasi Teks
Klasifikasi teks juga dikenal sebagai kategorisasi. Identifikasi bahasa dan klasifikasi genre adalah contoh dari klasifikasi teks, seperti analisis sentiment dan deteksi spam.

Klasifikasi oleh kompresi data
Sebuah algoritma kompresi lossless mengambil urutan simbol, mendeteksi pola yang diulang di dalamnya, dan menulis deskripsi dari urutan yang lebih padat daripada yang asli.

Pengambilan Informasi
Pengambilan informasi (IR) merupakan pencarian informasi berupa dokumen-dokumen yang relevan dengan kebutuhan pengguna informasi sehingga dapat memenuhi keinginan user.

Fungsi Penilaian IR
Fungsi penilaian atau Scroing Function berasal dari proyek Okapi Stephen Robertson dan Karen Sparck Jones di London City College yang telah digunakan dalam mesin pencarian atau search engine.

Sistem Evaluasi IR
Sistem evaluasi IR mengevaluasi apakah sebuah system IR bekerja dengan baik atau tidak, dengan menerjemahkan kebutuhan informasi kedalam kueri. Didalam evaluasi IR ini terdapat 3 level pengukuran yaitu pemrosesan, pencarian, dan kepuasan pemakai.

Penyempurnaan IR
Sebagai  penyempurnaan  akhir,  IR  dapat  ditingkatkan  dengan  mempertimbangkan metadata-data  di  luar  teks  dokumen.
Algoritma PageRank
PageRank adalah salah satu ide – ide asli dua yang mengatur pencarian google dari mesin telusuri Web lain ketika diperkenalkan pada tahun 1997.
PageRank untuk halaman p didefinisikan sebagai : +

The HITS algorithm ( Algoritma HITS )
Algoritma HITS (Hyperlink-Induced Topic Search algorithm), juga dikenal sebagai “Hub dan Otoritas”, merupakan algoritma link-analisis berpengaruh lainnya.

Question answering
Sistem Question answering NLP ( pengolahan bahasa alami ) telah ada sejak 1960-an, namun barulah sejak 2001 sistem tersebut menggunakan pencarian informasi Web untuk meningkatkan cangkupan mereka secara radikal.

Information Extraction
Information extraction adalah proses memperoleh pengetahuan dengan membaca sekilas teks dan mencari kejadian dari kelas objek dan hubungan antara objek – objek. Tugasnya adalah untuk mengesktrak contoh alamat dari halaman Web.

Finite-state automata untuk ekstraksi informasi
Tipe paling sederhana dari sistem ekstraksi informasi adalah sistem ekstraksi berbasis atribut yang mengasumsikan keseluruhan teks mengacu pada objek tunggal.

Model Probabilistik Untuk Ekstraksi Informasi(Informasi Turunan)
Model probabilistik sederhana untuk urutan dengan keadaan tersembunyi adalah model Markov yang tersembunyi, atau HMM. 18.  Bidang acak bersyarat untuk ekstraksi informasi

Model HMM untuk mengurai teks dan memulihkan pembicara dan Semua yang kita butuhkan untuk memahami teks adalah model diskriminatif, yang bersyarat dari atribut tersembunyi

Ekstraksi ontologi dari korporasi besar
Sebuah aplikasi yang berbeda dari teknologi ekstraksi adalah membangun basis pengetahuan besar atau ontologi fakta dari korpus.

Konstruksi template otomatis
Skema template-generasi sederhana dapat menemukan template untuk menjelaskan pencocokan. Bahasa template ini dirancang agar dekat pemetaan untuk pencocokan sendiri

Pembacaan mesin
Untuk membangun ontologi besar dengan banyak ribuan hubungan; Kami ingin memiliki sistem ekstraksi tanpa masukan manusia apapun — sebuah sistem yang bisa membaca sendiri dan membangun database-nya sendiri.

Tidak ada komentar:

Posting Komentar