Kamis, 06 Januari 2011

Klasifikasi

Klasifikasi merupakan proses untuk menemukan sekumpulan model yang menjelaskan dan membedakan kelas-kelas data, sehingga model tersebut dapat digunakan untuk memprediksi nilai suatu kelas yang belum diketahui pada sebuah objek (Agny Ismaya, 2005). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record. Tujuan dari klasifikasi adalah untuk:
1. Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set.
2. Mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh . Untuk mendapatkan model, kita harus melakukan analisis terhadap data latih (training). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data.

Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu :
1. Pembelajaran / Pembangunan Model
Tiap – tiap record pada data latih dianalisis berdasarkan nilai – nilai atributnya, dengan suatu algoritma klasifikasi untuk mendapatkan model.
2. Klasifikasi
Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record – record data baru yang belum pernah dilatihkan atau diujikan sebelumnya.



Didalam Klasifikasi sebagaimana telah dijelaskan, ada beberapa teknik klasifikasi yang digunakan, anataralain: pohon keputusan, rule based, neural network, support vector machine, naive bayes, dan nearest neighbour. Dan pada praktikum ini akan menggunakan teknik pohon keputusan, karena beberapa alasan:
1. Dibandingkan dengan classifier JST atau bayesian, sebuah pohon keputusan mudah diinterpretasi/ ditangani oleh manusia.
2. Sementara training JST dapat menghabiskan banyak waktu dan ribuan iterasi, pohon keputusan efisien dan sesuai untuk himpunan data besar.
3. Algoritma dengan pohon keputusan tidak memerlukan informasi tambahan selain yang terkandung dalam data training (yaitu, pengetahuan domain dari distribusi-distribusi pada data atau kelas-kelas).
4. Pohon keputusan menunjukkan akurasi klasifikasi yang baik dibandingkan dengan teknikteknik yang lainnya.

Tipe Simpul Pada Tree
Tree mempunyai 3 tipe simpul (Arun George Eapen), yaitu:
1. Simpul akar dimana tidak ada masukan edge dan 0 atau lebih keluaran edge (tepi),
2. Simpul internal, masing-masing 1 masukan edge dan 2 atau lebih edge keluaran,
3. Simpul daun atau simpul akhir, masing-masing 1 masukan edge dan tidak ada edge keluaran.

Tidak ada komentar:

Posting Komentar