Klasifikasi data mining merupakan salah satu langkah dalam proses data mining. Ini digunakan untuk mengelompokkan item berdasarkan karakteristik kunci tertentu. Ada beberapa teknik yang digunakan untuk klasifikasi data mining, antara lain klasifikasi tetangga terdekat, pembelajaran pohon keputusan, dan mesin vektor pendukung.
Data mining adalah metode yang digunakan peneliti untuk mengekstrak pola dari data. Umumnya sampel yang representatif dipilih dari kumpulan data dan kemudian dimanipulasi dan dianalisis untuk menemukan pola. Selain klasifikasi data mining, peneliti juga dapat menggunakan clustering, regresi, dan pembelajaran aturan untuk menganalisis data.
Ada beberapa algoritma yang dapat digunakan dalam klasifikasi data mining. Klasifikasi tetangga terdekat adalah salah satu yang paling sederhana dari algoritma klasifikasi data mining. Itu bergantung pada satu set pelatihan. Training set adalah sekumpulan data yang digunakan untuk melatih komputer agar memperhatikan variabel tertentu. Dalam klasifikasi tetangga terdekat, komputer hanya mengklasifikasikan semua data sebagai bagian dari kelompok yang berisi data yang paling dekat nilainya dengan input.
Pembelajaran pohon keputusan menggunakan model percabangan untuk mengklasifikasikan data. Komputer pada dasarnya mengajukan serangkaian pertanyaan tentang data. Jika jawaban untuk pertanyaan pertama benar, ia menanyakan pertanyaan 2a. Jika jawabannya salah, ia menanyakan pertanyaan 2b. Saat ditarik keluar, metode ini membentuk pohon jalur percabangan.
Klasifikasi Naive Bayes bergantung pada probabilitas. Ini menanyakan serangkaian pertanyaan tentang setiap bagian data dan kemudian menggunakan jawaban untuk menentukan probabilitas bahwa data tersebut termasuk dalam klasifikasi tertentu. Hal ini berbeda dengan pembelajaran pohon keputusan karena jawaban pertanyaan pertama tidak mempengaruhi pertanyaan mana yang akan diajukan selanjutnya.
Metode klasifikasi data mining yang lebih rumit termasuk jaringan saraf dan mesin vektor pendukung. Metode ini adalah model berbasis komputer yang akan sulit dilakukan dengan tangan. Jaringan saraf sering digunakan dalam pemrograman kecerdasan buatan karena meniru otak manusia. Ini menyaring informasi melalui serangkaian node yang menemukan pola dan kemudian mengklasifikasikan informasi.
Mesin vektor pendukung menggunakan sampel pelatihan untuk membangun model yang akan mengklasifikasikan informasi, biasanya divisualisasikan sebagai plot pencar dengan ruang yang lebar antar kategori. Ketika informasi baru dimasukkan ke dalam mesin, itu diplot pada grafik. Data tersebut kemudian diklasifikasikan berdasarkan kategori informasi mana yang paling dekat dengan grafik. Metode ini hanya berfungsi ketika ada dua opsi untuk dipilih.