Penambangan data statistik, juga dikenal sebagai pengetahuan atau penemuan data, adalah metode komputerisasi untuk mengumpulkan dan menganalisis informasi. Alat penambangan data mengambil data dan mengkategorikan informasi untuk menemukan pola atau korelasi yang dapat digunakan dalam aplikasi penting, seperti kedokteran, pemrograman komputer, promosi bisnis, dan desain robot. Teknik data mining statistik menggunakan matematika yang kompleks dan proses statistik yang rumit untuk membuat analisis.
Data mining melibatkan lima langkah utama. Aplikasi data mining pertama mengumpulkan data statistik dan menempatkan informasi dalam program tipe gudang. Selanjutnya, data di gudang diatur dan membuat sistem manajemen. Langkah selanjutnya membuat cara untuk mengakses data yang dikelola. Kemudian, langkah keempat mengembangkan perangkat lunak untuk menganalisis data, juga dikenal sebagai regresi data mining, sedangkan langkah terakhir memfasilitasi penggunaan atau interpretasi data statistik secara praktis.
Umumnya, teknik data mining mengintegrasikan sistem data analitik dan transaksi. Perangkat lunak analitik memilah-milah kedua jenis sistem data menggunakan pertanyaan pengguna terbuka. Pertanyaan terbuka memungkinkan jawaban yang tak terhitung jumlahnya sehingga programmer tidak mempengaruhi hasil penyortiran. Pemrogram membuat daftar pertanyaan untuk membantu dalam mengkategorikan informasi menggunakan fokus keseluruhan.
Penyortiran kemudian didasarkan pada pengembangan kelas dan kelompok data, asosiasi yang ditemukan dalam data, dan upaya untuk mendefinisikan pola dan tren berdasarkan asosiasi. Misalnya, Google mengumpulkan informasi tentang kebiasaan pembelian pengguna untuk membantu menempatkan iklan online. Pertanyaan terbuka yang digunakan untuk mengurutkan data pembeli ini fokus pada preferensi pembelian atau kebiasaan menonton pengguna internet.
Ilmuwan komputer dan pemrogram fokus pada analisis data statistik yang dikumpulkan. Pembuatan pohon keputusan, jaringan saraf tiruan, metode tetangga terdekat, induksi aturan, visualisasi data, dan algoritme genetika semuanya menggunakan data yang ditambang secara statistik. Sistem klasifikasi ini membantu dalam menafsirkan asosiasi yang ditemukan oleh program data analitik. Penambangan data statistik melibatkan proyek-proyek kecil yang dapat dilakukan dalam skala kecil di komputer rumah, tetapi sebagian besar kumpulan asosiasi penambangan data sangat besar dan regresi penambangan data sangat rumit sehingga memerlukan superkomputer atau jaringan komputer berkecepatan tinggi.
Penambangan data statistik mengumpulkan tiga jenis data umum, termasuk data operasional, data non-operasional, dan data meta. Di toko pakaian, data operasional merupakan data dasar yang digunakan untuk menjalankan bisnis, seperti akuntansi, penjualan, dan pengendalian persediaan. Data non-operasional, yang secara tidak langsung terkait dengan bisnis, termasuk perkiraan penjualan di masa depan dan informasi umum tentang pasar pakaian nasional. Meta data menyangkut data itu sendiri. Sebuah program yang menggunakan meta data dapat mengurutkan pelanggan toko ke dalam klasifikasi berdasarkan jenis kelamin atau lokasi geografis pembeli pakaian atau warna favorit pelanggan, jika data tersebut dikumpulkan.
Aplikasi penambangan data bisa sangat canggih dan alat penambangan data statistik mungkin memiliki aplikasi praktis yang tersebar luas. Studi tentang wabah penyakit adalah salah satu contohnya. Sebuah proyek penambangan data tahun 2000 menganalisis wabah penyakit cryptosporidium di Ontario, Kanada untuk menentukan penyebab peningkatan kasus penyakit. Hasil penambangan data membantu menghubungkan wabah bakteri dengan kondisi air setempat dan kurangnya pengolahan air kota yang tepat. Bidang yang disebut “biosurveillance” menggunakan penambangan data epidemiologis untuk mengidentifikasi wabah penyakit tunggal.
Pemrogram dan perancang komputer juga menggunakan studi probabilitas dan analisis data statistik untuk mengembangkan mesin dan program komputer. Mesin pencari Google Internet dirancang menggunakan penambangan data statistik. Google terus mengumpulkan dan menggunakan penambangan data untuk membuat pembaruan program dan aplikasi.