Pengertian Data Mining
Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan
yang tersembunyi di dalam database. Data mining merupakan proses semi
otomatik yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam
database besar. (Turban et al, 2005 ).
Menurut Gartner Group data mining adalah
suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan
dengan menggunakan teknik pengenalan pola seperti teknik statistik dan
matematika (Larose, 2006).
Selain definisi di atas beberapa definisi juga diberikan seperti, “data
mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara
manual.” (Pramudiono, 2006). “Data mining adalah analisis otomatis dari data
yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau
kecenderungan yang penting yang biasanya tidak disadari keberadaannya.”
(Pramudiono, 2006).
“Data mining merupakan analisis dari peninjauan kumpulan data untuk
menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang
berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik
data.” (Larose, 2006). “Data mining merupakan bidang dari beberapa keilmuan
yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistik,
database, dan visualisasi untuk penanganan permasalahan pengambilan informasi
dari database yang besar.” (Larose, 2006).
Kemajuan luar biasa yang terus berlanjut dalam bidang data mining
didorong oleh beberapa faktor, antara lain : (Larose, 2006)
- Pertumbuhan yang cepat dalam kumpulan data.
- Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan
memiliki akses ke dalam database yang baik.
- Adanya peningkatan akses data melalui navigasi web dan intranet.
- Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar dalam
globalisasi ekonomi.
- Perkembangan teknologi perangkat lunak untuk data mining
(ketersediaan teknologi).
- Perkembangan yang hebat dalam kemampuan komputasi dan
pengembangan kapasitas media penyimpanan.
Berdasarkan definisi-definisi yang telah disampaikan, hal penting yang
terkait dengan data mining adalah :
- Data mining merupakan suatu proses otomatis terhadap data yang
sudah ada.
- Data yang akan diproses berupa data yang sangat besar.
- Tujuan data mining adalah mendapatkan hubungan atau pola yang
mungkin memberikan indikasi yang bermanfaat.
Hubungan yang dicari dalam data mining dapat berupa hubungan antara
dua atau lebih dalam satu dimensi. Misalnya dalam dimensi produk, dapat di lihat
keterkaitan pembelian suatu produk dengan produk yang lain. Selain itu,
hubungan juga dapat dilihat antara dua atau lebih atribut dan dua atau lebih objek.
(Ponniah, 2001).
Sementara itu, penemuan pola merupakan keluaran lain dari data mining.
Misalkan sebuah perusahaan yang akan meningkatkan fasilitas kartu kredit dari
pelanggan, maka perusahaan akan mencari pola dari pelanggan-pelanggan yang
ada untuk mengetahui pelanggan yang potensial dan pelanggan yang tidak
potensial.
Beberapa definisi awal dari data mining meyertakan fokus pada proses
otomatisasi. Berry dan Linoff, (2004) dalam buku Data Mining Technique for
Marketing, Sales, and Customer Support mendefinisikan data mining sebagai
suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan
yang berarti (Larose, 2006).
Tiga tahun kemudian, dalam buku Mastering Data Mining mereka
memberikan definisi ulang terhadap pengertian data mining dan memberikan
pernyataan bahwa “jika ada yang kami sesalkan adalah frasa secara otomatis
maupun semi otomatis, karena kami merasa hal tersebut memberikan fokus
berlebih pada teknik otomatis dan kurang pada eksplorasi dan analisis”. Hal
tersebut memberikan pemahaman yang salah bahwa data mining merupakan
produk yang dapat dibeli dibandingkan keilmuan yang harus dikuasai
(Larose, 2006).
Pernyataan tersebut menegaskan bahwa dalam data mining otomatisasi
tidak menggantikan campur tangan manusia. Manusia harus ikut aktif dalam
setiap fase dalam proses data mining. Kehebatan kemampuan algoritma data
mining yang terdapat dalam perangkat lunak analisis yang terdapat saat ini
memungkinkan terjadinya kesalahan penggunaan yang berakibat fatal. Pengguna
mungkin menerapkan analisis yang tidak tepat terhadap kumpulan data dengan
menggunakan pendekatan yang berbeda. Oleh karenanya, dibutuhkan pemahaman
tentang statistik dan struktur model matematika yang mendasari kerja perangkat
lunak (Larose, 2006).
Gambar Bidang Ilmu Data Mining
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu
kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining
mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan
terlebih dahulu. Gambar menunjukkan bahwa data mining memiliki akar yang
panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent),
machine learning, statistik, database, dan juga information retrieval
(Pramudiono, 2006).
Istilah data mining dan Knowledge Discovery in Database (KDD) sering
kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut
memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu
tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara
garis besar dapat dijelaskan sebagai berikut (Fayyad, 1996).
1. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai.
Data hasil seleksi yang akan digunakan untuk proses data mining,
disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses
cleaning pada data yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan
cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data atau informasi lain
yang relevan dan diperlukan untuk KDD, seperti data atau informasi
eksternal.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis
atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam
data terpilih dengan menggunakan teknik atau metode tertentu. Teknik,
metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan
metode dan algoritma yang tepat sangat bergantung pada tujuan dan
proses KDD secara keseluruhan.
5. Interpretation/Evalution
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan bagian dari proses KDD yang
disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola
atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis
yang ada sebelumnya. Penjelasan di atas dapat direfresentasikan pada
Gambar.
Gambar Proses dari Data Mining
Sumber: SPSS, 2004
Cross-Industry Standart Process for Data Mining (CRISP-DM) yang di
kembangkan tahun 1996 oleh analisis dari beberapa industri seperti Daimler
Chrysler, SPSS dan NCR. CRISP-DM menyediakan standar proses data mining
sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.
Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang
terbagi dalam enam fase Gambar. Keseluruhan fase berurutan yang ada
tersebut bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada
keluaran dari fase sebelumnya. Hubungan penting antar fase digambarkan dengan
panah. Sebagai contoh, jika proses berada pada fase modeling. Berdasar pada
perilaku dan karakteristik model, proses mungkin kembali kepada fase data
preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju
kepada fase evaluation.
Gambar Proses Data Mining Menurut CRISP-DM
Sumber: CRISP, 2005
Enam fase CRISP-DM ( Cross Industry Standard Process for Data
Mining) (Larose, 2006).
1. Fase Pemahaman Bisnis ( Business Understanding Phase )
- Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
- Menerjemahkan tujuan dan batasan menjadi formula dari
permasalahan data mining.
- Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data ( Data Understanding Phase )
- Mengumpulkan data.
- Menggunakan analisis penyelidikan data untuk mengenali lebih
lanjut data dan pencarian pengetahuan awal.
- Mengevaluasi kualitas data.
- Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin
mengandung pola dari permasalahan
3. Fase Pengolahan Data ( Data Preparation Phase )
- Siapkan dari data awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat
yang perlu dilaksanakan secara intensif.
- Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai
analisis yang akan dilakukan.
- Lakukan perubahan pada beberapa variabel jika dibutuhkan.
- Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan ( Modeling Phase )
- Pilih dan aplikasikan teknik pemodelan yang sesuai.
- Kalibrasi aturan model untuk mengoptimalkan hasil.
- Perlu diperhatikan bahwa beberapa teknik mungkin untuk
digunakan pada permasalahan data mining yang sama.
- Jika diperlukan, proses dapat kembali ke fase pengolahan data
untuk menjadikan data ke dalam bentuk yang sesuai dengan
spesifikasi kebutuhan teknik data mining tertentu.
5. Fase Evaluasi ( Evaluation Phase )
- Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektivitas sebelum
disebarkan untuk digunakan.
- Menetapkan apakah terdapat model yang memenuhi tujuan pada
fase awal.
- Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
- Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6. Fase Penyebaran (Deployment Phase)
- Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
- Contoh sederhana penyebaran: Pembuatan laporan.
- Contoh kompleks Penyebaran: Penerapan proses data mining
secara paralel pada departemen lain. Informasi lebih lanjut
mengenai CRISP-DM dapat dilihat di www.crisp-dm.org