Tan (2006) mendefinisikan data mining sebagai proses untuk mendapatkan informasi yang berguna dari gudang basis data yang besar. Data mining juga dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan. Menurut Wulandari (2017), data mining merupakan salah satu rangkaian Knowledge Discovery in Databases (KDD). KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interpretasi dan visualisasi dari pola-pola sejumlah data. Serangkaian proses tersebut memiliki tahap sebagai berikut:
- Pembersihan data (untuk membuang data yang tidak konsisten dan noise).
- Integrasi data (penggabungan data dari beberapa sumber).
- Transformasi data (data diubah menjadi bentuk yang sesuai untuk di lakukan proses mining).
- Aplikasi teknik data mining, proses ekstraksi pola dari data yang ada.
- Evaluasi pola yang ditemukan (proses interpretasi pola menjadi pengetahuan yang dapat digunakan untuk mendukung pengambilan keputusan).
- Presentasi pengetahuan (dengan data visualisasi).
Berdasarkan teknik dan sifat dalam data mining adalah sebagai berikut:
- Klasifikasi, yaitu menentukan sebuah kelas data baru ke salah satu dari beberapa kategori (kelas) yang telah didefinisikan sebelumnya. Disebut juga dengan “supervised learning”.
- Klasterisasi, yaitu mempartisi data-set menjadi beberapa kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu, dengan tingkat similaritas yang tinggi dalam suatu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut juga dengan “unsupervised learning”.
- Regresi, yaitu memprediksi nilai suatu variabel kontinu yang diberikan berdasarkan nilai dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier.
- Summarize, yaitu menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan. Summarization biasa didefinisikan sebagai suatu kegiatan menemukan deskripsi yang tepat pada suatu data pengamatan.
- Deteksi anomali (anomaly detection), dapat digunakan untuk mengidentifikasi data yang tidak umum, bisa berupa outlier (pencilan) dan perubahan (deviasi) yang mungkin sangat penting dan perllu investigasi lebih lanjut. Deteksi anomali berkaitan dengan pengamatan sebuah data dari sejumlah data yang secara signifikan mempunyai karakteristik yang berbeda dari data yang lain.
- Kaidah asosiasi (association rule), yaitu mendeteksi kumpulan variabel yang muncul secara bersamaan dalam frekuensi yang sering dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut.
DATA INTEGRASI
Data integrasi adalah suatu proses penggabungan data dari beberapa sumber data.
Contoh data integrasi:
Data Total Laba Tahun 2017 Dari Beberapa Kota
Samarinda |
| Balikpapan |
| Bontang | |||
Triwulan | Laba |
| Triwulan | Laba |
| Triwulan | Laba |
I | $1,000 |
| I | $2,000 |
| I | $1,500 |
II | $1,200 |
| II | $1,800 |
| II | $1,900 |
III | $1,600 |
| III | $2,200 |
| III | $1,800 |
IV | $1,800 |
| IV | $1,900 |
| IV | $1,700 |
Penyelesaian menggunakan software R:
Syntax: KotaSamarinda<-c(“$1000″,”$1200″,”$1600″,”$1800”) KotaBalikpapan<-c(“$2000″,”$1800″,”$2200″,”$1900”) KotaBontang<-c(“$1500″,”$1900″,”$1800″,”$1700”) Periode<-c(“Triwulan I”,”Triwulan II”,”Triwulan III”,”Triwulan IV”) data=data.frame(Periode,KotaSamarinda,KotaBalikpapan,KotaBontang) data |
Output:
DATA TRANSFORMASI
Dalam data transformasi, data ditransformasikan untuk mempermudah penggalian data.
Contoh normalisasi:
- Min max normalization
- Z-score normalization
Contoh data transformasi:
Usia | Gaji |
25 | Rp200.000 |
35 | Rp120.000 |
50 | Rp2.000.000 |
Penyelesaian menggunakan software R:
Syntax: #Vektor Usia usia<-c(25,35,50) #Vektor Gaji gaji<-c(200000,1200000,2000000) df<-data.frame(“Usia”=usia,”Gaji”=gaji,stringsAsFactors=FALSE) df normalize<-function(x){ return((x-min(x))/(max(x)-min(x)))} #Min-Max Nomalization dfNorm<-as.data.frame(lapply(df,normalize)) dfNorm<-as.data.frame(lapply(df[1:2],normalize)) dfNorm #Z-Score Standardization dfNormZ<-as.data.frame(scale(df[1:2])) dfNormZ |
Output: