Pengenalan Data Mining

Tan (2006) mendefinisikan data mining sebagai proses untuk mendapatkan informasi yang berguna dari gudang basis data yang besar. Data mining juga dapat diartikan sebagai pengekstrakan informasi baru yang diambil dari bongkahan data besar yang membantu dalam pengambilan keputusan. Menurut Wulandari (2017), data mining merupakan salah satu rangkaian Knowledge Discovery in Databases (KDD). KDD berhubungan dengan teknik integrasi dan penemuan ilmiah, interpretasi dan visualisasi dari pola-pola sejumlah data. Serangkaian proses tersebut memiliki tahap sebagai berikut:

  1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise).
  2. Integrasi data (penggabungan data dari beberapa sumber).
  3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di lakukan proses mining).
  4. Aplikasi teknik data mining, proses ekstraksi pola dari data yang ada.
  5. Evaluasi pola yang ditemukan (proses interpretasi pola menjadi pengetahuan yang dapat digunakan untuk mendukung pengambilan keputusan).
  6. Presentasi pengetahuan (dengan data visualisasi).

Berdasarkan teknik dan sifat dalam data mining adalah sebagai berikut:

  1. Klasifikasi, yaitu menentukan sebuah kelas data baru ke salah satu dari beberapa kategori (kelas) yang telah didefinisikan sebelumnya. Disebut juga dengan “supervised learning”.
  2. Klasterisasi, yaitu mempartisi data-set menjadi beberapa kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu, dengan tingkat similaritas yang tinggi dalam suatu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut juga dengan “unsupervised learning”.
  3. Regresi, yaitu memprediksi nilai suatu variabel kontinu yang diberikan berdasarkan nilai dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier.
  4. Summarize, yaitu menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan. Summarization biasa didefinisikan sebagai suatu kegiatan menemukan deskripsi yang tepat pada suatu data pengamatan.
  5. Deteksi anomali (anomaly detection), dapat digunakan untuk mengidentifikasi data yang tidak umum, bisa berupa outlier (pencilan) dan perubahan (deviasi) yang mungkin sangat penting dan perllu investigasi lebih lanjut. Deteksi anomali berkaitan dengan pengamatan sebuah data dari sejumlah data yang secara signifikan mempunyai karakteristik yang berbeda dari data yang lain.
  6. Kaidah asosiasi (association rule), yaitu mendeteksi kumpulan variabel yang muncul secara bersamaan dalam frekuensi yang sering dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut.

DATA INTEGRASI

Data integrasi adalah suatu proses penggabungan data dari beberapa sumber data.

Contoh data integrasi:

Data Total Laba Tahun 2017 Dari Beberapa Kota

Samarinda

 

Balikpapan

 

Bontang

Triwulan

Laba

 

Triwulan

Laba

 

Triwulan

Laba

I

$1,000

 

I

$2,000

 

I

$1,500

II

$1,200

 

II

$1,800

 

II

$1,900

III

$1,600

 

III

$2,200

 

III

$1,800

IV

$1,800

 

IV

$1,900

 

IV

$1,700

Penyelesaian menggunakan software R:

Syntax:

KotaSamarinda<-c(“$1000″,”$1200″,”$1600″,”$1800”)

KotaBalikpapan<-c(“$2000″,”$1800″,”$2200″,”$1900”)

KotaBontang<-c(“$1500″,”$1900″,”$1800″,”$1700”)

Periode<-c(“Triwulan I”,”Triwulan II”,”Triwulan III”,”Triwulan IV”)

data=data.frame(Periode,KotaSamarinda,KotaBalikpapan,KotaBontang)

data

Output:

DATA TRANSFORMASI

Dalam data transformasi, data ditransformasikan untuk mempermudah penggalian data.

Contoh normalisasi:

  1. Min max normalization

  2. Z-score normalization

Contoh data transformasi:

Usia

Gaji

25

Rp200.000

35

Rp120.000

50

Rp2.000.000

Penyelesaian menggunakan software R:

Syntax:

#Vektor Usia

usia<-c(25,35,50)

#Vektor Gaji

gaji<-c(200000,1200000,2000000)

df<-data.frame(“Usia”=usia,”Gaji”=gaji,stringsAsFactors=FALSE)

df

normalize<-function(x){

return((x-min(x))/(max(x)-min(x)))}

#Min-Max Nomalization

dfNorm<-as.data.frame(lapply(df,normalize))

dfNorm<-as.data.frame(lapply(df[1:2],normalize))

dfNorm

#Z-Score Standardization

dfNormZ<-as.data.frame(scale(df[1:2]))

dfNormZ

Output:

Leave a Reply