Membersikan Data (Data Cleaning) dan Melakukan Integrasi Data

Ilham Setia Bhakti
2 min readMar 16, 2021

--

Tujuan pembelajaran

  • preprocessing data
  • cleaning data
  • integras(i) data
  • transformasi data
  • reduksi data
  • diskritisasi data

LATAR BELAKANG PRA-PROSES(PREPROCESS) DATA

  • Tidak komplit
  • Noisy
  • Tidak konsisten

TUJUAN PRAPROSES

Menghasilkan hasil mining yang berkualitas

CARA PEMBERSIHAN DATA (Data Cleansing)

  • Mengisi missing value
  • Meminimumkan Noise
  • Membetulkan data yang tidak konsisten
  • Mengindentifikasi /membuang outlier

Data cleansing atau yang disebut juga dengan data scrubbing merupakan suatu proses analisa mengenai kualitas dari data dengan mengubah. Bisa juga pengelola mengoreksi ataupun menghapus data tersebut. Data yang dibersihkan tersebut adalah data yang salah, rusak, tidak akurat, tidak lengkap dan salah format.

Mengatasi MISSING VALUE

  • Mengabaikan record
  • Menggunakan mean/median/modus dari atribut yang mengandung missing value
  • Menggunakan nilai termungkin (Menerapkan regresi)

METODE BINING (dilakukan untuk mengelompokkan data)

Urutan proses:

1. Urutkan data dari kecil ke besar (ascending)

2. Melakukan partisi data dalam bins menggunakan equal-width atau equal-depth (frekuensi)

3. Dapat di-smoothing menggunakan rata-rata, median, batasan, dsb.

INTEGRASI DATA

Teknik-teknik:

ANALISIS KORELASI

ATRIBUT REDUDAN

DUPLIKASI

PENYEBAB REDUNDANSI DATA

  • Atribut yang sama mempunyai nama yang berbeda pada database yang berbeda
  • Satu atribut merupakan turunan dari atribut lainnya

TRANSFORMASI DATA

Tujuan diadakan transformasi data agar datap lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami

Hal hal yang termasuk transformasi data

  • Smoothing : Menghapus noise dari data
  • Aggregation : Ringkasan, Konstruksi data cube
  • Normalization : Min-max, Z-Score, Decimal Scaling

REDUKSI DATA

Memperkecil volume tapi menghasilkan analasis data yang sama. Strategi- strategi data reduksi: Data cube aggregation, reduksi dimensi (menghapus atribut yang tidak penting), kompresi data, dsb.

--

--

Ilham Setia Bhakti
Ilham Setia Bhakti

No responses yet