Membersikan Data (Data Cleaning) dan Melakukan Integrasi Data
Tujuan pembelajaran
- preprocessing data
- cleaning data
- integras(i) data
- transformasi data
- reduksi data
- diskritisasi data
LATAR BELAKANG PRA-PROSES(PREPROCESS) DATA
- Tidak komplit
- Noisy
- Tidak konsisten
TUJUAN PRAPROSES
Menghasilkan hasil mining yang berkualitas
CARA PEMBERSIHAN DATA (Data Cleansing)
- Mengisi missing value
- Meminimumkan Noise
- Membetulkan data yang tidak konsisten
- Mengindentifikasi /membuang outlier
Data cleansing atau yang disebut juga dengan data scrubbing merupakan suatu proses analisa mengenai kualitas dari data dengan mengubah. Bisa juga pengelola mengoreksi ataupun menghapus data tersebut. Data yang dibersihkan tersebut adalah data yang salah, rusak, tidak akurat, tidak lengkap dan salah format.
Mengatasi MISSING VALUE
- Mengabaikan record
- Menggunakan mean/median/modus dari atribut yang mengandung missing value
- Menggunakan nilai termungkin (Menerapkan regresi)
METODE BINING (dilakukan untuk mengelompokkan data)
Urutan proses:
1. Urutkan data dari kecil ke besar (ascending)
2. Melakukan partisi data dalam bins menggunakan equal-width atau equal-depth (frekuensi)
3. Dapat di-smoothing menggunakan rata-rata, median, batasan, dsb.
INTEGRASI DATA
Teknik-teknik:
ANALISIS KORELASI
ATRIBUT REDUDAN
DUPLIKASI
PENYEBAB REDUNDANSI DATA
- Atribut yang sama mempunyai nama yang berbeda pada database yang berbeda
- Satu atribut merupakan turunan dari atribut lainnya
TRANSFORMASI DATA
Tujuan diadakan transformasi data agar datap lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami
Hal hal yang termasuk transformasi data
- Smoothing : Menghapus noise dari data
- Aggregation : Ringkasan, Konstruksi data cube
- Normalization : Min-max, Z-Score, Decimal Scaling
REDUKSI DATA
Memperkecil volume tapi menghasilkan analasis data yang sama. Strategi- strategi data reduksi: Data cube aggregation, reduksi dimensi (menghapus atribut yang tidak penting), kompresi data, dsb.