Cara Mudah Lakukan Pre-Processing Dataset Menggunakan RapidMiner 9.10

Table of Contents

Pre-processing merupakan tahap awal yang penting bagi penerapan data mining. Pada pre-processing, dataset mentah yang didapatkan dari public dataset maupun privat dataset akan dilakukan pengolahan awal, agar dataset menjadi lebih efisien ketika diolah algoritma. Bentuk efisiensi dataset yang dimaksud adalah terhindar dari missing value, error value, anomali dan ketidakkonsistenan pada dataset. Langkah pre-processing yang lazim dilakukan adalah cleaning data, reduksi data, integrasi data hingga transformasi data. Tentu, langkah pre-processing tiap dataset akan berbeda, karena menyesuaikan kondisi dataset. 

Artikel ini menjelaskan contoh pre-processing dataset menggunakan perkakas bantu yang populer untuk data mining, yaitu RapidMiner 9.10. Sebagai contoh, saya memiliki dataset mentah tentang data pengguna internet, sebagaimana ditampilkan pada Gambar 1. Dataset ini dapat anda diunduh di tautan ini dengan nama InternetUser.csv.

Dataset mentah
Gambar 1. Dataset mentah

Sebelum pre-processing dilakukan, terlebih dahulu dataset dilakukan analisis missing value dan error value. Kita dapat langsung memanfaatkan fitur statistik pada RapidMiner 9.10. Bagaimana caranya?

Gambar 2. Memilih Operator Read CSV

Langkah pertama, buatlah blank process pada RapidMiner 9.10, kemudian pilih Operator Read CSV. Geser ke tampilan Process. Koneksikan bagian output ke result. Hasilnya, seperti pada Gambar 2. 


Gambar 3. Import Configuration Wizard

Setiap Operator dalam RapidMiner, pasti memiliki Parameter yang berfungsi sebagai input. Tanpa input, Operator tidak akan bisa dieksekusi. Pada Operator Read CSV, Parameter yang wajib dilengkapi adalah Import Configuration Wizard. Klik Import Configuration Wizard untuk melengkapi Parameter. Sebagaimana pada Gambar 3, konfigurasi ini memerlukan beberapa langkah, antara lain:

  1. Select data location. Anda diminta untuk memilih direktori tempat keberadaan dataset. 
  2. Specifiy your data format. Untuk CSV, RapidMiner akan mendeteksi format data secara otomatis.
  3. Format your column. Di bagian ini, anda diminta untuk menyesuaikan tipe data dari setiap atribut, walaupun RapidMiner sudah bisa menentukan otomatis. Hanya saja, hasil identifikasi tipe data oleh RapidMiner, terkadang kurang tepat. Misalnya, pada atribut yang harusnya bertipe data binominal tercatat sebagai polynominal. Anda harus mengubah tipe datanya secara manual. Contohnya pada atribut gender, read_news, online_shop, online_gaming, facebook, twitter dari polynominal ke binominal. Setelah itu, klik finish.

Pada tahap ini, Process pada RapidMiner bisa dieksekusi dan menampilkan dataset pada tampilan Result. Selanjutanya, klik tampilan Statistics agar informasi seputar dataset bisa kita analisis. Tampilan Statistics ditunjukkan pada Gambar 4. 

Gambar 4. Statistik Dataset

Warna kuning pada Gambar 4, sengaja saya goreskan untuk menandai adanya kejanggalan pada dataset. Apa saja kejanggalannya? 

Dataset ini memiliki 15 atribut dengan 5 atribut yang bermasalah, antara lain:

  1. Atribut read_news, bertipe data binominal, memiliki 1 missing value.
  2. Atribut online_shopping, bertipe data binominal, memiliki 2 missing values.
  3. Atribut online_gaming, bertipe data binominal, memiliki 3 missing values.
  4. Atribut twitter, bertipe data binominal, memiliki 1 error value.
  5. Atribut other_social_network, bertipe data polynominal, memiliki 7 missing values.
Acuan missing value terdapat pada kolom missing di tampilan statistik. Saya kira menandai missing  value cukup mudah. Agak rumit ketika mencari adanya error value, karena error value ditandai dengan nilai yang tidak sesuai dengan format data. Contohnya pada atribut twitter, harusnya berformat nilai N/Y. Namun terdapat nilai aneh, yakni 99. Maka dipastikan 99 adalah error value. Pencarian error value lebih rumit jika atribut bertipe data polynominal. 

Setelah dataset mentah dianalisis, maka langkah pre-processing dapat kita tentukan. Tahapan pre-processing yang direncanakan antara lain:
  1. Melakukan cleaning data pada atribut online_shopping dan online gaming. Cleaning data dilakukan karena jumlah instances yang missing melebihi ambang batas diperbolehkannya reduksi data. 
  2. Melakukan reduksi data pada atribut read_news. Reduksi pada atribut ini sangat memungkinkan karena jumlah instances tidak lebih dari 10% dari total jumlah instances.
  3. Melakukan replace value pada atribut twitter, yakni pada instance yang memiliki nilai 99. 
  4. Melakukan reduksi pada atribut other_social_network. Hal ini dilakukan karena jumlah nilai missing melebihi 50% dari total seluruh instances. Sehingga mengakibatkan atribut ini tidak lagi dapat difungsikan. 
Perlu saya ingatkan kembali. Tahapan pre-processing berbeda-beda sesuai dengan kondisi dataset masing-masing. Jika anda mencoba menggunakan dataset selain yang saya contohkan ini, maka kebutuhan pre-processing-nya pun juga akan berbeda. Anda tinggal menyesuaikannya. 

Tahap 1: Cleaning Data

Post a Comment