Machine Learning dan Istilah dalam Data Set

Table of Contents
Machine learning adalah bidang ilmu komputer yang menggunakan teknik statistika untuk memberi kemampuan sistem komputer agar dapat belajar dari data, tanpa diprogram secara eksplisit. 

Lebih spesifik, machine learning merupakan bagian dari keilmuan Artificial Intelligent (kecerdasan buatan) yang erat kaitannya dengan komputer. Sehingga, machine learning bertujuan agar komputer dapat belajar sendiri, berfikir sendiri, dan mengambil keputusan sendiri. 

Timbul pertanyaan, bukankah komputer hanya benda mati yang tidak bisa berbuat apa-apa? Bagaimana komputer bisa belajar sendiri jika tanpa perintah manusia? Jawaban pertanyaan itu tidaklah sederhana. 

Begini. Komputer akan belajar dari data yang diberikan. Prinsip ini meniru cara belajar manusia. Manusia belajar dari kumpulan data yang membentuk informasi. Pada akhirnya, informasi akan terhimpun menjadi pengetahuan. Dengan cara inilah komputer diajarkan supaya cerdas. 

Jadi, data memegang peranan penting untuk membentuk kecerdasan komputer. Pada algoritma machine learning, data ini berlaku sebagai input, yang dikenal sebagai "dataset" atau "data set". Sebelum belajar berbagai algoritma machine learning, baiknya belajar dahulu mengenai istilah dalam data set. 

Bayangkan data set seperti tabel berisi kumpulan data yang dinyatakan dalam baris dan kolom. 

Contoh data set dalam machine learning

Bagi orang awam, setiap tabel hanya berisi baris dan kolom. Ternyata, ada berbagai istilah unik yang terdapat pada tabel data set. Istilah itu akan tetap melekat pada setiap data set di machine learning. 

Instance
Prinsipnya, setiap baris dari tabel data set disebut instance. Menunjukkan pengamatan dari domain permasalahan. 

Feature
Setiap kolom pada data set disebut fitur (feature). Nama lainnya adalah atribut (attribute of data instance). Sebagian fitur adalah input dari model, contohnya adalah fitur x,y,z pada gambar. Sebagian lagi adalah hasil prediksi, output dari fitur yang diprediksi. Contohnya adalah fitur class pada gambar. 

Bagi kita yang terbiasa dengan pemrograman, pasti mengenal tipe data. Tipe data dalam pemrograman spesifik dan kompleks. Contohnya string, char, boolean, int, double, float,  dan masih banyak lagi. 

Pada machine learning, sebenarnya tipe data ini dipisahkan menjadi bilangan real (numerik) atau categorical. Tujuannya untuk memudahkan algoritma mengenai dan memahami data set. Pada gambar, tipe data set yang digunakan adalah numerik. Contoh tipe data set categorical pernah saya tuliskan di perhitungan manual algoritma naive bayes

Terakhirm data set ini dipisahkan menjadi 2 bagian. Sebagian menjadi training data set, sebagian lagi testing data set. Training data set digunakan untuk proses belajar bagi komputer. Sedangkan testing data set digunakan untuk menguji model. Analoginya, mirip siswa sekolah yang lagi diajari di kelas (training). Kemudian diuji untuk mengetahui hasil belajar. 

Ada juga yang memisahkan data set menjadi 3 bagian. Ada tambahan validation data set. Digunakan untuk validasi atau evaluasi model yang sudah dipilih. Jika ada yang membagi data set menjadi 2 bagian dengan menghilangkan validation data set, berarti validation data set digabung dengan testing data set. 

Agar tidak menjadi bias dan ambigu. Sebaiknya testing data set dan validation data set tidak dicampuradukkan. 

Contoh pembagian porsi data set seperti ini:
Training data set: 50%
Validation data set: 25%
Testing data set: 25%

Tentu pembagian porsi ini bisa berbeda. Tidak ada patokan baku. Pembagian porsi ini bisa mengacu ke besar dataset yang digunakan. 

Sekian.

Referensi:
J. Brownlee. 2017. Data, Learning and Modelling. machinelearningmastery.com
B. Purnama, 2019. Pengantar Machine Learning. Bandung: INFORMATIKA

Post a Comment