ANALISIS BALANCING DATA UNTUK MENINGKATKAN AKURASI DALAM KLASIFIKASI

Authors

  • Yolanda Eveline Ardiningtyas Program Studi Informatika, Universitas Sanata Dharma
  • Paulina Heruningsih Prima Rosa Program Studi Informatika, Universitas Sanata Dharma

Keywords:

ketidakseimbangan, klasifikasi, red wine

Abstract

Klasifikasi merupakan fungsi yang digunakan untuk memperkirakan kelas dari suatu objek yang label datanya tidak diketahui. Pada klasifikasi menggunakan pembelajaran mesin, data yang memiliki kelas yang tidak seimbang (imbalance) akan mempengaruhi hasil dari klasifikasi, karena proses klasifikasi hanya akan berjalan di kelas data mayoritas. Hal ini mengakibatkan sampel dari data kelas mayoritas tergolong baik, sedangkan sampel dari data minoritas akan cenderung salah atau dianggap sebagai noise data. Pada penelitian ini, digunakan metode random forest yang merupakan metode pembelajaran mesin berbasis pohon keputusan. Data yang digunakan pada penelitian ini adalah data kualitas red wine. Data ini memiliki 1599 baris (records) dan 12 atribut. Pada data ini terdapat atribut quality yang merepresentasikan penilaian kualitas wine dengan skala 1-10, di mana semakin besar nilainya maka akan semakin baik anggur tersebut. Data ini memiliki 6 kelas yang memiliki distribusi kelas 3 (undrinkable) sebanyak 10 data, 4 (undrinkable) sebanyak 53 data, 5 (pretty bad) sebanyak 681 data, 6 (fair) sebanyak 635 data, 7 (quaffable) sebanyak 199 data, dan 8 (very good) sebanyak 18 data. Preprocessing dilakukan untuk mempersiapkan data agar dapat diolah ke dalam algoritma. Preprocessing yang dilakukan adalah pengecekan terhadap noise dan missing value, dan transformasi data menggunakan metode normalisasi min-max. Setelah preprocessing dilakukan, maka selanjutnya dilakukan balancing kelas data minoritas dengan menggunakan metode SMOTE (Synthetic Minority Oversampling Technique). Proses pembagian data testing dan data training dilakukan dengan metode K-Fold Cross Validation. Pada tahap pengujian, digunakan 3-fold, 5-fold, 7-fold, 9-fold, dan 11-fold dengan kombinasi pohon 2n, dimana n = 1,2, …, 11.

 

Downloads

Published

2021-03-20

Issue

Section

Articles