E-ISSN: 2587-0351 | ISSN: 1300-2694
Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi
Veri analizinde veri ön işleme teknikleri üzerine kapsamlı bir inceleme [Pamukkale Univ Muh Bilim Derg]
Pamukkale Univ Muh Bilim Derg. 2022; 28(2): 299-312 | DOI: 10.5505/pajes.2021.62687

Veri analizinde veri ön işleme teknikleri üzerine kapsamlı bir inceleme

Volkan Çetin, Oktay Yıldız
Gazi Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı, Ankara

Yaşanan teknolojik gelişmeler ile beraber bilgisayar ortamında saklanan veri miktarı çok hızlı bir şekilde artmaktadır. Bu verilerin doğru bir şekilde değerlendirilmesi ve faydalı bilgiye dönüştürülmesi için de veri analizi önemli bir araştırma konusu olmuştur. Veri analizinde elbette veriler önemli bir rol oynar. Ancak başarım, verinin özelliklerine büyük ölçüde bağımlıdır. Bu sebeple herhangi bir veri analizi süreci başlamadan önce bir ön işlemden geçirmek elzemdir. Veri ön işleme hatalı, eksik ya da istenmeyen diğer sorunların üstesinden gelerek doğru ve kullanışlı veri kümelerini oluşturur. Bu makalede veri ön işleme konusunda son 5 yılda hazırlanmış makale ve bildiriler sistematik olarak araştırılmış ve yaygın olarak kullanılan ön işleme yöntemlerinin üç ana dal altında; veri temizleme, veri dönüştürme ve veri azaltma olarak sınıflandığı görülmüştür. Bu yöntemler ve çeşitli algoritmaları incelenmiş, kullanım sıklıkları sunulmuş ve başarım performansları açısından karşılaştırmaları yapılmıştır. Çalışmanın sonucunun da gösterdiği üzere ham veriler üzerine veri ön işleme yöntemleri kullanılmadığında ya da yanlış veri ön işleme yöntemi kullanıldığında tek başına veri analizi yöntemleri yeterli başarımlara ulaşamamaktadır.

Anahtar Kelimeler: Veri Analizi, Veri Madenciliği, Veri Ön İşleme, Veri Azaltma, Veri Dönüştürme, Veri Temizleme, Gürültü Filtreleme

A comprehensive review on data preprocessing techniques in data analysis

Volkan Çetin, Oktay Yıldız
Department Of Computer Engineering, Gazi University, Ankara, Turkey

With the technological developments, the amount of data stored in the computer environment is increasing very rapidly. Data analysis has become an important research subject for the correct evaluation of these data and to transform them into useful information. Of course, data play an important role in data analysis. However, model performance is highly dependent on the characteristics of the data. For this reason, it is essential to preprocess them before starting any data analysis process. Data preprocessing creates accurate and useful datasets by overcoming erroneous, incomplete, or other unwanted problems. In this study, papers on data preprocessing in the last 5 years have been researched systematically and it has been observed that widely used preprocessing methods are classified under three main branches: data cleaning, data transformation and data reduction. These methods and various algorithms of them are examined, the frequency of use is presented, and comparisons are made in terms of accuracy performance. As the result of the study shows, when data preprocessing methods are not used on raw data or when wrong data preprocessing methods are applied, data analysis methods alone cannot achieve sufficient performance.

Keywords: Data Analysis, Data Mining, Data Preprocessing, Data Reduction, Data Transformation, Data Cleaning, Noise Filtering

Volkan Çetin, Oktay Yıldız. A comprehensive review on data preprocessing techniques in data analysis. Pamukkale Univ Muh Bilim Derg. 2022; 28(2): 299-312

Sorumlu Yazar: Volkan Çetin, Türkiye
Makale Dili: İngilizce
LookUs & Online Makale