E-ISSN: 2587-0351 | ISSN: 1300-2694
Analyzing and improving information gain of metrics used in software defect prediction in decision trees [Pamukkale Univ Muh Bilim Derg]
Pamukkale Univ Muh Bilim Derg. 2018; 24(5): 906-914 | DOI: 10.5505/pajes.2018.93584

Analyzing and improving information gain of metrics used in software defect prediction in decision trees

İbrahim Berkan Aydilek
Harran University Engineering Faculty, Department of Computer Engineering, Şanlıurfa

McCabe and Halstead method-level metrics are among the well-known and widely used quantitative software metrics are used to measure software quality in a concrete way. Software defect prediction can guess which or which of the sub-modules in the software to be developed may be more prone to defect. Thus, loss of labor and time can be avoided. The datasets which are used for software defect prediction, usually have an unbalanced class distribution, since the number of records with defective class can be fewer than the number of records with not defective class and this situation adversely affect the results of the machine learning methods. Information gain is employed in decision trees and decision tree based rule classifier and attribute selection methods. In this study, software metrics that provide important information for software defect prediction have been investigated and CM1, JM1, KC1 and PC1 datasets of NASA's PROMISE software repository have been balanced with the synthetic data over-sampling Smote algorithm and improved in terms of information gain. As a result, the software defect prediction datasets with higher classification success performance and the software metrics with increased information gain ratio are obtained in the decision trees.

Keywords: Software defect prediction, decision trees, information gain ratio

Yazılım hata tahmininde kullanılan metriklerin karar ağaçlarındaki bilgi kazançlarının incelenmesi ve iyileştirilmesi

İbrahim Berkan Aydilek
Harran Üniversitesi Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Şanlıurfa

Yazılım kalitesinin somut bir şekilde ölçülebilmesi için kullanılan sayısal yazılım metrikleri içinde bilinen ve yaygın şekilde kullanılanlar arasında McCabe ve Halstead yöntem-seviye metrikleri bulunmaktadır. Yazılım hata tahmini, geliştirilecek olan yazılımda bulunan alt modüllerin hangisi veya hangilerinin daha çok hataya meyilli olabileceğini konusunda öngörüde bulunabilmektedir. Böylece işgücü ve zaman konusundaki kayıpların önüne geçilebilmektedir. Yazılım hata tahmini için kullanılan veri kümelerinde, hata var sınıflı kayıt sayısı, hata yok sınıflı kayıt sayısına göre daha az sayıda olabildiğinden bu veri kümeleri genellikle dengeli olmayan bir sınıf dağılımına sahip olmakta ve makine öğrenme yöntemlerinin sonuçlarını olumsuz etkilemektedir. Bilgi kazancı, karar ağaçları ve karar ağacı temeline dayanan kural sınıflayıcı, nitelik seçimi gibi algoritma ve yöntemlerde kullanılmaktadır. Bu çalışmada, yazılım hata tahmini için önemli bilgiler sunan yazılım metrikleri incelenmiş, NASA’nın PROMISE yazılım veri deposundan CM1, JM1, KC1 ve PC1 veri kümeleri sentetik veri artırım Smote algoritması ile daha dengeli hale getirilerek bilgi kazancı yönünden iyileştirilmiştir. Sonuçta karar ağaçlarında sınıflama başarı performansı daha yüksek yazılım hata tahmini veri kümeleri ve bilgi kazanç oranı yükseltilmiş yazılım metrik değerleri elde edilmiştir.

Anahtar Kelimeler: Yazılım hata tahmini, karar ağaçları, bilgi kazanç oranı

İbrahim Berkan Aydilek. Analyzing and improving information gain of metrics used in software defect prediction in decision trees. Pamukkale Univ Muh Bilim Derg. 2018; 24(5): 906-914

Corresponding Author: İbrahim Berkan Aydilek, Türkiye
Manuscript Language: Turkish
LookUs & Online Makale