In corporations, software issues and software change demands are forwarded to the Information Technology (IT) unit via a demand management system. The priority information in this system has critical importance to the IT unit. However, the priority decision that is left to the individuals who create the demand records may not always be realistic. For instance, a non-critical and low-priority demand may be created with the highest priority, and this may lead to faulty planning and eventually to customer dissatisfaction. In this work, internal customer demands were classified using text mining techniques and their priorities were predicted. The system was trained and tested with the records extracted from the demand management system of a corporation. After cleaning and preprocessing the raw textual demand data, TF-IDF (Term Frequency – Inverse Document Frequency) weighting scheme was used when creating the document-term matrix. Several classification algorithms were tested on the data set generated, and the highest performance was obtained by Sequential Minimal Optimization algorithm with 54.1% F-Score. In addition, on the dataset made balanced with oversampling technique, the highest performance was achieved by Random Forest algorithm with 74.5% F-Score.
Keywords: Software engineering, Demand prioritization, Machine learning, Text classification, Random forestKurumsal şirketlerde, yazılımlardaki hatalar ve değişiklik talepleri genellikle bir talep yönetim sistemi üzerinden Bilgi Teknolojileri (BT) birimine iletilir. Bu sistemde yer alan öncelik bilgisi BT birimi için kritik öneme sahiptir. Ancak, talebi giren kişilerin inisiyatifine bırakılan öncelik kararı her zaman gerçekçi olmamaktadır. Örneğin, kritik olmayan ve düşük öncelikli bir değişiklik talebi yüksek öncelikli olarak girilebilmekte, bu da hatalı planlama ve müşteri memnuniyetsizliği ile sonuçlanabilmektedir. Bu çalışmada, iç müşteri talepleri metin madenciliği yöntemleriyle sınıflandırılarak taleplerin önem derecesi tahmin edilmeye çalışılmıştır. Sistemin eğitimi ve testi için kurumsal bir şirketin talep yönetim sisteminden alınan kayıtlar kullanılmıştır. Ham metin formundaki talep verisi üzerinde temizlik ve önişleme işlemlerinin ardından, doküman-terim matrisinin oluşturulmasında TF-IDF (Terim Frekansı – Ters Doküman Frekansı) ağırlıklandırma yönteminden yararlanılmıştır. Oluşturulan veri seti üzerinde çeşitli sınıflandırma algoritmaları test edilmiş ve en yüksek başarım %54.1 F-Skoru ile Sequential Minimal Optimization algoritmasıyla elde edilmiştir. Ayrıca, aşırı örnekleme yoluyla sınıfların dengeli hale getirildiği veri seti üzerinde ise en yüksek başarıma %74.5 F-Skoru değeri ile Random Forest algoritmasıyla ulaşılmıştır.
Anahtar Kelimeler: Yazılım mühendisliği, Talep önceliklendirme, Yapay öğrenme, Metin sınıflandırma, Random forest