E-ISSN: 2587-0351 | ISSN: 1300-2694
Comparison of Machine Learning Techniques for Classification of Phishing Web Sites [Pamukkale Univ Muh Bilim Derg]
Pamukkale Univ Muh Bilim Derg. 2018; 24(5): 870-878 | DOI: 10.5505/pajes.2018.10846

Comparison of Machine Learning Techniques for Classification of Phishing Web Sites

Tahir Emre Kalaycı
Department of Computer Engineering, Faculty of Engineering, Manisa Celal Bayar University, Manisa

Today, machine learning approaches are used to make computers act more accurately for various purposes. In this manner, one area in which the machine learning approaches are used is the detection of phishing web sites. Phishing is an online threat, which depends on creating a fake web site that mimics a trustworthy web site to steal important personal information. It is important to predict whether a website is a phishing website in order to avoid this danger before it happens. In this study, AdaBoost, multilayer perceptron, support vector machine, decision tree, k-nearest neighbors, Naïve Bayes and random forest machine learning techniques are compared to predict the purpose of a website. This comparison is performed by experimenting over a dataset containing 1353 instances with 9 different features. The experimental evaluation is performed in two different settings. The first setting based on splitting the data into training and test sets. In this setting the evaluation results show that the random forest algorithm, which is an ensemble learning approach based on decision trees, outperforms other compared approaches. On the other hand, in the second setting based on cross validation, multilayer perceptron shows a better performance.

Keywords: Machine Learning, Classification, Phishing

Kimlik Hırsızı Web Sitelerinin Sınıflandırılması için Makine Öğrenmesi Yöntemlerinin Karşılaştırılması

Tahir Emre Kalaycı
Manisa Celal Bayar Üniversitesi Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Manisa

Günümüzde makine öğrenmesi yöntemleri bilgisayarların daha doğru eylemler gerçekleştirmesi amacıyla birçok farklı şekilde kullanılmaktadır. Bu amaçla kullanıldıkları bir alan kimlik hırsızı web sitelerinin tespit edilmesidir. Kimlik hırsızlığı, önemli kişisel bilgileri çalmak amacıyla güvenilir web sitelerini taklit eden sahte web sitelerinin oluşturulduğu çevrimiçi bir saldırı biçimidir. Bu tehlikeyi gerçekleşmeden önlemek amacıyla web sitelerinin farklı özelliklere dayanarak kimlik hırsızı bir site olup olmadığının belirlenmesi önemlidir. Bu çalışmada, bir web sitesinin kimlik hırsızı olup olmadığını tahmin etmek amacıyla AdaBoost, çok katmanlı algılayıcı, destek vektör makinesi, karar ağacı, en yakın k komşu, Naïve Bayes ve rastgele orman makine öğrenmesi yöntemleri 9 farklı özellik içeren 1353 örnekten oluşan bir veri kümesinden yararlanarak karşılaştırılmıştır. Eğitim ve sınama şeklinde ikiye bölünmüş veri kümesiyle yapılan deneylerde karar ağaçlarından oluşturulan bir topluluk öğrenme yaklaşımı olan rastgele orman yöntemi, karşılaştırılan diğer yöntemlere göre daha başarılı olsa da çapraz doğrulamanın kullanıldığı durumda çok katmanlı algılayıcı daha yüksek bir başarım elde etmiştir.

Anahtar Kelimeler: Makine Öğrenmesi, Sınıflandırma, Kimlik Hırsızlığı

Tahir Emre Kalaycı. Comparison of Machine Learning Techniques for Classification of Phishing Web Sites. Pamukkale Univ Muh Bilim Derg. 2018; 24(5): 870-878

Corresponding Author: Tahir Emre Kalaycı, Türkiye
Manuscript Language: Turkish
LookUs & Online Makale