Yapısal destek, depolama, sinyal iletimi, savunma gibi organizmalarımız için çok önemli olan görevlerde yer alan proteinlerin birbirleriyle olan ilişkilerinin gösterildiği Protein – Protein etkileşim ağlarını anlayabilmek hücresel süreçleri daha iyi anlayabilmeyi sağlamaktadır. Bu amaçla yapılan önemli çalışmalardan birisi protein – protein etkileşim ağlarından protein komplekslerini tespit etmeye çalışmaktır. Protein komplekslerini tespit etmek için denetimli ve denetimsiz makine öğrenmesi yöntemleri kullanılmıştır. Kullanılan makine öğrenmesi yöntemlerinin birden fazla yöntem bir arada kullanıldığında daha iyi performans ürettiği bilinmektedir. Buna benzer bilgilere dayanarak bu çalışmada protein – protein etkileşim ağlarından protein komplekslerini tespit eden bir yöntem önerilmiştir. Yöntem, ilk olarak protein – protein etkileşim ağlarını proteinlerin biyolojik ve topolojik özelliklerini kullanarak ağırlıklandırır. Ardından yerel ve global protein kompleksi çekirdeklerini tahmin eder. Sonra proteinlerin yapısal modülerliğini ve oylama regresyon modelini kullanarak protein kompleksi tespit eden model oluşturur. XGB regresyonu, gauss süreci regresyonu, catboost regresyonu ve histogram tabanlı gradyan artırma regresyonu denetimli öğrenme yöntemlerinin oylamalı regresyon modelinde birlikte kullanıldığında daha başarılı sonuçlar elde edebileceğini öngörüyoruz. Modelin başarısını diğer modellerle kıyasladığımızda kıyaslanan modeller arasında birçok kez en iyi performansı göstermiştir.
Anahtar Kelimeler: Protein-Protein Etkileşim Ağları, Protein Kompleksi Tespiti, Makine Öğrenmesi, Oylama Regresyon, Biyoenformatik, Ağ GömmeUnderstanding Protein - Protein interaction networks, which show the interactions between proteins involved in tasks that are very important for our organisms such as structural support, storage, signal transduction and defence, provides a better understanding of cellular processes. One of the important studies carried out for this purpose is to try to detect protein complexes from protein - protein interaction networks. Supervised and unsupervised machine learning methods were used to detect protein complexes. It is known that the machine learning methods used produce better performance when more than one method is used together. Based on this knowledge, a method that detects protein complexes from protein-protein interaction networks is proposed in this study. The method first weights protein-protein interaction networks using biological and topological properties of proteins. Then it estimates local and global protein complex core. Then it builds a protein complex detection model using the structural modularity of proteins and the voting regression model. We predict that XGB regression, gaussian process regression, catboost regression and histogram-based gradient boosting regression supervised learning methods can achieve more successful results when used together in the voting regression model. When we compare the success of the model with other models, it has shown the best performance many times among the compared models.
Keywords: Protein-Protein Interaction Networks, Protein Complex Detection, Machine Learning, Voting Regression, Bioinformatics, Network Embedding