In this paper, we address the problem of uncertainty management in identification of paraphrase sentence pairs. Paraphrase sentences are simply sets/pairs of sentences that express the same facts and/or opinions using different words or order of words. We propose the use of certainty factor (CF) model in paraphrase detection. A set of succeeding paraphrase detection features (generic and distance based features) is built by filtering and this set is used as evidences in CF model. The CF model is evaluated by F1 and accuracy measures on Microsoft Research Paraphrase corpus. The results are compared to the well-known Bayesian reasoning. The experimental results showed that CF model is an alternating paraphrase detection method to Bayes model.
Keywords: Paraphrase, Paraphrase detection, Certainty factor, Evidence, Evidence selectionBu makalede, eşanlatımlı cümle çiftlerinin belirlenmesindeki belirsizlik problemi üzerinde durulmuştur. Eşanlatım cümleleri basitçe aynı olay ve/veya fikri farklı sözcük veya sözcüklerin farklı dizilişleri ile ifade eden cümle çiftleri/kümeleridir. Çalışmada eşanlatım tespitinde eminlik faktörü (EF) modelinin kullanılması önerilmiştir. EF modelinde kullanılmak üzere filtreleme yöntemi ile eşanlatım tespitinde başarılı olan öznitelikler (jenerik ve uzaklık tabanlı öznitelikler) belirlenmiş ve bu öznitelikler kümesi EF modelinde kanıtlar olarak kullanılmıştır. EF modeli Microsoft Eşanlatım derlemi üzerinde F1 ve doğruluk ölçekleri ile sınanmıştır. Yöntemin başarımı Bayes karar verme yaklaşımı ile kıyaslanmıştır. Deney sonuçları EF modelinin eşanlatım tespitinde Bayes modeline bir alternatif yöntem olduğunu göstermiştir.
Anahtar Kelimeler: Eşanlatım, Eşanlatım tespiti, Eminlik faktörü, Delil, Delil seçimi