In DNA based applications, classical bit-level pseudo-random number generators (PRNGs) are mostly used. However, since these generators cannot produce outputs directly in the DNA space, additional encoding/adaptation layers are required. This increases both the computational cost and the complexity of key design, and makes it more difficult to control randomness properties at the DNA level. Therefore, mechanisms that can generate randomness properties directly on the DNA alphabet are needed. In this study, a DNA-alphabet pseudo-random number generator is proposed using a training-free, encoder-based Transformer architecture with randomly initialized weights. The model does not incorporate positional information and operates with a low-amplitude Dirichlet noise applied at the output layer. Within-block balanced sampling and a one-time global shuffling are used together to attenuate local frequency biases and short-range patterns in the A/C/G/T symbols. From 500,000-base sequences transformed using one of eight bijective DNA→binary mappings chosen at random, ten independent 1 Mbit binary outputs were generated. On CPU, with a block size of 100, the generation time was measured to be approximately 49 s. All ten independent streams satisfied the p>0.01 threshold in the NIST SP 800-22, and in the ENT analysis an entropy of ≈8 bits/byte and negligible serial correlation were observed. These findings show that the proposed DNA-alphabet PRNG exhibits satisfactory behavior in terms of statistical randomness. The study focuses on the experimental evaluation of this behavior rather than providing a formal security proof.
Keywords: Pseudo-random number generation, Encoder-only Transformer, Training-free generation, Statistical randomness tests.
DNA temelli uygulamalarda çoğunlukla bit düzeyinde çalışan klasik sözde rastgele sayı üreteçleri (SRSÜ) kullanılmaktadır. Ancak bu üreteçler DNA uzayına doğrudan çıkış veremediğinden, ek kodlama/adaptasyon katmanları gerektirir. Bu durum hem hesaplama maliyetini hem de anahtar tasarımının karmaşıklığını artırmakta, DNA düzeyindeki rastgelelik özelliklerinin kontrolünü zorlaştırmaktadır. Rastgelelik özelliklerini doğrudan DNA alfabesi üzerinde üretebilen mekanizmalara ihtiyaç duyulmaktadır. Bu çalışmada, eğitim gerektirmeyen ve rastgele başlatılmış ağırlıklara sahip kodlayıcı-tabanlı bir Transformer mimarisi kullanılarak DNA-alfabeli bir SRSÜ önerilmektedir. Model pozisyon bilgisi içermemekte; çıkış katmanında kullanılan düşük genlikli Dirichlet gürültüsü ile çalışmaktadır. Blok içi dengeli örnekleme ve tek seferlik global karıştırma birlikte kullanılarak A/C/G/T sembollerine ait yerel frekans yanlılıkları ve kısa menzilli örüntüler zayıflatılır. Sekiz bijektif DNA→ikili eşlemeden rastgele seçilen biriyle dönüştürülen 500 000 bazlık dizilerden 1 Mbit ikili on bağımsız çıktı üretilmiştir. CPU üzerinde, blok boyutu 100 iken üretim süresi yaklaşık 49 sn olarak ölçülmüştür. On bağımsız akışın tamamı NIST SP 800-22 p>0.01 eşiğini sağlamış, ENT analizinde ≈8 bit/byte entropi ve ihmal edilebilir seri korelasyonu gözlenmiştir. Bu bulgular, önerilen DNA-alfabeli SRSÜ’nün istatistiksel rastgelelik açısından tatmin edici bir davranış sergilediğini göstermektedir. Çalışma formel güvenlik ispatı sunmak yerine bu davranışın deneysel olarak değerlendirilmesine odaklanmaktadır.
Anahtar Kelimeler: Sözde rastgele sayı üretimi, Yalnızca kodlayıcı Transformer, Eğitim gerektirmeyen model, İstatistiksel rastgelelik testleri