E-ISSN: 2587-0351 | ISSN: 1300-2694
Pamukkale University Journal of Engineering Sciences Attention in the Frequency Domain: A Complex Phase-Shifting Spatial Attention Mechanism for 3D Generative Models [Pamukkale Univ Muh Bilim Derg]
Pamukkale Univ Muh Bilim Derg. Ahead of Print: PAJES-78703 | DOI: 10.65206/pajes.78703

Attention in the Frequency Domain: A Complex Phase-Shifting Spatial Attention Mechanism for 3D Generative Models

Zafer Serin1, Cihan Karakuzu2, Uğur Yüzgeç2
1Department Of Web Design And Coding, Bilecik Seyh Edebali University Pazaryeri Vocational School, Bilecik
2Department Of Computer Engineering, Bilecik Seyh Edebali University Faculty Of Engineering, Bilecik

Extracting 3D object geometry from a single 2D image remains a fundamental challenge in computer vision due to inherent information scarcity and ambiguity. To encourage the model to learn fundamental geometric structure rather than over-relying on texture and color cues, we employ a novel data augmentation strategy termed Silhouette Augmentation (SA). Our approach builds upon a voxel-based 3D-VAE-GAN architecture and introduces Complex Phase-Shifting Attention (CPSA), a frequency-domain attention mechanism that performs learned modulation of both phase and amplitude components of feature maps. The CPSA modules are integrated into the encoder after the second, third, and fourth convolutional layers to enhance mid- and high-level feature representations while preserving low-level inductive biases. Experiments are conducted on the widely adopted 13-category ShapeNet subset using an object-instance-level 80/20 train-test split, where all rendered views of each 3D object are assigned exclusively to a single split to prevent data leakage. Quantitative evaluation using the Intersection over Union (IoU) metric demonstrates consistent improvements over the baseline and spatial-domain attention mechanisms (SE and CBAM). When CPSA and SA are jointly applied, the proposed model achieves an average IoU of 0.577 across 13 categories. Multi-seed experiments further confirm the robustness of the improvement, reporting mean ± standard deviation values across independent runs (e.g., 0.6308 ± 0.0040 for Airplane, 0.4326 ± 0.0130 for Display, and 0.5270 ± 0.0023 for Table). Qualitative results show improved global structural coherence, particularly for categories with dominant global geometry. A computational analysis indicates that these gains are obtained with a moderate training-time increase, demonstrating the practical feasibility of frequency-domain attention in voxel-based 3D generative models.

Keywords: Complex Phase-Shifting Attention (CPSA), Single-View 3D Reconstruction, 3D-VAE-GAN, Frequency Domain Attention, Generative Adversarial Networks (GANs)


Frekans Düzleminde Dikkat: 3B Üretken Modeller için Karmaşık bir Faz Kaydırmalı Uzamsal Dikkat Mekanizması

Zafer Serin1, Cihan Karakuzu2, Uğur Yüzgeç2
1Bilecik Şeyh Edebali Üniversitesi Pazaryeri Meslek Yüksekokulu, Web Tasarımı Ve Kodlama Bölümü, Bilecik
2Bilecik Şeyh Edebali Üniversitesi Mühendislik Fakültesi, Bilgisayar Mühendisliği Bölümü, Bilecik

Tek bir 2D görüntüden 3D nesne geometrisini çıkarmak, içsel bilgi kıtlığı ve belirsizlik nedeniyle bilgisayar görüsünde temel bir zorluk olmaya devam etmektedir. Modelin doku ve renk ipuçlarına aşırı güvenmek yerine temel geometrik yapıyı öğrenmesini teşvik etmek için, Siluet Artırma (SA) adı verilen yeni bir veri artırma stratejisi kullanıyoruz. Yaklaşımımız, voksel tabanlı bir 3D-VAE-GAN mimarisi üzerine kuruludur ve özellik haritalarının hem faz hem de genlik bileşenlerinin öğrenilmiş modülasyonunu gerçekleştiren bir frekans alanı dikkat mekanizması olan Karmaşık Faz Kaydırma Dikkatini (CPSA) sunar. CPSA modülleri düşük seviyeli tümevarımsal eğilimleri korurken, orta ve yüksek seviyeli öznitelik temsillerini güçlendirmek amacıyla kodlayıcının ikinci, üçüncü ve dördüncü evrişimli katmanlarından sonra yapıya entegre edilmiştir. Deneyler, yaygın olarak kullanılan 13 kategorili ShapeNet alt kümesinde, nesne örneği düzeyinde 80/20 eğitim-test bölünmesi kullanılarak gerçekleştirilmiştir. Bu bölünmede, veri sızıntısını önlemek için her 3D nesnenin tüm işlenmiş görünümleri tek bir bölüme atanmıştır. Kesişim Üzerine Birleşim (IoU) metriği kullanılarak yapılan nicel değerlendirme, temel ve uzamsal alan dikkat mekanizmalarına (SE ve CBAM) göre tutarlı iyileştirmeler olduğunu göstermektedir. CPSA ve SA birlikte uygulandığında, önerilen model 13 kategoride ortalama 0,577 IoU değerine ulaşmaktadır. Çoklu tohum deneyleri, bağımsız çalışmalarda ortalama ± standart sapma değerlerini bildirerek iyileştirmenin sağlamlığını daha da teyit etmektedir (örneğin, Uçak için 0,6308 ± 0,0040, Ekran için 0,4326 ± 0,0130 ve Masa için 0,5270 ± 0,0023). Nitel sonuçlar, özellikle baskın küresel geometriye sahip kategorilerde, küresel yapısal tutarlılığın iyileştiğini göstermektedir. Hesaplamalı bir analiz, bu kazanımların eğitim süresinin makul bir artışıyla elde edildiğini göstererek, voksel tabanlı 3D üretken modellerde frekans alanı dikkatinin pratik uygulanabilirliğini ortaya koymaktadır.

Anahtar Kelimeler: Karmaşık Faz Kaydırmalı Dikkat, Tek Görüntüden 3B Yeniden Yapılandırma, 3B-VAE-GAN, Frekans Düzlemi Dikkati, Çekişmeli Üretici Ağlar


Corresponding Author: Zafer Serin, Türkiye
Manuscript Language: English
×
APA
MLA
Chicago
Copied!
CITE
Pajes