Sinir Ağı Katmanları ve Aktivasyon Fonksiyonları

Giriş

Derin öğrenme modelleri, verideki doğrusal olmayan ilişkileri yakalamak için birbiri ardına dizilmiş katmanlardan ve bu katmanlarda uygulanan aktivasyon fonksiyonlarından faydalanır. Bu yazıda önce sinir ağı katmanlarının işlevlerini ve türlerini özetliyor; ardından en sık kullanılan aktivasyon fonksiyonlarını, dropout ve normalizasyon (batch normalization) gibi teknikleri basit, uygulamaya dönük örneklerle açıklıyoruz.

Sinir ağlarının temel katmanları

Girdi katmanı: Veri özelliklerini (ör. piksel değerleri, kelime gömme vektörleri) alır ve ağın ilk işleme bloğuna aktarır.
Gizli katmanlar: Veriyi dönüştüren ve özellikleri çıkaran katmanlardır; bir veya daha fazla olabilir. Gizli katmanlarda kullanılan aktivasyon fonksiyonları, ağın doğrusal olmayan ilişkileri öğrenmesini sağlar (EITCA Akademisi).
Çıktı katmanı: Modelin tahminlerini üretir; görev türüne göre uygun aktivasyon (sigmoid, softmax vb.) seçilir.

Katman türleri: Dense, CNN, RNN

Farklı veri tipleri için farklı katman mimarileri uygundur:

Dense (tam bağlı) katman: Her nöron bir önceki katmandaki tüm nöronlara bağlıdır. Genellikle son katmanlarda veya küçük ölçekli problemlerde kullanılır.
Evrişimli sinir ağları (CNN): Görüntü, ses spektrumu gibi yerel örüntü içeren verilerde kullanılır; evrişim (convolution) ve havuzlama (pooling) katmanları tipiktir. CNN'ler, görüntü sınıflandırma ve nesne tespiti gibi görevlerde yaygındır.
Tekrarlayan sinir ağları (RNN) ve türevleri (LSTM, GRU): Zaman serileri ve dil işleme gibi sıralı verilerde kullanılır; önceki adımların bilgisini taşımaya uygundur.

Aktivasyon fonksiyonları: Neden önemli?

Aktivasyon fonksiyonları, bir nöronun çıkışını dönüştürerek ağın doğrusal olmayan karar sınırları öğrenmesini sağlar. Aktivasyon seçimi eğitim davranışını, öğrenme hızını ve nihai doğruluğu etkileyebilir. Genel tanım ve örnekler için bakılabilir kaynaklar arasında FlowHunt ve Elektrikport yer alır.

Sigmoid

Sigmoid fonksiyonu çıktıyı 0 ile 1 arasına sıkıştırır; bu nedenle ikili sınıflandırmada çıktı katmanı için doğaldır. Gizli katmanlarda kullanıldığında sıfır merkezli olmaması nedeniyle öğrenmeyi zorlaştırabilir.

Tanh (hiperbolik tanjant)

Tanh çıktıları -1 ile 1 arasında verir ve sıfır merkezli olduğu için bazı durumlarda sigmoid'ten daha hızlı öğrenme sağlar. Ancak büyük derinliklerde yine de gradyan sönmesi sorununa maruz kalabilir.

ReLU (Rectified Linear Unit)

ReLU, negatif değerleri 0'a, pozitifleri lineer tutar (max(0, x)). Hesaplama açısından basit ve derin ağlarda gradyan sönmesini azaltmaya yardımcı olduğu için yaygın tercih edilir. Öte yandan bazı nöronlar eğitim sırasında sürekli 0 değerine düşerek işlevsizleşebilir ("dead ReLU"). Bu durumda Leaky ReLU gibi varyantlar tercih edilebilir.

Softmax

Softmax, çok sınıflı sınıflandırmada çıktıların olasılık dağılımı şeklinde normalize edilmesini sağlar; çıktıların toplamı 1 olur ve sınıflar arası göreli olasılıkları verir.

Dropout ve normalizasyon (Batch Normalization)

Overfitting ve eğitim kararlılığı için sık kullanılan iki pratik yöntem:

Dropout: Eğitim sırasında rastgele bazı nöronları kapatarak (çıkışlarını 0 yaparak) modelin belirli nöronlara aşırı bağımlılığını azaltır. Küçük veri setlerinde veya aşırı parametreli modellerde yardımcı olabilir.
Batch normalization: Her mini-batch için bir katmanın girişlerini normalize ederek öğrenmeyi hızlandırır ve daha yüksek öğrenme oranlarına izin verebilir. Batch norm genellikle doğrusal dönüşümden sonra ve aktivasyondan önce ya da sonra yerleştirilebilir; uygulama ve kütüphaneye göre farklılık gösterebilir.

Batch normalization ve dropout birlikte kullanılabilir; bazı durumlarda batch norm aşırı uyumu azaltarak dropout ihtiyacını düşürebilir, ancak bu her zaman geçerli değildir — doğrulama sonuçlarına bakmak gerekir.

Basit, uygulanabilir örnekler

Aşağıdaki üç örnek, hangi aktivasyonun nerede mantıklı olduğuna dair pratik görüş sağlar. Örnekler anlatımdır; hiperparametreler veri setine göre ayarlanmalıdır.

1) İkili sınıflandırma (küçük tabanlı MLP)

Girdi: özellik vektörü
Gizli katman: Dense(64) + ReLU
Dropout(0.5) — küçük veri seti için
Çıktı: Dense(1) + Sigmoid

Neden? ReLU gizli katmanda hızlı ve kararlı öğrenme sağlar; sigmoid çıktı 0–1 aralığında tahmin verir.

2) Görüntü sınıflandırma (CNN örneği)

Evrişim katmanları: Conv2D + ReLU + Pooling
Flatten → Dense(256) + ReLU
Çıktı: Dense(num_classes) + Softmax

Görüntü görevlerinde ReLU yaygındır; softmax ise çok sınıflı çıktı olasılıkları için uygundur.

3) Sıralı veri / dil modeli (RNN türevleri)

Girdi: gömme (embedding) vektörleri
LSTM/GRU katmanları (tanh ve sigmoid iç kapılarda kullanılır)
Çıktı: zaman serisi tahmini veya sınıflandırma için Dense + Softmax

RNN türevlerinde iç kapılarda tanh ve sigmoid kullanımı, zaman içindeki bilgiyi taşıma ve kapatma mekanizmalarını sağlar.

Pratik ipuçları ve kontrol listesi

Önceki deneyimler çoğu zaman ReLU'yu gizli katmanlarda başlangıç noktası yapmayı önerir; daha sonra veri ve model davranışına göre alternatifler denenmelidir.
Çok sınıflı problemler için çıktı katmanında softmax; ikili sınıflarda sigmoid tercih edin.
Derin ağlarda gradyan sönmesi görürseniz ReLU veya modern aktivasyonları deneyin; eğer nöronlar ölüyor ise Leaky ReLU düşünün.
Batch normalization ile eğitim kararlılığı ve hızlanma sağlanabilir; hyperparametre aramalarınızda yer verin.
Dropout, küçük veri setlerinde overfitting'i azaltmaya yardımcı olur; ancak büyük veri/strong regularization durumunda gereksiz olabilir.
Her değişiklikten sonra doğrulama seti performansını izleyin; mimari seçimler veri türüne bağlıdır.

Sınırlamalar ve notlar

Burada verilen örnekler öğretici amaçlıdır. En iyi aktivasyon, katman yapısı ve düzenleme (regularization) kombinasyonu veri seti, model boyutu ve hedefe göre değişir; bu nedenle doğrulama skorlarına dayalı deneysel seçim esastır. Aktivasyon fonksiyonlarının temel rolleri ve tanımları için daha fazla teknik detay FlowHunt ve EITCA Akademisi kaynaklarına bakılabilir.

Sinir ağı katmanları ve aktivasyon fonksiyonları: Basit örneklerle