Model Değerlendirme: Doğruluk vs F1 vs AUC

Model Değerlendirme Metriği: Doğruluk, F1 ve AUC Arasındaki Fark

Makine öğrenimi projelerinde model performansını tek bir sayı ile özetlemek cazip olsa da her metrik farklı bir soruya cevap verir. Bu rehberde doğruluk (accuracy), F1 skoru ve AUC ROC metriklerinin ne olduğunu, nasıl hesaplandıklarını, güçlü ve zayıf yönlerini ve pratikte hangi durumlarda tercih edilmesi gerektiğini adım adım ele alacağız.

Neden doğru metriği seçmelisiniz?

Metriğin seçimi doğrudan ürün kararlarını, hata maliyetlerini ve model optimizasyon stratejisini etkiler. Örneğin sahte işlem (fraud) tespiti gibi pozitif örneklerin az olduğu (dengesiz) görevlerde doğruluk yanıltıcı olabilir; aynı veri için F1 veya precision/recall tabanlı ölçütler daha anlamlı sonuç verir. Bu farkları anlamak, model karşılaştırma ve eşik seçimi (threshold tuning) süreçlerinde kritik önem taşır (DataScienceBase).

Temel tanımlar ve karışıklık matrisi (confusion matrix)

Aşağıdaki 2x2 tablo, ikili sınıflandırmada temel sayıları tanımlar:

	Predicted Positive	Predicted Negative
Actual Positive	TP (True Positive)	FN (False Negative)
Actual Negative	FP (False Positive)	TN (True Negative)

Buradan türetilen temel formüller:

Doğruluk (Accuracy) = (TP + TN) / (TP + TN + FP + FN)
Kesinlik (Precision) = TP / (TP + FP)
Duyarlılık / Geri çağırma (Recall) = TP / (TP + FN)
F1 skoru = 2 * (Precision * Recall) / (Precision + Recall)
AUC ROC = ROC eğrisinin altındaki alan; ROC, True Positive Rate vs False Positive Rate çizimidir

Doğruluk (Accuracy): Avantajlar ve sınırlamalar

Ne ölçer? Toplam doğru tahminlerin oranını ölçer. Basit ve anlaşılır bir ölçüttür.

Ne zaman uygundur? Sınıfların nispeten dengeli olduğu ve yanlış pozitif ile yanlış negatif sonuçlarının maliyetinin benzer olduğu durumlarda kullanışlıdır (DataScienceBase).

Sınırlama: Dengesiz veri kümelerinde yüksek doğruluk, modelin işe yaramadığını gizleyebilir (örneğin pozitif sınıf çok küçükse her örneği negatif tahmin eden bir model yüksek doğruluk elde edebilir).

Kesinlik, Duyarlılık ve F1 Skoru

Kesinlik (Precision), pozitif olarak tahmin edilen örneklerin ne kadarının gerçekten pozitif olduğunu söyler. Duyarlılık (Recall) ise gerçek pozitiflerin ne kadarının tespit edildiğini gösterir.

F1 skoru, precision ve recall arasındaki dengeyi sağlar; özellikle pozitif sınıfın nadir olduğu veya hem FP hem FN maliyetlerinin önemli olduğu görevlerde (ör. spam tespiti, bazı bilgi çıkarma görevleri) tercih edilir (FlowHunt).

ROC Eğrisi ve AUC: Karar eşiğinden bağımsız değerlendirme

ROC eğrisi modelin farklı karar eşiklerinde (threshold) True Positive Rate ile False Positive Rate ilişkisini gösterir. AUC (Area Under the Curve), bu eğrinin altındaki alandır ve modelin sınıfları ayırt etme gücünü özetler. AUC, eşikten bağımsız bir sıralama yeteneği ölçüsüdür; bu nedenle eşik seçimi öncesi model karşılaştırmasında sık kullanılır (Tealium).

Not: AUC genellikle sınıf dengesizliğine karşı daha dayanıklıdır, ancak iş maliyetleri veya belirli eşiklerdeki performans gereksinimleri göz önüne alınmadan tek başına yeterli olmayabilir.

Kıyaslamalı bir örnek (pratik)

Varsayalım veri setimiz 1.000 örnek ve bu örneklerden 50 tanesi pozitif. İki sınıflandırıcıyı karşılaştıralım:

Çoğunluk sınıflandırıcısı (her zaman negatif tahmin eder): TP=0, FP=0, FN=50, TN=950 → Doğruluk = 95%, Recall = 0, F1 = 0.
Model X (pozitifleri yakalayabiliyor ama çok fazla false positive de üretiyor): TP=30, FP=270, FN=20, TN=680 → Doğruluk = 71%, Precision = 10%, Recall = 60%, F1 ≈ 17%.

Bu örnekte doğruluk açısından ilk model daha iyi gözükür (95% vs 71%), fakat pozitif sınıfı yakalama açısından ikinci model (Model X) anlamlı bir iyileşme sağlar. Eğer pozitif sınıfın yakalanması (ör. sahte işlemin tespiti) kritikse, F1 veya recall tabanlı ölçütleri tercih etmek gerekir. Bu tür karşılaştırmalar için çeşitli metrikleri aynı anda raporlamak önemlidir (MetricGate).

Hangi metriği seçmelisiniz? Pratik karar akışı

Sınıf dağılımını kontrol edin (pozitif/negatif oranı).
İş hedefinizi tanımlayın: yanlış pozitiflerin (FP) mı yoksa yanlış negatiflerin (FN) mı maliyeti daha yüksek?
Eğer sınıflar dengeli ve FP/FN maliyetleri benzer ise doğruluk kullanılabilir.
Eğer pozitif sınıf nadirse ve hem FP hem FN önemliyse F1 skoru veya precision/recall tabanlı ölçütler tercih edin.
Eşikten bağımsız genel ayırt etme gücünü görmek için AUC ROC kullanın; ancak iş eşiğini seçerken precision/recall eğrilerini de kontrol edin.
Her zaman birden fazla metriği raporlayın (confusion matrix + accuracy + precision + recall + F1 + AUC) ve eşik ayarlamasını iş gereksinimlerine göre yapın.

Uygulama kontrol listesi (adım adım)

1) Veri dağılımını (sınıf dengesini) inceleyin.
2) Confusion matrix oluşturun ve temel oranları hesaplayın (precision, recall, accuracy).
3) AUC ve ROC eğrisini hesaplayın; PR (Precision-Recall) eğrisini de çizmek özellikle dengesiz verilerde faydalıdır.
4) Modelleri iş hedeflerine göre eşiklendirin (threshold tuning) ve maliyet fonksiyonlarını göz önünde bulundurun.
5) Karşılaştırma raporunda en az iki farklı metriği birlikte sunun.

Yaygın hatalar ve kaçınma yolları

Tek metrikle karar vermek: Birden fazla metrik raporlamak daha güvenlidir.
Sınıf dengesizliğini göz ardı etmek: Dengesiz veri varsa precision/recall ve PR eğrilerine bakın.
AUC’yu tek başına model kalibrasyonu veya belirli eşik performansı için kullanmak: AUC, sıralamayı ölçer; eşik-seçim sonrası performans farklı olabilir.

Önerilen raporlama formatı

Her model için aşağıdakileri raporlayın:

Confusion matrix
Accuracy, Precision, Recall, F1
AUC ROC (ve mümkünse PR AUC)
Seçilen eşik değeri ve nedenleri

Kaynaklar ve ileri okuma

Model Evaluation Metrics for Supervised Learning — DataScienceBase (genel metrikler ve sınırlamalar)
F1 Skoru — FlowHunt (F1 tanımı ve kullanım alanları)
The ROC/AUC curve — Tealium (ROC/AUC açıklaması)
AUC vs Accuracy vs F1 — MetricGate (karşılaştırmalı tartışma)

Sonuç

Doğruluk, F1 skoru ve AUC ROC farklı yönlerden model performansını değerlendirir. Doğru metriği seçmek için veri dağılımınızı, iş gereksinimlerinizi ve hata maliyetlerini dikkate alın; genellikle birden fazla metriği birlikte raporlamak en güvenilir yaklaşımdır.