Denetimli öğrenmeye kısa giriş
Denetimli öğrenme (supervised learning), modelin eğitimi sırasında her örneğe doğru çıktı (etiket) verildiği bir makine öğrenimi yaklaşımıdır. Bu yöntem, girdilerle çıktılar arasındaki ilişkiyi öğrenmeyi ve yeni girdiler için doğru tahminler yapmayı amaçlar; bu tanım için Google'ın rehberine bakabilirsiniz: Google Developers: Gözetimli Öğrenme.
Daha genel olarak, denetimli öğrenme iki ana kategoriye ayrılır: sınıflandırma ve regresyon. Bu ayrım ve örnek kullanım alanları hakkında ek bir özet için Patika'nın rehberine göz atabilirsiniz: Patika.dev: Denetimli ve Denetimsiz Öğrenme.
Ana terimler (makine öğrenimi terimleri)
- Veri kümesi (dataset): Modelin öğrendiği giriş-çıkış örneklerinin tamamı.
- Girdi / Özellikler (features): Her örnekteki bağımsız değişkenler (ör. yaş, gelir, piksel değerleri).
- Etiket / Hedef (label / target): Modelin tahmin etmeye çalıştığı değer (ör. hasta/sağlıklı, ev fiyatı).
- Train/Test split: Verinin eğitim ve değerlendirme için ayırma yöntemi—modelin genelleme kabiliyetini test etmek için önemlidir.
- Overfitting / Underfitting: Modelin aşırı öğrenmesi ya da yetersiz öğrenmesi; düzenleme (regularization) ve daha iyi doğrulama yöntemleriyle önlenir.
- Cross validation (çapraz doğrulama): Modelin farklı veri bölümlerinde tutarlı performans gösterip göstermediğini anlamaya yarayan doğrulama yöntemi.
Sınıflandırma (Classification)
Sınıflandırma, çıktıların kategorik olduğu denetimli öğrenme alt türüdür. Örnekler: e‑posta üzerinde istenmeyen/istenen ayrımı, tıbbi görüntülerde lezyon sınıflandırması veya el yazısı rakam tanıma. Sınıflandırma problemlerinde amaç, verilen bir girdi için doğru sınıf etiketini tahmin etmektir.
Yaygın algoritmalar
- Logistic regression (lojistik regresyon)
- Decision trees ve Random forests
- Support Vector Machines (SVM)
- k-Nearest Neighbors (k-NN)
- Naive Bayes
Değerlendirme metrikleri
- Doğruluk (Accuracy) — genel başarı oranı (dengesiz sınıflarda yanıltıcı olabilir).
- Precision / Recall — pozitif tahminlerin doğruluğu ve pozitifleri yakalama oranı.
- F1‑score — precision ve recall'un harmonik ortalaması.
- Confusion matrix — sınıflar arası yanlış sınıflandırmaları gösterir.
Kurulum adımları (pratik rehber)
- Veriyi toplayın ve etiketlerin güvenilirliğini kontrol edin.
- Keşifsel veri analizi (EDA) ile dağılımları ve eksik verileri inceleyin.
- Özellik mühendisliği: kategorik değişkenleri kodlama, normalizasyon vb.
- Basit bir temel model (baseline) kurun, ör. lojistik regresyon.
- Cross validation kullanarak model performansını değerlendirin.
- Hiperparametre ayarı ve daha karmaşık modeller ile iyileştirme yapın.
- Test set üzerinde nihai performansı raporlayın ve üretime alım kararını verin.
Regresyon (Regression)
Regresyon, çıktının sürekli bir değer olduğu denetimli öğrenme problemidir. Örnek: ev fiyatı tahmini, bir makinenin çalışma sıcaklığı tahmini veya satış tahmini. Regresyon modelleri girdilerle hedef arasındaki sayısal ilişkiyi yakalamaya çalışır.
Yaygın algoritmalar
- Linear regression (doğrusal regresyon)
- Ridge / Lasso (düzenleme ile doğrusal modeller)
- Decision Tree Regressor, Random Forest Regressor
- Gradient Boosting yöntemleri (ör. XGBoost, LightGBM — kavramsal olarak)
Değerlendirme metrikleri
- Mean Squared Error (MSE) / Root MSE (RMSE)
- Mean Absolute Error (MAE)
- R² (determination coefficient) — açıklanan varyans oranı
Cross validation (Çapraz doğrulama) — neden ve nasıl?
Cross validation, modelin tek bir train/test bölünmesine bağlı kalmadan daha güvenilir bir genel performans tahmini elde etmeyi sağlar. En yaygın yöntem k-fold cross validation'dır: veri k parçaya bölünür, her parça sırayla test seti olarak kullanılır ve kalan parçalar eğitimde kullanılır. Sonuçlar ortalanarak modelin genel başarımı tahmin edilir.
Uygulama ipuçları:
- Genellikle k için 5 veya 10 tercih edilir; veri çok küçükse kat sayısını artırmak anlamlı olabilir.
- Sınıflandırmada sınıf dengesizliği varsa stratified k-fold kullanmak önemlidir—her fold sınıf dağılımını korur.
- Model seçimi ve hiperparametre ayarı için nested cross validation (iç içe doğrulama) daha güvenilir sonuç verir, ancak hesaplama maliyeti yüksektir.
Algoritma karşılaştırması — kısa tablo
| Algoritma | Tipik kullanım | Notlar |
|---|---|---|
| Logistic regression | Binary classification | Hızlı, yorumlanabilir; lineer ayrılabilir veride iyi. |
| Decision tree / Random forest | Sınıflandırma ve regresyon | Özellik etkileşimlerini yakalar; ağaç tabanlı modeller genelde esnektir. |
| SVM | Orta boyutlu, yüksek boyutlu sınıflandırma | Hiperparametre ayarı gerekir; kernel seçimi önemlidir. |
| k-NN | Basit sınıflandırma/regresyon | Veri normalizasyonu ve verinin boyutu performansı etkiler. |
Gerçek dünya kullanım örnekleri
Denetimli öğrenme pek çok alanda uygulanır. Finansal risk değerlendirmesi, hastalık teşhisine yardımcı sistemler ve görüntü tanıma uygulamaları en yaygın örnekler arasındadır; bu kullanım alanları hakkında daha fazla bilgi için Patika'nın toparlayıcı yazısını inceleyebilirsiniz: Patika.dev.
İki kısa uygulama senaryosu
- İstenmeyen e‑postaların otomatik tespiti: Etiketli e‑posta verisi (istenmeyen / istenen) ile bir sınıflandırıcı eğitilir. Özellik mühendisliği için kelime sayımı, TF‑IDF veya gömülü (embedding) temelli temsiller kullanılabilir. Model performansı precision/recall ile izlenir.
- Ev fiyatı tahmini: Geçmiş satış verileri, konum, büyüklük, oda sayısı gibi özelliklerle regresyon modeli kurulur. Performans RMSE veya MAE ile değerlendirilir; önemli özellikleri belirlemek fiyat tahmini doğruluğunu artırır.
Pratik kontrol listesi (model hazırlama)
- Etiketlerin doğruluğunu kontrol edin; yanlış etiketler model performansını bozar.
- Veri dengesizliğinde uygun stratejiler kullanın (oversampling, class weights).
- Özellikleri ölçeklendirin (özellikle mesafe tabanlı modeller için).
- Cross validation ile tutarlı bir değerlendirme yapın.
- Basit bir baseline kurun; her zaman yeni modeli baseline ile karşılaştırın.
- Modeli istatistiksel anlamlılık ve pratik fayda açısından değerlendirin.
- Üretimde izleme (monitoring) ve performans sapmalarına karşı alarm mekanizmaları hazırlayın.
Yaygın tuzaklar ve kaçınma yolları
- Data leakage (veri sızıntısı): Test verisinden bilgi sızması yanlış pozitif performans verir; özellik mühendisliğini yalnızca eğitim verisi içinde yapın.
- Overfitting: Çok karmaşık modeller eğitim verisini ezberleyebilir—regularization ve cross validation ile kontrol edilir.
- Dengesiz sınıflar: Doğruluk tek başına yanıltıcı olabilir; precision/recall ve F1 kullanın.
- Mislabeled veri: Etiket kalitesi düşükse, veri temizliği ve insan denetimi gerekir.
Sonuç ve ileri adımlar
Denetimli öğrenme, etiketli verilerle girdiler ve çıktılar arasındaki ilişkiyi modellemek için güçlü bir yaklaşımdır. Sınıflandırma ve regresyon gibi temel türleri anlamak, cross validation gibi doğrulama tekniklerini uygulamak ve dikkatli veri hazırlığı yapmak iyi sonuçların temelini oluşturur. Daha ayrıntılı teknik referans ve rehberlik için Google Developers'ın denetimli öğrenme dokümanına ve Patika.dev makalesine başvurabilirsiniz: Google Developers, Patika.dev.
Not: Bu makale uygulama odaklı bir rehber sunar; sağlık, hukuk veya finansal kararlar gibi yüksek riskli alanlarda model sonuçlarını kullanmadan önce konu uzmanları ve uygun düzenleyici süreçlerle doğrulama yapmanız gerekir.