NLP Temelleri: Tokenizasyon, Transformer ve İş Uygulamaları

Doğal Dil İşleme (NLP) nedir ve neden önemli?

Doğal Dil İşleme (NLP), bilgisayarların insan dilini (metin ve kimi zaman konuşma transkriptini) anlamlandırması, sınıflandırması, özetlemesi veya üretmesi için kullanılan yöntemlerin genel adıdır. Günümüzde arama, müşteri destek sohbetleri, doküman analizi, eğitim içerikleri ve raporlama gibi birçok üründe NLP bileşenleri bulunur.

Bu yazıda üç temel parçayı pratik bir çerçevede ele alacağız: tokenizasyon (metni modele uygun birimlere bölme), transformer mimarisi (modern dil modellerinin çekirdeği) ve iş uygulamalarında doğru kullanım yaklaşımı (pilot, ölçüm, risk yönetimi). Anlatım genel kitleye yöneliktir; teknik terimler basit örneklerle açıklanır.

1) Tokenizasyon: Modelin metni “okuma” biçimi

Bir dil modeli, ham metni doğrudan “harf harf” veya “kelime kelime” anlamaz. Önce metin, modelin işleyebileceği birimlere ayrılır. Bu birimlere çoğu zaman token denir. Tokenizasyon ise metnin bu token’lara dönüştürülme sürecidir.

Token ne olabilir?

Kelime (word-level): “kitap”, “okudum” gibi.
Alt-kelime (subword-level): “okudum” → “oku” + “dum” gibi parçalar.
Karakter veya byte düzeyi: Daha küçük birimler; bazı senaryolarda dayanıklıdır ancak giriş uzunluğunu artırabilir.

Pratikte birçok modern sistem, alt-kelime tokenizasyonu kullanır. Bunun önemli bir nedeni, nadir kelimeler ve yeni türetilmiş kelimeler karşısında daha dayanıklı olmasıdır (Sennrich et al., 2016).

Türkçe için küçük, sezgisel örnekler (temsili)

Not: Aşağıdaki bölünmeler temsili örneklerdir; gerçek parçalanma kullanılan tokenizöre göre değişir.

“kitaplarımızdan” → “kitap” + “larımız” + “dan”
“gidemeyecektiniz” → “git” + “eme” + “yecek” + “tiniz”

Tokenizasyon neden ürün maliyetini ve gecikmeyi (latency) etkileyebilir?

Model, girdiyi token dizisi olarak işler; token sayısı arttıkça dizi uzunluğu artar. Transformer tabanlı modellerde (self-attention) her konumdaki token’ın diğer konumlarla ilişkisine dair hesaplar yapılır; bu da dizi uzadıkça hesaplama ve bellek ihtiyacını artırabilir ve sonuç olarak gecikmeyi ve altyapı maliyetini etkileyebilir (Vaswani et al., 2017). Bu yüzden tokenizasyon tercihleri, aynı metnin daha az ya da daha çok token’a bölünmesi üzerinden performans ve maliyet davranışını etkileyebilir (alt-kelime yaklaşımları için bkz. Sennrich et al., 2016; Kudo & Richardson, 2018).

BPE (Byte-Pair Encoding): Nadir kelimelere pratik çözüm

BPE tabanlı alt-kelime yaklaşımı, nadir kelimeleri tamamen “bilinmeyen” saymak yerine kelimeyi daha küçük parçalara ayırarak temsil etmeye çalışır. Bu sayede model, daha önce hiç görmediği bir kelimeyi bile tanıdık alt-parçalar üzerinden işleyebilir. Bu yaklaşımın makine çevirisi bağlamında nadir kelimeler için etkili bir pratik yöntem olarak ele alındığı kaynaklardan biri Sennrich et al. (2016)’dır.

SentencePiece: Dilden bağımsız, ham metin üzerinde eğitilebilir

SentencePiece, dil-agnostik (dilden bağımsız) tokenizasyon fikrini öne çıkarır ve ham metin üzerinde doğrudan eğitilebilen bir alt-kelime tokenizör yaklaşımı sunar (Kudo & Richardson, 2018). Çok dilli veya farklı yazım kurallarına sahip veri kümelerinde bu “dile özel kural bağımlılığını azaltma” fikri pratik avantajlar sağlayabilir.

WordPiece: BPE’ye yakın bir alt-kelime yaklaşımı

WordPiece da alt-kelime tokenizasyonu ailesindedir: Amaç, kelimeleri daha küçük parçalara bölerek sınırlı bir sözlükle daha geniş bir kelime çeşitliliğini temsil etmektir. Pratikte BPE’ye benzer bir trade-off sunar: sözlük boyutu, token sayısı ve nadir kelimeleri temsil etme kabiliyeti arasında denge kurar. Uygulama açısından önemli nokta, WordPiece/BPE/SentencePiece gibi yöntemlerin hepsinin “alt-kelime” fikrini farklı eğitim/segmentasyon kurallarıyla hayata geçirmesidir.

Uygulama notu: “Doğru” tokenizör tek değildir

Tokenizör seçimi; hedef dil(ler), veri tipi (kısa sohbet mi uzun doküman mı), alan dili (hukuk, eğitim, teknik dokümantasyon) ve ürün hedeflerine bağlıdır. Bu nedenle tek bir evrensel öneri yerine küçük pilotlarla ölçerek ilerlemek daha güvenli bir yaklaşımdır (OpenAI, 2023).

2) Dil modelleri: Metinden olasılıksal öğrenme

Dil modeli, en basit ifadeyle, bir metin dizisinin olasılıksal yapısını öğrenmeye çalışan bir modeldir. Pratikte bu, “verilen bir bağlamdan sonra hangi token’ların gelmesinin daha olası olduğu” gibi görevlerle somutlaşır. Günümüzde popüler modellerin önemli bir kısmı, büyük veri üzerinde ön-eğitim (pretraining) yapılıp daha sonra belirli görevlere göre uyarlanır.

Transformer: Modern LLM’lerin temel mimarisi

Bugün yaygın kullanılan birçok büyük dil modeli (LLM), transformer mimarisine dayanır. Transformer yaklaşımı, tekrar bağlantılı ağlar (RNN) yerine attention (dikkat) mekanizmasını merkezine alır ve dizideki farklı konumlar arasındaki ilişkileri bu mekanizma üzerinden modellemeyi hedefler (Vaswani et al., 2017).

Attention’ı sezgisel anlamak

Attention’ı, modelin bir cümlede “hangi kelime/alt-kelime parçaları birbirini etkiliyor?” sorusuna dinamik ağırlıklar vererek yanıtlaması gibi düşünebilirsiniz. Örneğin “Ali kitabı Ayşe’ye verdi çünkü o geç kalmıştı” cümlesindeki “o” zamirinin hangi kişiyi işaret ettiğini çözmek, bağlamdaki farklı parçalar arasında ilişki kurmayı gerektirir. Attention mekanizması bu tip ilişkileri yakalamada güçlüdür; ancak her örnekte sorunsuz çözüleceği garanti değildir.

3) Büyük dil modelleri (LLM) ve GPT ailesi: Güçlü ama sınırlı

Large Language Model (LLM), çok büyük ölçekte metin üzerinde ön-eğitim görmüş, genel amaçlı metin üretimi ve anlama görevlerinde kullanılabilen modeller için kullanılan şemsiye bir terimdir. GPT gibi üretken modeller; özet çıkarma, taslak üretme, soru yanıtlama, sınıflandırma ve yeniden yazma gibi görevlerde hızlı prototipleme sağlayabilir.

Güvenilirlik ve “uydurma” (hallucination) riski

LLM’ler bazı durumlarda gerçeğe uymayan, kaynağı olmayan veya bağlama uymayan çıktılar üretebilir. Üretim ortamında bu risk, ek değerlendirme ve doğrulama adımlarını gerekli kılar (OpenAI, 2023).

Ne zaman “tek başına LLM” yeterli değildir?

Yüksek doğruluk gerektiren alanlar: Örn. finansal raporlama, sağlıkla ilgili yönlendirmeler, hukuki yorumlar.
Kurumsal bilgiye bağlı sorular: Şirket içi politika, güncel ürün özellikleri, sürüm notları.
Kaynak gösterme zorunluluğu olan içerikler: Eğitim materyali, akademik özetler, uyumluluk dokümanları.

Bu senaryolarda genellikle bilgi tabanı entegrasyonu, alıntılanabilir kaynaklar, insan onayı veya otomatik doğrulama gibi ek katmanlar gerekir. Bu, “model kötü” olduğu için değil; tasarımın gerçek dünya gereksinimlerine göre yapılması gerektiği içindir (OpenAI, 2023).

4) İş uygulamalarında NLP: Nereden başlamalı?

NLP projelerinde en sık hata, “önce modeli seçmek”tir. Ürün etkisini artıran yaklaşım genellikle problem tanımı → veri → ölçüm → pilot → ölçekleme sırasıdır. Üretim sistemlerinde değerlendirme ve güvenlik konularını sistem tasarımının parçası yapmak, teknik raporlarda da vurgulanan bir yaklaşımdır (OpenAI, 2023).

Yaygın iş kullanım senaryoları

1) Müşteri destek ve self-servis

Sık sorulan soruları yanıtlama (kural tabanlı + LLM hibriti)
Destek talebi özetleme ve etiketleme
Ajan için yanıt taslağı üretme (insan onaylı)

2) Doküman işleme (kurumsal arşiv, PDF metinleri, sözleşmeler)

Uzun dokümanı bölüm bölüm özetleme
Belirli alanları çıkarma (tarih, taraflar, madde başlıkları)
Benzer dokümanları gruplama

3) Eğitim ve e-öğrenme

Ders notundan quiz/soru üretimi (öğretmen onayıyla)
Kavram açıklaması ve örnek üretimi
Öğrenci seviyesine göre yeniden anlatım

Not: Eğitimde otomasyon, kalite kontrol olmadan kullanılmamalıdır. Özellikle kaynak gerektiren içeriklerde insan değerlendirmesi ve referans gösterme kritik önemdedir.

Pilot (MVP) tasarımı için pratik kontrol listesi

Hedefi netleştirin: “Yanıt doğruluğu” mu, “çağrı azaltma” mı, “ajan verimliliği” mi?
Veri örnekleri toplayın: Temsil gücü olan bir setle başlayın (ör. 50–200 gerçek örnek).
Tokenizasyonu görünür kılın: Örneklerin token sayısını ve uzun metinlerde parçalama (chunking) ihtiyacını not edin.
Değerlendirme rubric’i oluşturun: Doğruluk, yararlılık, üslup, kaynak gereksinimi, riskli içerik gibi boyutlar ekleyin.
İnsan onayı planı yapın: Özellikle ilk sürümlerde ajan onayı veya editör kontrolü koyun.
Gizlilik/uyumluluk kontrolü: Kişisel veri, müşteri konuşmaları, kurum içi gizli bilgi akışını sınırlandırın.

5) Tokenizasyon seçimi: Uygulama odaklı karar rehberi

Tokenizasyon “arka plandaki teknik detay” gibi görünse de ürün davranışını etkiler: bağlam penceresine sığma, gecikme, çok dillilik ve yazım hatalarına dayanıklılık gibi. Aşağıdaki rehber, karar vermeyi kolaylaştırmayı amaçlar; kesin kural değildir.

Hangi durumda alt-kelime tokenizasyonu avantajlı olabilir?

Yeni kelimeler / özel adlar sık geçiyorsa
Türkçe gibi eklemeli diller söz konusuysa (kelime türetimi fazla)
Ürün çok dilli olacaksa

BPE’nin nadir kelimeler için pratik bir yaklaşım olarak ele alınması (Sennrich et al., 2016) ve SentencePiece’ın dilden bağımsız tokenizasyonu hedeflemesi (Kudo & Richardson, 2018) bu tercihlerin arka planını destekler.

Basit bir test önerisi (küçük benchmark)

Bağımsız ve güncel karşılaştırmalar her zaman kolay bulunmadığı için, kendi verinizde küçük bir test yapmak faydalı olabilir:

Temsil gücü olan 100–500 metin örneği seçin (kısa/uzun karışık).
Farklı tokenizörlerle token sayısını karşılaştırın.
Aynı görevle (özet, sınıflandırma vb.) gecikme davranışını gözlemleyin.
Kaliteyi insan değerlendirmesiyle (rubric) puanlayın.

Bu test, tokenizasyonun dizi uzunluğu üzerinden işlem yükünü nasıl etkileyebileceğini kendi bağlamınızda görmenizi sağlar (transformer işlemleme bağlamı için bkz. Vaswani et al., 2017).

6) Üretime geçerken: Riskler ve azaltma stratejileri

1) Gerçeğe uymayan çıktı riski

Azaltma: Kaynakla doğrulama, kurum içi bilgi tabanına dayandırma, “emin değilim” yanıtına izin verme, insan onayı.
Not: Bu risk, LLM’ler için sınırlılık başlığı altında tartışılır (OpenAI, 2023).

2) Gizlilik ve veri güvenliği

Azaltma: Hassas veriyi maskeleme, erişim kontrolü, kayıt (logging) politikalarını gözden geçirme, üçüncü taraf servislerle veri paylaşımını değerlendirme.

3) Maliyet ve gecikme (latency)

Azaltma: Prompt ve çıktı uzunluğunu sınırlama, özetleme/ön eleme ile gereksiz çağrıları azaltma, caching, batch işleme.
Tokenizasyon bağlantısı: Token sayısı dizi uzunluğunu artırabildiği için, transformer hesaplamasında işlem yükü artabilir ve gecikme/maliyet davranışı etkilenebilir (Vaswani et al., 2017).

4) Model/servis seçiminin hızla değişmesi

Model ekosistemi hızlı geliştiği için “tek bir en iyi model” önerisi kısa sürede geçersiz kalabilir. Daha sürdürülebilir bir yaklaşım: iş hedefi → ölçümler → karşılaştırmalı deneme → karar. Ayrıca düzenli “güncelleme kontrolü” planlamak operasyonel riski azaltır.

7) Mini sözlük: Bu yazıda geçen terimler

Token: Modelin işlediği metin birimi (kelime, alt-kelime, karakter/byte).
Tokenizasyon: Metni token’lara ayırma ve sayısal temsile dönüştürme süreci.
BPE: Alt-kelime tokenizasyonu için yaygın bir yaklaşım; nadir kelimeleri parçalara ayırarak temsil etmeyi kolaylaştırır (Sennrich et al., 2016).
WordPiece: Alt-kelime tokenizasyonu yaklaşımı; sınırlı sözlükle geniş kelime çeşitliliğini temsil etmeyi hedefler.
SentencePiece: Dilden bağımsız tokenizasyon hedefleyen ve ham metinde eğitilebilen yaklaşım (Kudo & Richardson, 2018).
Transformer: Attention mekanizmasını merkezine alan model mimarisi (Vaswani et al., 2017).
LLM: Büyük ölçekli ön-eğitimle genel amaçlı dil yetenekleri gösteren dil modeli.

Sonuç: NLP’yi “model” değil “sistem” olarak düşünün

NLP’nin temellerini anlamak (tokenizasyon, transformer, LLM davranışı) doğru ürün kararlarını kolaylaştırır. Tokenizasyon, yalnızca metni bölmek değil; dizi uzunluğu üzerinden gecikme/maliyet ve kapsayıcılık dengesini yönetmektir (Vaswani et al., 2017). Transformer mimarisi modern dil modellerinin omurgasını oluşturur (Vaswani et al., 2017). GPT benzeri LLM’ler hızlı değer üretebilir; ancak gerçeğe uymayan çıktı ve güvenlik gibi sınırlılıkları yönetmek için değerlendirme ve doğrulama katmanları gerekir (OpenAI, 2023).

En sağlam başlangıç: küçük bir pilot, net metrikler, kontrollü kapsam ve düzenli kalite incelemesidir. Böylece hem kullanıcı güvenini korur hem de NLP yatırımlarınızın gerçek iş değerini ölçebilirsiniz.

NLP Temelleri: Tokenizasyon, Dil Modelleri ve İş Uygulamaları