RAG Mimarisi Optimizasyonu: Retrieval Kalitesi vs Maliyet Dengesi

RAG (Retrieval-Augmented Generation) mimarisi, kurumsal AI çözümlerinin %71'inin temelini oluşturuyor (Yazılım Koçu vaka portföyü 2026). LLM'in hallüsinasyonunu azaltır, güncel veriyle çalışmasını sağlar, kurumsal dokümantasyonu accessible hale getirir. Ancak temel RAG mimarisinden production-grade RAG'a geçiş, dikkatli optimizasyon gerektirir. Bu yazıda Yazılım Koçu mühendislik takımının 30+ RAG projesinde öğrendiği optimizasyon prensiplerini paylaşıyoruz.

Naive RAG'in Üç Sınırı

Klasik (naive) RAG mimarisi: dokümanlar chunk'lara bölünür, her chunk embedding'e çevrilir, vektör veritabanına yazılır. Kullanıcı sorusu geldiğinde top-K en benzer chunk'lar bulunur, LLM'e context olarak verilir, yanıt üretilir. Üç temel sınır: (1) **Düşük precision** — semantic similarity her zaman ilgili sonucu getirmez, top-5 chunk'tan 3'ü ilgisiz olabilir. (2) **Düşük recall** — uzun dokümanlarda kritik bilgi yanlış chunk'a düşer, hiç getirilmez. (3) **Yüksek maliyet** — her sorgu için 5-10 chunk × 500-1500 token = 2500-15000 token LLM context.

Optimizasyon Boyutu #1: Chunk Strategy

Chunk'lama RAG kalitesinin %40'ını belirler — yanlış chunk strategy ile en iyi model bile başarısız olur. Üç temel yaklaşım: (a) **Fixed-size chunking** — her chunk 500 token, %50 overlap. En basit, en yaygın, %60 doğruluk seviyesi. (b) **Semantic chunking** — sentence boundary'ler kullanılır, paragraph bütünlüğü korunur, %78 doğruluk. (c) **Document-structure chunking** — başlık hiyerarşisi (H1, H2, H3) takip edilir, metadata zenginleştirilir, %87 doğruluk. Yazılım Koçu yaklaşımımız document-structure chunking'i tercih eder.

Pratik öneri: PDF/markdown dokümanlar için Unstructured.io veya LlamaParse kullanarak başlık yapısını çıkarın. Her chunk'a metadata ekleyin (başlık zinciri, sayfa numarası, doküman türü). Retrieval sonrası bu metadata'lar reranking ve filtering için kullanılır.

Optimizasyon Boyutu #2: Embedding Model Seçimi

2026 itibarıyla embedding model pazarında dört temel seçenek: (1) **OpenAI text-embedding-3-large** — kalite yüksek, maliyet $0.13/1M token, latency 200ms. (2) **Voyage-2** — Anthropic'in tavsiye ettiği, $0.12/1M token, %15 daha iyi retrieval. (3) **BAAI/bge-large** — açık kaynak, Türkçe destek iyi, on-premise mümkün, GPU lazım. (4) **Cohere embed-multilingual-v3** — 100+ dil, $0.10/1M token, kurumsal SLA.

Türkçe içerik için tavsiyemiz: Cohere multilingual veya BAAI/bge-large (Türkçe fine-tune'lu varyantları). Sadece-İngilizce için Voyage-2. KVKK kritikse open-source BAAI/bge on-premise. Vaka portföyümüzde Türkçe RAG'lerin %62'si Cohere kullanıyor, %28'i bge-large, %10'u OpenAI.

Optimizasyon Boyutu #3: Hybrid Search

Sadece semantic similarity (dense retrieval) yeterli değil — keyword tabanlı arama (sparse retrieval) ile birleşmesi gerek. Hybrid search yaklaşımı: BM25 (klasik keyword) skoru + embedding similarity skoru × ağırlıklı toplam. Vaka portföyümüzde hybrid search'a geçen RAG sistemlerinde retrieval precision +%23, özellikle "müşteri numarası 12345" gibi spesifik sorgular için %48 iyileşme.

Implementation: Qdrant, Weaviate, Elasticsearch hybrid search'i native destekler. Postgres+pgvector kullanıyorsanız manuel olarak BM25 + pgvector cosine score birleştirmesi gerekir (Reciprocal Rank Fusion önerilen yöntem).

Optimizasyon Boyutu #4: Reranking

Retrieval'ın sonucu olan top-20 chunk'tan en ilgili top-5'i seçmek için ayrı bir reranking adımı kalitey dramatik iyileştirir. Reranker modeller (Cohere Rerank, BGE Reranker, ColBERT) küçük (200M-500M parametre), hızlı (50-200ms), ucuz ($0.04/1M token). Yazılım Koçu standartı: hybrid retrieval ile top-20 al, Cohere Rerank ile top-5'e indir, LLM'e gönder. Bu kombinasyonla precision+%31, LLM token maliyeti -%52 (daha az context).

Optimizasyon Boyutu #5: Query Transformation

Kullanıcı sorgusu doğrudan embedding'e çevrilmemeli — önce işlenmeli. Üç teknik: (a) **HyDE (Hypothetical Document Embedding)** — LLM'e "bu soruya cevap nasıl görünür" sordur, cevabı embed et, retrieval onun üzerinden. (b) **Query Expansion** — sorguyu eş anlamlılarla genişlet (Türkçe için kritik: "çalışan" + "personel" + "eleman"). (c) **Multi-query** — bir sorudan 3-5 farklı sorgu üret, hepsini paralel ara, birleştir.

Yazılım Koçu yaklaşımımız multi-query + HyDE kombinasyonu — özellikle Türkçe kurumsal dokümantasyonda %35 precision iyileştirmesi gözlemledik.

Optimizasyon Boyutu #6: Context Window Management

LLM'e ne kadar context vermeli? Çok az = bilgi eksik. Çok fazla = "lost in middle" problemi (LLM'ler context'in ortasındaki bilgiyi unutur) + token maliyeti yüksek. Yazılım Koçu pratiği: top-5 chunk × 500 token = 2500 token context optimum. 10K+ context gerekiyorsa, "needle in haystack" performance testleri ile model seçimi (Claude Opus uzun context'i daha iyi yönetir, GPT-4 ortada bilgi kaybeder).

Yazılım Koçu RAG Stack Önerisi 2026

Sıfırdan kurulan bir kurumsal RAG için tavsiyemiz: **Doküman işleme** Unstructured.io veya LlamaParse. **Chunk strategy** document-structure + metadata enrichment. **Embedding** Cohere multilingual-v3 (Türkçe) veya Voyage-2 (İngilizce). **Vector DB** Qdrant (open-source + KVKK uyumlu) veya Pinecone (managed). **Hybrid search** BM25 + dense, RRF fusion. **Reranking** Cohere Rerank veya BGE Reranker. **LLM** Claude Sonnet (genel), GPT-4o-mini (ucuz), Llama-3.1-70B (on-premise). **Orchestration** LangChain veya LlamaIndex. **Observability** LangSmith veya Helicone.

Maliyet Optimizasyonu

Production RAG sisteminde aylık maliyet dağılımı (vaka ortalaması, 10K query/gün): Embedding (yeniden hesaplama) %15, Vector DB hosting %20, Reranking %10, LLM completion %50, Observability %5. En büyük tasarruf alanı LLM context (reranking ile -%50), ikinci alan vector DB (open-source Qdrant on-premise ile -%70 vs Pinecone). Tipik orta ölçekli kurumsal RAG aylık $800-3000 arası operasyonel maliyet.

Sonuç

Production-grade RAG basit bir embed-search-generate döngüsünden çok daha karmaşık. Six optimization boyutu (chunk strategy, embedding model, hybrid search, reranking, query transformation, context window) doğru tasarlandığında %60 naive RAG → %90 production RAG kalite sıçraması mümkün. Yazılım Koçu olarak 30+ RAG projesi deneyimi ve Türkçe içerik konusundaki özel uzmanlığımızla kurumsal RAG mimarinizi optimize edebiliriz. 30 dakikalık ücretsiz Keşif görüşmesi.