Phare Benchmark’ı: Büyük Dil Modellerinde Gerçeklikten Sapma Eğilimleri Ortaya Kondu

Hugging Face tarafından yayımlanan ve David Berenstein tarafından kaleme alınan yeni bir analiz, büyük dil modellerinin (LLM’ler) doğru görünen ancak gerçekte hatalı bilgiler üretme eğilimini detaylandırıyor. Phare (Potential Harm Assessment & Risk Evaluation) adlı çok dilli değerlendirme platformu, sekiz farklı yapay zeka laboratuvarından gelen önde gelen modellerin, özellikle yanlış bilgiyle karşılaştıklarında, ikna edici ancak hatalı yanıtlar verme eğiliminde olduklarını ortaya koyuyor.
Phare’ın metodolojisi, İngilizce, Fransızca ve İspanyolca dillerinde gerçek kullanım senaryolarına dayanan içeriklerin toplanması, bu içeriklerin test senaryolarına dönüştürülmesi ve insan denetimiyle değerlendirilmesini içeriyor. Bu süreç, modellerin yanıltıcı veya yanlış bilgi üretme eğilimlerini ölçmek için dört ana görev kategorisinde test edilmesini sağlıyor: gerçeklik doğruluğu, yanlış bilgiye direnç, çürütme yeteneği ve araç güvenilirliği.
Analiz, kullanıcı memnuniyeti açısından yüksek puan alan modellerin bile, özellikle “kısa ve öz ol” gibi sistem talimatları verildiğinde, doğruluk yerine kısalığı tercih ettiğini ve bu durumun yanlış bilgi üretimini artırabileceğini gösteriyor. Ayrıca, kullanıcıların soruları nasıl formüle ettikleri de modellerin yanıtlarını etkiliyor; örneğin, “Öğretmenim böyle söyledi” gibi kesin ifadeler, modelin yanlış bilgiyi düzeltme olasılığını azaltabiliyor.
Phare, LLM’lerin güvenliğini ve güvenilirliğini artırmak amacıyla geliştirilen kapsamlı bir değerlendirme çerçevesi sunuyor. Bu çerçeve, modellerin yanıltıcı bilgi üretme eğilimlerini anlamak ve bu riskleri azaltmak için önemli bir kaynak olarak öne çıkıyor.
Kaynak:
- “Good answers are not necessarily factual answers: an analysis of hallucination in leading LLMs“, Hugging Face Blog, 7 Mayıs 2025.