
Samsung Electronics, yapay zekâ verimliliğini kıymetlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark tahlili TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük lisan modellerinin (LLM’ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunuyor. Tahlil, gerçekçi bir kıymetlendirme sağlamak için çeşitli diyalog senaryoları ve çok lisanlı şartlardan faydalanıyor. Samsung’un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini temel alan TRUEBench, içerik oluşturma, data tahlili yapma, özet çıkarma ve çeviri yapma üzere yaygın kullanılan kurumsal vazifeleri 10 temel kategori ve 46 alt kategoride kıymetlendiriyor. Benchmark, yapay zekâ takviyeli otomatik değerlendirmeler yaparak vazifelere emniyetli bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.
Samsung Electronics Dijital Tecrübeler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünyadaki yapay zekâ tecrübeleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench’in üretkenlik işlerinde kıymetlendirme standartları oluşturacağına ve Samsung’un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz” dedi.
Son vakitlerde şirketler yapay zekâyı daha çok benimsedikçe büyük lisan modellerinin üretkenliğini ölçme talebinde artış yaşanıyor. Lakin, çoğunlukla İngilizce odaklı olan mevcut kriterler öncelikle genel performansı ölçüyor ve tek tipten oluşan soru-cevap prosedürleriyle hudutlu bir kıymetlendirme yapıyor. Bu durum, bu değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sonlandırıyor. Bu sınırlamaları kaldırmak için geliştirilen TRUEBench hem 10 kategori ve 12 lisanda çalışan 2.485 test setinden oluşuyor hem de lisanlar ortası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçekte hangi noktalara tahlil sunabileceğini inceliyor. Samsung Research’in geliştirdiği TRUEBench, kolay taleplerden uzun dokümanları özetlemeye kadar çeşitli vazifeleri inceliyor ve içeriği 8 karakterden 20.000 karakterin üzerine kadar değişen test setleri uyguluyor.
Yapay zekâ modellerinin performansını değerlendirirken yapay zekâ tarafından sağlanan cevapların hakikat olup olmadığını anlamaya imkân veren net kriterlere sahip olmak büyük değer taşıyor. Gerçek ömür senaryolarında, kullanıcıların tüm istekleri, talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, sadece cevapların doğruluğunu değil tıpkı vakitte kullanıcıların örtük muhtaçlıklarını gözeten detaylı şartları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.
Gerçek beşerler ile yapay zekâ iş birliğiyle kıymetlendirme öğelerini doğrulayan Samsung Research tahlilinde, birinci olarak, gerçek yorumcular kıymetlendirme kriterlerini oluşturuyor, akabinde yapay zekâ bunları inceleyerek yanılgıları, çelişkileri yahut gereksiz kısıtlamaları denetim ediyor. Daha sonra, gerçek yorumcular kriterleri tekrar daha yeterli hale getiriyor. Bu süreç tekrarlanarak giderek daha hassas kıymetlendirme standartları oluşturuluyor. Kelam konusu çapraz doğrulama kriterlerine dayanan yapay zekâ modellerinin otomatik değerlendirmesiyle ferdî önyargılar en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden geçebilmesi için tüm şartların karşılanması gerekiyor. Bu da vazifelerin daha detaylı ve hassas puanlanmasını sağlıyor.
TRUEBench’in data örnekleri ve puanlama tabloları, global açık kaynak platformu Hugging Face’de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma yapmasına ve yapay zekâ model performanslarını bir bakışta kapsamlı bir biçimde incelemesine imkân tanıyor. Ayrıyeten, ortalama cevap mühleti sonuçlarına ait bilgiler de yayınlanıyor. Böylelikle, performans ve verimlilik eşzamanlı karşılaştırılabiliyor.
Kaynak: (BYZHA) Beyaz Haber Ajansı