Samsung yapay zekâ benchmark çözümü TRUEBench’i tanıttı

0 2 dakika okuma süresi

Samsung Electronics, yapay zekâ verimliliğini kıymetlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark tahlili TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük lisan modellerinin (LLM’ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunuyor. Tahlil, gerçekçi bir kıymetlendirme sağlamak için çeşitli diyalog senaryoları ve çok lisanlı şartlardan faydalanıyor. Samsung’un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini temel alan TRUEBench, içerik oluşturma, data tahlili yapma, özet çıkarma ve çeviri yapma üzere yaygın kullanılan kurumsal vazifeleri 10 temel kategori ve 46 alt kategoride kıymetlendiriyor. Benchmark, yapay zekâ takviyeli otomatik değerlendirmeler yaparak vazifelere emniyetli bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.

Samsung Electronics Dijital Tecrübeler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünyadaki yapay zekâ tecrübeleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench’in üretkenlik işlerinde kıymetlendirme standartları oluşturacağına ve Samsung’un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz” dedi.

Son vakitlerde şirketler yapay zekâyı daha çok benimsedikçe büyük lisan modellerinin üretkenliğini ölçme talebinde artış yaşanıyor. Lakin, çoğunlukla İngilizce odaklı olan mevcut kriterler öncelikle genel performansı ölçüyor ve tek tipten oluşan soru-cevap prosedürleriyle hudutlu bir kıymetlendirme yapıyor. Bu durum, bu değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sonlandırıyor. Bu sınırlamaları kaldırmak için geliştirilen TRUEBench hem 10 kategori ve 12 lisanda çalışan 2.485 test setinden oluşuyor hem de lisanlar ortası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçekte hangi noktalara tahlil sunabileceğini inceliyor. Samsung Research’in geliştirdiği TRUEBench, kolay taleplerden uzun dokümanları özetlemeye kadar çeşitli vazifeleri inceliyor ve içeriği 8 karakterden 20.000 karakterin üzerine kadar değişen test setleri uyguluyor.

Yapay zekâ modellerinin performansını değerlendirirken yapay zekâ tarafından sağlanan cevapların hakikat olup olmadığını anlamaya imkân veren net kriterlere sahip olmak büyük değer taşıyor. Gerçek ömür senaryolarında, kullanıcıların tüm istekleri, talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, sadece cevapların doğruluğunu değil tıpkı vakitte kullanıcıların örtük muhtaçlıklarını gözeten detaylı şartları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.

Gerçek beşerler ile yapay zekâ iş birliğiyle kıymetlendirme öğelerini doğrulayan Samsung Research tahlilinde, birinci olarak, gerçek yorumcular kıymetlendirme kriterlerini oluşturuyor, akabinde yapay zekâ bunları inceleyerek yanılgıları, çelişkileri yahut gereksiz kısıtlamaları denetim ediyor. Daha sonra, gerçek yorumcular kriterleri tekrar daha yeterli hale getiriyor. Bu süreç tekrarlanarak giderek daha hassas kıymetlendirme standartları oluşturuluyor. Kelam konusu çapraz doğrulama kriterlerine dayanan yapay zekâ modellerinin otomatik değerlendirmesiyle ferdî önyargılar en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden geçebilmesi için tüm şartların karşılanması gerekiyor. Bu da vazifelerin daha detaylı ve hassas puanlanmasını sağlıyor.

TRUEBench’in data örnekleri ve puanlama tabloları, global açık kaynak platformu Hugging Face’de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma yapmasına ve yapay zekâ model performanslarını bir bakışta kapsamlı bir biçimde incelemesine imkân tanıyor. Ayrıyeten, ortalama cevap mühleti sonuçlarına ait bilgiler de yayınlanıyor. Böylelikle, performans ve verimlilik eşzamanlı karşılaştırılabiliyor.

Kaynak: (BYZHA) Beyaz Haber Ajansı

Etiketler

admin 2 saat önce

0 2 dakika okuma süresi

Samsung yapay zekâ benchmark çözümü TRUEBench’i tanıttı

admin

Narlıdere Belediyesi’nden minik öğrencilere çanta ve kırtasiye desteği

EÜ’de uluslararası araştırma ve burs fırsatları konuşuldu

UPT ve Kapitalbank’tan stratejik ortaklık

Türkiye’de ‘kapılar’ otomobil hasarlarında 1. sırada

Başkan Şadi Özdemir’den filenin genç sultanlarına motivasyon ziyareti

Aliağa Belediyesi Sanatevi’nin Yıl Sonu Etkinlikleri Başlıyor

İBB, 1 Ekim Dünya Yaşlılar Günü’nü renkli etkinliklerle kutladı

Ege İhracatçı Birlikleri’nden Eylül ayında 1 milyar 545 milyon dolarlık ihracat

Rolls-Royce’dan duygusal bir yorum; Spectre Bailey

Büyükşehir Belediyesi’nden Okul Dönemi için Ulaşım Tedbirleri

Batı Trakya Türklerinin onurlu direnişi unutulmadı Başkan Büyükakın: “Milli şuurumuz daima koruyacağız”

Manisa’da mezarlık bakımları aralıksız devam ediyor

Narlıdere Belediyesi’nden minik öğrencilere çanta ve kırtasiye desteği

Osmangazi’de muhteşem Cumhuriyet Bayramı konseri

Kingston Digital 2023’te Kanalda SSD Sevkiyat Lideri Oldu

Kandıra Belediyesi Cenaze Hizmetleri Binası Hizmete Girdi

Edremit Belediyesi sporcuları Türkiye şampiyonu oldu

Bakırköy’de riskli binalar güvenli hale geliyor

admin

Subscribe to our mailing list to get the new updates!

8 Bölümlük Belgesel Seri 'Mısır'ın Kayıp Hazinelerinin Peşinde', 5 Ekim Pazar 20.00'de National Geographic Ekranlarında Başlıyor!

Rolls-Royce'dan duygusal bir yorum; Spectre Bailey

İlgili Makaleler

Narlıdere Belediyesi’nden minik öğrencilere çanta ve kırtasiye desteği

EÜ’de uluslararası araştırma ve burs fırsatları konuşuldu

UPT ve Kapitalbank’tan stratejik ortaklık

Keçiören’de okul kantinlerine sıkı denetim

Narlıdere Belediyesi’nden minik öğrencilere çanta ve kırtasiye desteği

EÜ’de uluslararası araştırma ve burs fırsatları konuşuldu

UPT ve Kapitalbank’tan stratejik ortaklık

Türkiye’de ‘kapılar’ otomobil hasarlarında 1. sırada

Başkan Şadi Özdemir’den filenin genç sultanlarına motivasyon ziyareti

Aliağa Belediyesi Sanatevi’nin Yıl Sonu Etkinlikleri Başlıyor

İBB, 1 Ekim Dünya Yaşlılar Günü’nü renkli etkinliklerle kutladı

Ege İhracatçı Birlikleri’nden Eylül ayında 1 milyar 545 milyon dolarlık ihracat

Rolls-Royce’dan duygusal bir yorum; Spectre Bailey

Büyükşehir Belediyesi’nden Okul Dönemi için Ulaşım Tedbirleri

Batı Trakya Türklerinin onurlu direnişi unutulmadı Başkan Büyükakın: “Milli şuurumuz daima koruyacağız”

Manisa’da mezarlık bakımları aralıksız devam ediyor

Narlıdere Belediyesi’nden minik öğrencilere çanta ve kırtasiye desteği

Osmangazi’de muhteşem Cumhuriyet Bayramı konseri

Kingston Digital 2023’te Kanalda SSD Sevkiyat Lideri Oldu

Kandıra Belediyesi Cenaze Hizmetleri Binası Hizmete Girdi

Edremit Belediyesi sporcuları Türkiye şampiyonu oldu

Bakırköy’de riskli binalar güvenli hale geliyor