Ünlü iş insanı Elon Musk tarafından Mart 2023’te kurulan xAI şirketi, Grok adlı sohbet botu için Grok Grok-1.5 modelini duyurdu. İlk sürüme kıyasla oldukça gelişmiş olduğu paylaşılan bu modelin OpenAI tarafından geliştirilen GPT-4‘ten de daha performanslı olduğu söyleniyor. İşte Grok-1.5 modeli ile ilgili ayrıntılar…
Grok-1.5 modeli, GPT-4’ü geride bırakıyor!
xAI, resmi web sitesi üzerinden Grok-1.5 modelini duyurdu. Şirket tarafından paylaşılan bilgilere göre yeni model, artık belgeler, diyagramlar, çizelgeler, ekran görüntüleri ve fotoğraflar da dahil olmak üzere görsel işleyebiliyor.
Çok yönlü modlu modeller ile rekabet edebildiği belirtilen Grok-1.5 ile ilgili paylaşılan örneklere baktığımızda modelin tabloyu CSV’ye dönüştürme, koddaki hatayı çözme, diyagramı kodu dönüştürme ve meme açıklama gibi yetenekleriyle öne çıktığını görüyoruz.
Grok-1.5, xAI tarafından gerçekleştirilen MMMU testlerinde yüzde 53.6 oranında başarı elde etti. Karşılaştırma yapacak olursak, GPT-4 aynı testlerde yüzde 56.8 başarı sağladı. Ancak matematikle ilgili testlerde Grok-1.5, yüzde 52.8‘lik bir başarı elde ederek GPT-4‘ü geride bıraktı. Ayrıca xAI‘ın yeni modeli AI2D, metin okuma ve anlama ile gerçek dünya anlayışı testlerinde de rakiplerini zorladı.
Grok-1.5 ve rakip modellerin Benchmark sonuçları şu şekilde;
Benchmark | Grok-1.5V | GPT-4V | Claude 3 Sonnet | Claude 3 Opus | Gemini Pro 1.5 |
---|---|---|---|---|---|
MMMU (Çok Disiplinli) | 53.6% | 56.8% | 53.1% | 59.4% | 58.5% |
Matematik | 52.8% | 49.9% | 47.9% | 50.5% | 52.1% |
AI2D | 88.3% | 78.2% | 88.7% | 88.1% | 80.3% |
Metin okuma | 78.1% | 78.0% | – | – | 73.5% |
ChartQA | 76.1% | 78.5% | 81.1% | 80.8% | 81.3% |
Belgeler | 85.6% | 88.4% | 89.5% | 89.3% | 86.5% |
Gerçek Dünya Anlayışı | 68.7% | 61.4% | 51.9% | 49.8% | 67.5% |
xAI, Grok-1.5 modelini yakın zamanda kullanıcılar ile test etmeye başlayacağını ve X‘teki Grok sohbet botuna entegre edeceğini açıkladı. Bilmeyenler için bu bota erişebilmek için X Premium abonesi olmak gerekiyor.
Peki siz bu konu hakkında neler düşünüyorsunuz? Grok-1.5 modelinin yeteneklerini ve Benchmark sonuçlarını nasıl buldunuz? Görüşlerinizi aşağıdaki Yorumlar kısmından bizimle paylaşabilirsiniz.
{{user}} {{datetime}}
{{text}}