Araştırma makalesine göre Apple ReALM adı verilen sistem, ekrandaki görsel öğelere yapılan atıfları (“bu” veya “şu” gibi) anlamak da dahil olmak üzere karmaşık referansları saf bir dil modelleme problemine dönüştürmek için büyük dil modellerinden yararlanıyor. Bu da ReALM’in mevcut yöntemlere kıyasla önemli performans kazanımları elde etmesini sağlıyor.
Yine de araştırmacılar, ekranların otomatik ayrıştırılmasına güvenmenin sınırlamaları olduğu konusunda uyarıyor. Birden fazla görüntü arasında ayrım yapmak gibi daha karmaşık görsel referansların ele alınması, muhtemelen bilgisayarla görü ve çok modlu tekniklerin dahil edilmesini gerektirecek.
Metinleri videoya dönüştüren yapay zekanın son teknolojisi Sora, geçtiğimiz aylarda piyasaya hızlı bir giriş yaptı. San Francisco merkezli teknoloji şirketi OpenAI sosyal medya hesabından Sora ile oluşturulmuş yeni videolar yayınladı.
Apple ilk defa ABD dışında global bir ürün lansmanı gerçekleştirdi. Londra’da Apple’ın yeni taşındığı Battersea Power Station’daki merkez ofisindeyim, Avrupa’dan Asya’ya birçok farklı kıtadan, ülkeden gazeteci, dijital içerik üreticisi ve ünlü isim …