Meta, görsel dünyada devrim yaratan Segment Anything Model (SAM) teknolojisini ses dünyasına taşıyan yeni nesil SAM Audio modelini resmen duyurdu. Profesyonel ses düzenleme süreçlerinde yeni bir standart belirleyen bu yapay zeka modeli, karmaşık ve iç içe geçmiş ses dosyalarından istenen kaynakları çok modlu girdilerle ayrıştırabiliyor.

Meta, yeni ses modelini duyurdu

Geleneksel yöntemlerin aksine model; metin komutları, görsel işaretlemeler veya zaman dilimi belirleme gibi doğal etkileşim yöntemlerini kullanarak kullanıcıların belirli sesleri izole etmesine imkan tanıyor. Bu teknoloji sayesinde bir videoda sadece ses çıkaran nesneye tıklayarak o nesnenin sesini ayrıştırmak veya “köpek havlaması” gibi basit bir metin komutuyla istenmeyen sesleri temizlemek mümkün hale geliyor.

Modelin teknik altyapısında, ses ve görsel verileri zaman ekseninde hassas bir şekilde hizalayan Perception Encoder Audiovisual (PE-AV) isimli motor görev yapıyor. SAM Audio, 500 milyon ile 3 milyar parametre arasında değişen farklı ölçeklerde yapılandırılabiliyor ve gerçek zamanlı işleme hızının da üzerine çıkarak RTF ≈ 0.7 seviyesinde performans sergiliyor.

Mimari olarak akış eşleştirme difüzyon dönüştürücüsü üzerine inşa edilen bu üretici sistem, hem gerçek hem de sentetik verilerden oluşan devasa bir eğitim setiyle destekleniyor. Sistem, girdi olarak verilen karışık ses dosyasından hem hedeflenen sesi hem de geriye kalan “artık” ses parçalarını (residual audio) eş zamanlı olarak üretebiliyor.

Apple Music ChatGPT’ye geliyor!

Apple Music ChatGPT’ye geliyor!

OpenAI, Apple Music'in ChatGPT'ye entegre edileceğini duyurdu. Artık yapay zeka ile konuşarak saniyeler içinde çalma listeleri oluşturabileceksiniz.

SAM Audio ile sunulan üç temel ayrıştırma yöntemi, kullanıcıya benzersiz bir esneklik sağlıyor. Metin tabanlı yöntemde kullanıcı doğrudan “piyano sesi” veya “vokal” yazarak hedefi belirleyebilirken; görsel yöntemde videodaki enstrümanlar veya konuşmacılar üzerine tıklanması yeterli oluyor. Sektörde bir ilk olarak nitelendirilen zaman dilimi tabanlı (span prompting) yöntemi ise, belirli bir zaman aralığındaki ses karakteristiğini tüm dosyada filtrelemek için kullanılıyor.