Reklam
    Reklam
    Teknoloji Haberleri

    Meta ses işlemede devrim yapıyor

    Meta, yeni nesil ses modelini resmen görücüye çıkardı.

    Meta, görsel dünyada devrim yaratan Segment Anything Model (SAM) teknolojisini ses dünyasına taşıyan yeni nesil SAM Audio modelini resmen duyurdu. Profesyonel ses düzenleme süreçlerinde yeni bir standart belirleyen bu yapay zeka modeli, karmaşık ve iç içe geçmiş ses dosyalarından istenen kaynakları çok modlu girdilerle ayrıştırabiliyor.

    Meta, yeni ses modelini duyurdu

    Geleneksel yöntemlerin aksine model; metin komutları, görsel işaretlemeler veya zaman dilimi belirleme gibi doğal etkileşim yöntemlerini kullanarak kullanıcıların belirli sesleri izole etmesine imkan tanıyor. Bu teknoloji sayesinde bir videoda sadece ses çıkaran nesneye tıklayarak o nesnenin sesini ayrıştırmak veya “köpek havlaması” gibi basit bir metin komutuyla istenmeyen sesleri temizlemek mümkün hale geliyor.

    Reklam
    Reklam

    Modelin teknik altyapısında, ses ve görsel verileri zaman ekseninde hassas bir şekilde hizalayan Perception Encoder Audiovisual (PE-AV) isimli motor görev yapıyor. SAM Audio, 500 milyon ile 3 milyar parametre arasında değişen farklı ölçeklerde yapılandırılabiliyor ve gerçek zamanlı işleme hızının da üzerine çıkarak RTF ≈ 0.7 seviyesinde performans sergiliyor.

    Mimari olarak akış eşleştirme difüzyon dönüştürücüsü üzerine inşa edilen bu üretici sistem, hem gerçek hem de sentetik verilerden oluşan devasa bir eğitim setiyle destekleniyor. Sistem, girdi olarak verilen karışık ses dosyasından hem hedeflenen sesi hem de geriye kalan “artık” ses parçalarını (residual audio) eş zamanlı olarak üretebiliyor.

    SAM Audio ile sunulan üç temel ayrıştırma yöntemi, kullanıcıya benzersiz bir esneklik sağlıyor. Metin tabanlı yöntemde kullanıcı doğrudan “piyano sesi” veya “vokal” yazarak hedefi belirleyebilirken; görsel yöntemde videodaki enstrümanlar veya konuşmacılar üzerine tıklanması yeterli oluyor. Sektörde bir ilk olarak nitelendirilen zaman dilimi tabanlı (span prompting) yöntemi ise, belirli bir zaman aralığındaki ses karakteristiğini tüm dosyada filtrelemek için kullanılıyor.

    Henüz yorum yok İlk Yorumu Yaz
    ×

    Yorumunuz gönderildi,
    onaylandıktan sonra yayımlanacak.

    Yorum Yaz

    Mobil Versiyondan Çıkış Yap