OpenAI, sesli konuşma ve metinden sese çeviri konusunda yepyeni modellerini tanıttı. Peki, bu modeller neler sunuyor? İşte tüm detaylar!
OpenAI, sesli konuşma ve metinden sese çeviri konusunda yeni modellerini duyurdu. Artık API üzerinden erişilebilen bu modeller, konuşmaları daha doğal hale getirirken metinleri de daha doğru şekilde sese dönüştürebiliyor. Kısacası yapay zekâ artık sadece konuşmakla kalmıyor, nasıl konuşacağını da çok daha iyi kavrıyor!
OpenAI, metinden sese çeviri ve konuşmadan metne çeviri yapan yeni yapay zekâ modellerini tanıttı. Modeller, daha doğal sesler sunuyor.
OpenAI yeni modellerini duyurdu
Yeni modeller arasında yer alan “gpt-4o-mini-tts”, metinden sese çeviri yaparak daha doğal ve gerçekçi konuşmalar oluşturabiliyor. OpenAI, geliştiricilerin bu modelin konuşma tarzını belirleyerek farklı seslendirme seçenekleri oluşturabileceğini paylaştı. Örneğin, modelin bir bilim insanı gibi konuşması veya sakin bir rehber tonunda seslendirme yapması sağlanabiliyor. Şirket, modelin çeşitli ses tonlarını desteklediğini ve bu özelliğin kullanıcı deneyimine daha fazla esneklik kazandırdığını belirtti.
Konuşmadan metne çeviri yapan “gpt-4o-transcribe” ve “gpt-4o-mini-transcribe” modellerinin, OpenAI’nin eski Whisper modelinin yerini aldığı açıklandı. Şirket, yeni modellerin daha geniş kapsamlı ve kaliteli ses verileriyle eğitildiğini paylaştı. Bu sayede farklı aksanları ve konuşma biçimlerini daha iyi algılayabildiğini belirten OpenAI, modellerin yoğun arka plan gürültüsüne sahip ortamlarda bile konuşmaları daha doğru şekilde çözümlenebildiğini ifade etti.
Ancak OpenAI, yeni transkripsiyon modellerini açık kaynak olarak sunmayacağını duyurdu. Daha önce Whisper modelini açık kaynak olarak paylaşan şirket, yeni modellerin çok daha büyük olduğunu ve yerel cihazlarda çalıştırılmasının zor olacağını ifade etti. OpenAI, ilerleyen dönemde cihazlara özel daha hafif versiyonların açık kaynak olarak yayımlanmasının değerlendirilebileceğini belirtti.