Microsoft Meluncurkan Inovasi Baru: Alat AI yang Mengubah Foto menjadi Video Realistis dan Menyanyi!

Media90 (media.gatsu90rentcar.com) – Microsoft Research Asia telah meluncurkan sebuah terobosan di dunia kecerdasan buatan dengan mengumumkan alat eksperimental terbaru mereka yang dikenal sebagai VASA-1.

Alat ini memiliki kemampuan luar biasa untuk mengambil gambar diam seseorang dan menggabungkannya dengan file audio yang ada, menciptakan sebuah video di mana wajah berbicara secara real time.

ads

Dengan menggunakan teknologi canggih, VASA-1 dapat menghasilkan ekspresi wajah yang alami dan gerakan kepala yang sesuai dengan kata-kata yang diucapkan, serta sinkronisasi gerakan bibir dengan pidato atau lagu yang terdengar.

Para peneliti telah memuat banyak contoh dari hasil kerja mereka di halaman proyek, menunjukkan tingkat realisme yang cukup tinggi sehingga orang mungkin dengan mudah tertipu untuk percaya bahwa itu adalah rekaman asli.

Meskipun demikian, setelah diperiksa lebih dekat, terdapat sedikit kekakuan pada gerakan bibir dan kepala dalam beberapa contoh, yang menunjukkan adanya ruang untuk peningkatan lebih lanjut dalam teknologi ini.

Namun, kemampuan untuk membuat video yang realistis dengan cepat dan mudah membuka pintu bagi potensi penyalahgunaan, terutama dalam pembuatan video deepfake yang dapat digunakan untuk tujuan yang tidak etis.

Mengakui risiko tersebut, para peneliti telah mengambil langkah-langkah untuk memastikan bahwa alat ini tidak disalahgunakan.

Mereka memutuskan untuk tidak merilis demo online, API, produk, atau detail implementasi tambahan sampai mereka yakin bahwa teknologi ini akan digunakan secara bertanggung jawab dan sesuai dengan peraturan yang berlaku.

Namun, mereka tidak secara spesifik mengungkapkan rencana pengamanan tertentu yang akan diterapkan untuk mencegah penyalahgunaan potensial.

Meskipun demikian, para peneliti optimis tentang potensi positif teknologi mereka. Mereka percaya bahwa VASA-1 dapat memiliki dampak positif dalam meningkatkan kesetaraan pendidikan dan aksesibilitas bagi mereka yang memiliki tantangan komunikasi, dengan memberi mereka akses ke avatar yang dapat berkomunikasi untuk mereka.

Menurut makalah yang diterbitkan bersamaan dengan pengumuman tersebut, VASA-1 dilatih menggunakan Kumpulan Data VoxCeleb2, yang berisi lebih dari 1 juta ucapan dari 6.112 selebritas yang diambil dari video YouTube.

Meskipun awalnya dilatih pada wajah asli, alat ini juga berhasil berfungsi pada foto artistik, seperti yang ditunjukkan dalam contoh lucu di mana gambar Mona Lisa digabungkan dengan file audio dari video viral Anne Hathaway tentang Paparazzi Lil Wayne.

Dengan pengumuman ini, Microsoft Research Asia telah membuka jalan menuju masa depan yang menjanjikan di mana teknologi AI dapat digunakan secara positif untuk meningkatkan cara kita berkomunikasi dan berinteraksi dengan dunia di sekitar kita.

Post Views: 214

Pos Terkait

Tinggalkan Balasan Batalkan balasan

Baca Juga