Google DeepMind, divisi proyek kecerdasan buatan (artificial intelligence/AI) andalan Google, mengumumkan kehadiran Veo 2 pada Senin (16/12/2024). Veo 2 merupakan model AI generatif yang mampu membuat video berdasarkan input teks dari pengguna atau sederhananya merupakan tool AI generatif teks-ke-video (text-to-video AI). Veo 2 hadir sebagai suksesor Veo generasi pertama yang pertama kali debut dalam ajang Google I/O 2024 yang digelar Mei lalu. Sebagai model terkini, Veo 2 disebut membawa kemampuan membuat video lebih canggih dan hasil realistis. “Veo 2 menghadirkan pemahaman yang lebih baik tentang dunia nyata dan nuansa gerakan serta ekspresi manusia, yang membantu meningkatkan detail dan realisme secara keseluruhan,” tulis Google.
Dibanding Veo generasi pertama, Veo 2 diklaim lebih mumpuni karena dapat membuat video berkualitas tinggi hingga resolusi 4K (4.096 x 2.160 piksel) dengan durasi hingga lebih dari dua menit. Kemampuan ini meningkat dari Veo generasi pertama yang mampu men-generate klip video hingga 1080p dengan durasi hingga 60 detik. Dalam tools pembuatan video eksperimental Google, VideoFX, tempat Veo 2 sekarang tersedia secara eksklusif, video dibatasi pada 720p dan berdurasi delapan detik. Sebagai pembanding, Sora (model AI teks ke video milik OpenAI) dapat menghasilkan klip berdurasi 20 detik dengan resolusi hingga 1080p.
DeepMind mengatakan model Veo 2 yang dapat menghasilkan klip dalam berbagai gaya, memiliki “pemahaman” yang lebih baik tentang fisika dan kontrol kamera, serta menghasilkan rekaman yang “lebih jernih”. Yang dimaksud DeepMind dengan lebih jernih adalah tekstur dan gambar dalam klip lebih tajam, terutama dalam adegan dengan banyak gerakan. Mengenai kontrol kamera yang lebih baik, hal itu memungkinkan Veo 2 untuk memposisikan “kamera” virtual dalam video yang dihasilkannya dengan lebih tepat dan menggerakkan kamera tersebut untuk menangkap obyek dan orang dari berbagai sudut. DeepMind juga mengklaim bahwa Veo 2 dapat merealisasikan gerakan, dinamika “fluida” (seperti aliran kopi yang dituangkan ke dalam cangkir), dan sifat cahaya (seperti bayangan dan pantulan) dengan lebih realistis. Ini termasuk berbagai lensa dan efek sinematik, serta ekspresi manusia yang kompleks.
Pengguna cukup memberikan perintah teks dengan detail seperti menyebutkan “bidik dari sudut rendah dan meluncur di tengah-tengah adegan”, “bidikan close-up”, “bidik dengan lensa 18mm”, “berikan efek kabur pada latar belakang, fokus pada obyek”, dan sebagainya. DeepMind bersikeras menyatakan bahwa Veo 2 cenderung lebih jarang berhalusinasi, seperti menambahkan jari atau “objek tak terduga” ke dalam klip. Namun, Eli Collins, VP produk di DeepMind, juga mengakui bahwa masih ada pekerjaan rumah alias PR” yang harus dilakukan. “Veo dapat secara konsisten mematuhi perintah selama beberapa menit, tetapi (tidak dapat) mematuhi perintah yang rumit dalam jangka waktu yang panjang, Demikian pula, konsistensi karakter dapat menjadi tantangan,” kata Collins. “Koherensi dan konsistensi adalah PR kami,” lanjut Collins, sebagaimana dikutip KompasTekno dari blog Google, Selasa (17/12/2024).
Seperti tools AI generatif lainnya, Veo 2 dilatih dari banyak video yang menjadi “contoh”. Dengan dilatih, model Veo 2 mengambil pola dalam data yang memungkinkannya menghasilkan data baru. Model AI generatif seperti Veo 2 ini membawa risiko tertentu, seperti regurgitasi, yang mengacu pada saat model menghasilkan salinan cermin dari data pelatihan. Solusi DeepMind adalah filter tingkat perintah, termasuk untuk konten yang kasar, grafis, dan eksplisit. Untuk mengurangi risiko deepfake, DeepMind mengatakan pihaknya menggunakan teknologi watermarking miliknya, SynthID, untuk menanamkan penanda tak terlihat ke dalam bingkai yang dihasilkan Veo 2.
DeepMind tidak akan mengatakan secara pasti di mana ia mengambil video untuk melatih Veo 2. Namun, YouTube adalah salah satu sumber yang mungkin. Google memiliki YouTube, dan DeepMind sebelumnya memberi tahu TechCrunch bahwa model Google seperti Veo “mungkin” dilatih pada beberapa konten YouTube. Google meluncurkan Veo 2 ke VideoFX (di Google Labs) dan bakal memperluas jumlah pengguna yang dapat mengakses tools AI ini. Daftar tunggu masih tetap ada sehingga pengguna kebanyakan masih harus antre untuk menjajal kemampuan Veo 2. Collins mengatakan, Veo 2 rencananya akan tersedia di YouTube Shorts dan produk Google lainnya mulai tahun depan.