Các nhà phát triển tại Microsoft đã giới thiệu một công cụ trí thông minh nhân tạo (AI) mới mang tên VASA-1 với khả năng biến ảnh chân dung tĩnh, hoặc bản vẽ của một người, trở thành những video đầy sống động, có thể cử động, nói chuyện và hát hò một cách tự nhiên.

Ảnh: Microsoft.
Ảnh: Microsoft.

“Công cụ này sử dụng một bức ảnh tĩnh cùng với một file âm thanh sẵn có để tạo ra khuôn mặt nói chuyện y như thật theo thời gian thực. VASA-1 có thể tự tạo biểu cảm, cử động đầu và cử động môi cho phù hợp với bài nói hoặc bài hát trong file âm thanh”, nhóm phát triển VASA-1 viết trên trang chủ của Microsoft.

Để chứng minh tính hiệu quả của VASA-1, nhóm nghiên cứu đã đăng tải các đoạn video ngắn ghi lại kết quả thử nghiệm, bao gồm cả phiên bản hoạt hình của Mona Lisa đang hát nhạc rap.
VASA-1 được đào tạo dựa trên bộ dữ liệu VoxCeleb2, chứa hơn một triệu đoạn hội thoại của 6.112 người nổi tiếng được trích xuất từ các video trên YouTube.

VASA-1 cho phép người dùng điều chỉnh các thông số như biểu cảm khuôn mặt, giọng nói, tốc độ nói,... để tạo ra những video cá nhân hóa theo ý muốn.

Công nghệ này đánh dấu một bước tiến mới trong lĩnh vực xử lý ảnh và video, mở ra tiềm năng ứng dụng rộng lớn trong nhiều lĩnh vực như giải trí, giáo dục, truyền thông. Tuy nhiên, nó cũng tiềm ẩn những rủi ro và có khả năng bị lạm dụng để tạo video Deepfake về người thật một cách dễ dàng và nhanh chóng.