Microsoft đang tạo ra những bước đột phá đáng chú ý trong lĩnh vực trí tuệ nhân tạo tạo sinh, minh chứng rõ ràng nhất là mô hình WHAMM mới với phiên bản game Quake II được tạo sinh theo thời gian thực. Mặc dù chỉ là một bản thử nghiệm (proof of concept) và chưa mang lại trải nghiệm chơi game thực sự thú vị, nhưng khả năng này đã mở ra cánh cửa cho tương lai của ngành công nghiệp game.
Sự phát triển của công nghệ tạo sinh game theo thời gian thực được dự đoán sẽ tạo ra những thay đổi mang tính cách mạng cho ngành công nghiệp này. Các nhà nghiên cứu đã thành công trong việc chạy Doom trên mô hình học thần kinh GameNGen của Google, OASIS AI cho phép người dùng trải nghiệm phiên bản Minecraft được tạo sinh ngay trên trình duyệt, và gần đây nhất, vào tháng 2 năm 2025, Microsoft đã giới thiệu hệ thống tạo sinh game độc đáo mang tên WHAM.
WHAMM: Bước Tiến Vượt Bậc So Với Phiên Bản Tiền Nhiệm WHAM-1.6B
Mô hình WHAM-1.6B mà Microsoft trình làng sáu tuần trước đó dù ấn tượng nhưng còn nhiều hạn chế về mặt thực tế. Nó chỉ có thể tạo ra một khung hình mỗi giây với độ phân giải 300 x 180 và đòi hỏi lượng dữ liệu huấn luyện lên tới bảy năm để tạo ra một trò chơi “có thể chơi được”. Ngay sau khi ra mắt WHAM-1.6B, Microsoft đã bắt tay vào phát triển phiên bản nâng cấp mang tên WHAMM (World Human Action MaskGIT Model) và kết quả thực sự đáng kinh ngạc.
Hiệu Suất Ấn Tượng: Tăng Gấp Đôi Độ Phân Giải, 10 FPS và Dữ Liệu Huấn Luyện Tối Ưu
WHAMM không chỉ hoạt động ở độ phân giải video 600 x 340 (gấp đôi WHAM-1.6B) mà còn xuất hình ảnh với tốc độ tối thiểu 10 khung hình/giây (FPS). Điều đáng chú ý hơn, nó có thể “sao chép” Quake II chỉ với một tuần dữ liệu huấn luyện, cho thấy sự cải thiện vượt bậc về hiệu quả sử dụng tài nguyên và thời gian.
AI tạo sinh Quake II của Microsoft WHAMM chạy trên trình duyệt
Kiến Trúc MaskGIT Mới: Chìa Khóa Cho Tốc Độ Và Chất Lượng
Những cải tiến vượt trội này đến từ một kiến trúc được tinh chỉnh. Thay vì sử dụng hệ thống tự hồi quy “LLM-like” thông thường, nơi mô hình AI tạo ra từng token một, cấu trúc MaskGIT của WHAMM có thể “tạo ra tất cả các token cho một hình ảnh trong số lượng thế hệ tùy ý.” Nói cách khác, mô hình mới này sử dụng phương pháp xử lý song song để tăng tốc độ đầu ra, nâng cao chất lượng hình ảnh và cải thiện độ chính xác trong dự đoán.
Trải Nghiệm Thực Tế: Vẫn Còn Nhiều Thách Thức
Mặc dù những con số về hiệu suất của WHAMM rất ấn tượng, nhưng trên thực tế, các trò chơi được tạo ra bởi WHAMM vẫn chưa thực sự mang lại trải nghiệm giải trí cao.
Chất Lượng Hình Ảnh Và Tốc Độ Khung Hình: Chưa Thực Sự “Vui”
Hình ảnh game thường mờ, nhòe và có thể xuất hiện các nhiễu, tốc độ khung hình dù được cải thiện nhưng chưa lý tưởng (mặc dù không quá khác biệt so với trải nghiệm game thủ năm 1997). Các kẻ thù trong game cũng gần như không thể nhận dạng rõ ràng. Bản demo còn gặp phải tình trạng độ trễ đáng kể, mặc dù Microsoft cho rằng “độ trễ dễ nhận thấy” này là do trình phát web chứ không phải do mô hình WHAMM.
Vấn Đề “Bộ Nhớ Ngắn Hạn” Và Giới Hạn Ngữ Cảnh
WHAMM cũng đối mặt với vấn đề “bộ nhớ ngắn hạn” thường thấy ở các mô hình tạo sinh game khác. Là một mô hình dự đoán, WHAMM tạo ra các khung hình mới bằng cách nhìn vào các khung hình trước đó, dẫn đến việc khó theo dõi chính xác thông tin như máu và đạn dược. Kẻ thù có thể biến mất nếu bạn không nhìn chúng hoặc bất ngờ xuất hiện mà không rõ lý do. Thậm chí, nếu người chơi đẩy nhân vật vào tường hoặc nhìn chằm chằm xuống sàn, nhân vật có thể bị dịch chuyển đến một vị trí khác trên bản đồ.
Tuy nhiên, trong các thử nghiệm ban đầu, WHAMM dường như ít gặp vấn đề về “bộ nhớ ngắn hạn” hơn so với một số mô hình khác. Chiều dài ngữ cảnh 0.9 giây của nó đủ tốt để ngăn chặn những trải nghiệm khó hiểu, kỳ lạ như khi thử chơi Minecraft tạo sinh. Rõ ràng, chiều dài ngữ cảnh là một thách thức lớn mà Microsoft cần phải vượt qua.
Giới Hạn Dữ Liệu Huấn Luyện: Chỉ Dành Cho Cấp Độ Đầu Tiên
Cần lưu ý rằng WHAMM mới chỉ được huấn luyện trên cấp độ đầu tiên của Quake II. Nếu người chơi đi thang máy ở cuối cấp độ, mô hình sẽ bị treo. Do đó, khẳng định của Microsoft rằng WHAMM có thể được huấn luyện chỉ với một tuần dữ liệu video có phần gây hiểu lầm. Mặc dù mô hình này yêu cầu ít dữ liệu huấn luyện hơn WHAM-1.6B, nhưng lượng dữ liệu cần thiết để tạo ra một trò chơi tương tác đầy đủ sẽ thay đổi dựa trên chiều dài nội dung, độ phức tạp của trò chơi và các yếu tố khác.
Tiềm Năng Và Tương Lai Của AI Tạo Sinh Game
Microsoft nhận thức rằng AI tạo sinh thời gian thực có thể sản xuất “những loại phương tiện tương tác mới”, nhưng vẫn đang trong quá trình khám phá những loại phương tiện đó sẽ là gì. Đây là một lĩnh vực đầy hứa hẹn, có thể cách mạng hóa cách chúng ta thiết kế, phát triển và trải nghiệm game trong tương lai.
Trải Nghiệm Trực Tiếp Quake II Tạo Sinh Với WHAMM
Bạn có thể tự mình trải nghiệm phiên bản Quake II được tạo sinh theo thời gian thực tại trang web Copilot Labs. Các trò chơi được tính giờ và sẽ tự động đặt lại khi hết thời gian. Hãy nhớ rằng đây chỉ là một bản thử nghiệm, vì vậy đừng kỳ vọng quá nhiều vào trải nghiệm chơi game.
Kết Luận
Mô hình WHAMM của Microsoft là một bước tiến đáng kể trong công nghệ AI tạo sinh game thời gian thực, cho thấy tiềm năng to lớn trong việc tạo ra các thế giới ảo phức tạp và sống động chỉ với lượng dữ liệu huấn luyện tối thiểu. Mặc dù còn nhiều thách thức về chất lượng hình ảnh, tốc độ khung hình và đặc biệt là vấn đề “bộ nhớ ngắn hạn”, những cải tiến về kiến trúc và hiệu suất của WHAMM đã đặt nền móng vững chắc cho tương lai của ngành game và các phương tiện tương tác. Hãy trải nghiệm bản demo để tự mình chứng kiến những thành tựu công nghệ đáng kinh ngạc này và cùng tinmoicongnghe.com chờ đợi những đột phá tiếp theo từ Microsoft.