Ngành công nghiệp game đang đứng trước một cuộc cách mạng tiềm năng khi Trí tuệ nhân tạo (AI) dần lấn sân vào quy trình tạo nội dung. Microsoft gần đây đã trình diễn mô hình AI thế hệ mới mang tên WHAMM, có khả năng tạo ra phiên bản thời gian thực của tựa game kinh điển Quake II. Mặc dù hiện tại chỉ dừng lại ở mức bản thử nghiệm concept và trải nghiệm chưa thực sự trọn vẹn, sự xuất hiện của WHAMM đang mở ra những cuộc thảo luận sôi nổi về tương lai của game được tạo sinh bằng AI và liệu đây sẽ là đòn bẩy hay mối đe dọa cho ngành.
Bối Cảnh Game Tạo Sinh Thời Gian Thực: Xu Hướng Nóng Hổi
Việc phát triển các mô hình AI tạo sinh game theo thời gian thực đang tăng tốc một cách chóng mặt. Các nhà nghiên cứu đã tìm ra cách để vận hành Doom bên trong mô hình học thần kinh GameNGen của Google, trong khi OASIS AI cho phép người dùng trải nghiệm một phiên bản Minecraft được tạo sinh ngay trên trình duyệt. Vào tháng 2 năm 2025, Microsoft đã giới thiệu hệ thống game tạo sinh độc đáo của mình, WHAM. Phiên bản WHAM-1.6B ban đầu, dù ấn tượng, vẫn còn nhiều hạn chế về mặt thực tiễn. Nó chỉ có thể tạo ra một khung hình mỗi giây ở độ phân giải 300 x 180 và đòi hỏi dữ liệu huấn luyện lên tới bảy năm để tạo ra một trò chơi “có thể chơi được”. Nhận thấy tiềm năng và những thách thức đó, Microsoft đã nhanh chóng bắt tay vào phát triển phiên bản nâng cấp, WHAMM (World Human Action MaskGIT Model), và những kết quả ban đầu đã thực sự gây bất ngờ.
WHAMM: Khác Biệt Nằm Ở Đâu?
So với người tiền nhiệm WHAM-1.6B, mô hình WHAMM đã đạt được những cải tiến đáng kể. Không chỉ hoạt động ở độ phân giải 600 x 340 (gấp đôi WHAM-1.6B), WHAMM còn xuất ra hình ảnh với tốc độ tối thiểu 10 khung hình mỗi giây (FPS) và đặc biệt, nó có thể “học” để mô phỏng Quake II chỉ với một tuần dữ liệu huấn luyện. Sự nhảy vọt này đến từ một kiến trúc được tinh chỉnh vượt trội.
Kiến Trúc MaskGIT Đột Phá
Thay vì sử dụng một hệ thống autoregressive truyền thống, giống như các mô hình ngôn ngữ lớn (LLM) thường tạo ra từng token một, cấu trúc MaskGIT của WHAMM cho phép mô hình AI tạo ra tất cả các token cho một hình ảnh trong nhiều thế hệ song song. Nói cách khác, mô hình mới này tận dụng khả năng xử lý song song để tăng đáng kể tốc độ xuất hình, cải thiện chất lượng hình ảnh và nâng cao độ chính xác dự đoán. Đây là một bước tiến quan trọng trong việc tăng cường hiệu suất của các mô hình AI tạo sinh nội dung phức tạp như game.
Hiệu Năng Vượt Trội So Với WHAM-1.6B
WHAMM đã chứng minh được hiệu năng vượt trội rõ rệt. Từ độ phân giải tăng gấp đôi đến tốc độ khung hình cao hơn gấp 10 lần, cùng với việc giảm thiểu đáng kể thời gian và lượng dữ liệu huấn luyện, WHAMM đã khắc phục được nhiều nhược điểm của WHAM-1.6B, đưa công nghệ AI tạo game thời gian thực tiến thêm một bước gần hơn với thực tế.
Hình ảnh minh họa game Quake II được tạo bởi mô hình AI WHAMM của Microsoft, thể hiện giao diện và đồ họa AI tạo sinh trong trình duyệt web.
Trải Nghiệm Thực Tế Với Quake II AI: Những Hạn Chế Cần Vượt Qua
Mặc dù có những cải tiến vượt bậc, từ góc độ thực tiễn, các trò chơi được tạo bởi WHAMM hiện tại vẫn chưa thực sự mang lại trải nghiệm thú vị. Hình ảnh vẫn còn mờ, nhòe và không sắc nét. Tốc độ khung hình dù tốt hơn nhưng chưa lý tưởng, và các đối thủ trong game gần như không thể nhận diện được. Bản demo cũng gặp phải tình trạng giật lag đáng kể, mặc dù Microsoft cho rằng độ trễ này chủ yếu do trình phát web chứ không phải do chính mô hình.
WHAMM cũng gặp phải vấn đề “bộ nhớ ngắn hạn” thường thấy ở các mô hình game tạo sinh khác. Là một mô hình dự đoán, WHAMM tạo ra các khung hình mới bằng cách tham chiếu các khung hình trước đó, dẫn đến việc nó kém trong việc theo dõi các yếu tố như máu và đạn dược. Kẻ thù có thể biến mất khi người chơi quay đi hoặc đột ngột xuất hiện không lý do. Thậm chí, việc di chuyển nhân vật sát tường hoặc nhìn chằm chằm vào sàn nhà có thể khiến người chơi bị dịch chuyển đến một vị trí khác trên bản đồ. Tuy nhiên, qua thử nghiệm, WHAMM dường như ít gặp vấn đề “bộ nhớ ngắn hạn” hơn một số mô hình khác. Với độ dài ngữ cảnh 0.9 giây, nó đủ để ngăn chặn tình trạng “ảo giác” gây khó chịu từng xuất hiện khi trải nghiệm Minecraft được tạo sinh bằng AI, dù rõ ràng độ dài ngữ cảnh vẫn là một thách thức lớn mà Microsoft cần phải vượt qua.
Cần lưu ý rằng WHAMM hiện chỉ được huấn luyện trên cấp độ đầu tiên của Quake II. Nếu người chơi cố gắng di chuyển bằng thang máy ở cuối cấp độ, mô hình sẽ bị treo. Điều này cho thấy tuyên bố của Microsoft về việc WHAMM có thể được huấn luyện chỉ với một tuần dữ liệu video có phần gây hiểu lầm. Mặc dù mô hình này yêu cầu ít dữ liệu huấn luyện hơn WHAM-1.6B, nhưng lượng dữ liệu cần thiết để tạo ra một trò chơi tương tác đầy đủ sẽ phụ thuộc vào độ dài nội dung, độ phức tạp của game và nhiều yếu tố khác.
Tiềm Năng và Thách Thức Trong Tương Lai
Về cách thức công nghệ này sẽ được sử dụng trong tương lai, Microsoft nhận định rằng AI tạo sinh thời gian thực có thể tạo ra “những loại hình truyền thông tương tác mới”, nhưng họ vẫn đang trong quá trình khám phá chính xác những loại hình đó là gì. Đây là một lĩnh vực đầy hứa hẹn, có thể mở ra kỷ nguyên mới cho việc thiết kế game, tạo nội dung động và mang lại trải nghiệm cá nhân hóa chưa từng có. Tuy nhiên, để đạt được tiềm năng đó, các nhà phát triển cần giải quyết triệt để những hạn chế hiện tại về chất lượng hình ảnh, hiệu suất và khả năng duy trì trạng thái ngữ cảnh của game.
Bạn có thể thử trải nghiệm phiên bản Quake II được tạo sinh thời gian thực trên trang web Copilot Labs. Các trò chơi sẽ có thời gian giới hạn và sẽ đặt lại khi hết giờ. Một lần nữa, đây chỉ là một bản thử nghiệm concept, vì vậy đừng kỳ vọng quá nhiều vào trải nghiệm chơi game hoàn chỉnh.
Nguồn: Microsoft