Tại sự kiện GTC vừa qua, CEO Jensen Huang của Nvidia đã gây chú ý khi giới thiệu thế hệ GPU và CPU dành cho trung tâm dữ liệu tiếp theo của hãng, với tên mã Vera, Rubin và Rubin Ultra. Đây là những bước tiến quan trọng trong việc nâng cao hiệu suất và khả năng xử lý của các hệ thống AI, hứa hẹn mang lại những thay đổi đáng kể cho ngành công nghiệp.Để làm rõ hơn, Vera là kiến trúc CPU, Rubin là kiến trúc GPU, và Rubin Ultra là phiên bản nâng cấp của Rubin. Sự phân chia này giúp Nvidia tập trung vào việc tối ưu hóa từng thành phần, từ đó tạo ra một hệ thống mạnh mẽ và hiệu quả hơn.Theo lời ông Huang, Rubin Ultra được thiết kế để có thể tích hợp tới 576 die GPU vào một rack duy nhất, với mức tiêu thụ điện lên tới 600 kW. Tuy nhiên, trước khi Rubin Ultra ra mắt vào cuối năm 2027, chúng ta sẽ được trải nghiệm trước các lõi CPU Vera và GPU Rubin.Vera, được đặt theo tên nhà thiên văn học người Mỹ Vera Rubin, người nổi tiếng với nghiên cứu về vật chất tối, là kiến trúc CPU tương thích với Arm đầu tiên của Nvidia kể từ khi Grace được công bố vào năm 2021. CPU này sẽ có 88 lõi Arm được thiết kế tùy chỉnh, loại bỏ Neoverse, với công nghệ SMT (Simultaneous Multithreading) giúp tăng số lượng luồng lên 176 trên mỗi socket. Tương tự như Grace, chip này sẽ tích hợp kết nối NVLink chip-to-chip để giao tiếp với GPU Rubin sắp ra mắt.Rubin, theo ông Huang, sẽ kế thừa nhiều yếu tố thiết kế từ kiến trúc Blackwell, bao gồm hai die giới hạn reticle, có khả năng đạt tới 50 petaFLOPS ở độ chính xác FP4, cùng với 288 GB bộ nhớ HBM4, cung cấp băng thông 13 TB/s. Giống như Blackwell và Blackwell Ultra, các thành phần này sẽ được đóng gói dưới dạng Superchip và triển khai trong khung NVL144 của Nvidia. Tuy nhiên, không giống như Blackwell, Rubin sẽ không tăng gấp đôi số lượng GPU trong một rack. Thay vào đó, Nvidia đã thay đổi cách tính số lượng GPU, với mỗi gói Rubin được tính là hai GPU.So với GB300 NVL72, có cùng số lượng die GPU, Vera-Rubin NVL144 sẽ mang lại hiệu suất dấu phẩy động cao hơn 3,3 lần, đạt 3,6 exaFLOPS ở độ chính xác FP4 cho suy luận và 1,2 exaFLOPS ở độ chính xác FP8 cho tính toán huấn luyện. Hệ thống này cũng sẽ có switch fabric NVLink thế hệ thứ 6 của Nvidia, cung cấp băng thông kết nối tổng hợp 260 TB/s (1,8 TB/s trên mỗi die) và sử dụng card mạng ConnectX-9 1,6 Tbps sắp ra mắt.Ngoài ra, tại GTC, Nvidia cũng giới thiệu dòng mô hình suy luận Llama Nemotron, được thiết kế để tích hợp vào các hệ thống AI agent. Hai mô hình đầu tiên, Nano và Super, dựa trên Llama 3.1 8B và 3.3 70B của Meta, đã được tinh chỉnh để đạt được khả năng suy luận theo yêu cầu. Cả hai mô hình đều có sẵn dưới dạng Nvidia Inference Microservices (NIMs) hoặc thông qua Hugging Face. Bên cạnh đó, Nvidia còn giới thiệu AI-Q Blueprint, một framework mã nguồn mở để xây dựng các dịch vụ AI agent phức tạp, có khả năng thu thập và xử lý thông tin từ nhiều nguồn hoặc cơ sở dữ liệu.Điểm đáng chú ý nhất là khi Rubin Ultra ra mắt vào cuối năm 2027. Chip này sẽ tăng gấp đôi số lượng die GPU và mô-đun HBM lên bốn và 16 tương ứng. Nvidia dự kiến mỗi gói Rubin Ultra sẽ đạt trên 100 petaFLOPS hiệu suất FP4 và tích hợp 1 terabyte bộ nhớ HBM4e nhanh hơn. 144 gói này, cùng với một số lượng CPU Vera không xác định, sẽ được tích hợp vào một rack có công suất tiêu thụ và nhiệt lượng tỏa ra là 600 kW. Tổng cộng, hệ thống rack-scale này dự kiến sẽ cung cấp 15 exaFLOPS hiệu suất suy luận FP4 và 5 exaFLOPS cho huấn luyện FP8.Để đáp ứng nhu cầu về băng thông cho các tensor core, Nvidia có kế hoạch chuyển sang kết nối NVLink7 nhanh hơn cho giao tiếp chip-to-chip, nhưng vẫn sử dụng card mạng ConnectX-9 1,6 Tbps cho giao tiếp mở rộng. Tuy nhiên, một câu hỏi đặt ra là liệu các trung tâm dữ liệu hiện tại có thể hỗ trợ cấu hình mật độ cao như vậy hay không. Hình ảnh được chia sẻ trong bài phát biểu của ông Huang tại GTC cho thấy một rack cao, được đóng gói dày đặc với các hệ thống được lắp theo chiều dọc vào tủ, tương tự như một số cụm HPC từ Lenovo và HPE Cray. Sự ra đời của các hệ thống này sẽ đòi hỏi sự nâng cấp đáng kể về cơ sở hạ tầng để đảm bảo hoạt động ổn định và hiệu quả.Với những cải tiến vượt bậc về hiệu suất và khả năng mở rộng, Vera, Rubin và Rubin Ultra hứa hẹn sẽ định hình lại tương lai của trung tâm dữ liệu và các ứng dụng AI. Tuy nhiên, việc triển khai thành công các hệ thống này cũng đòi hỏi sự chuẩn bị kỹ lưỡng về cơ sở hạ tầng và nguồn lực, để tận dụng tối đa tiềm năng mà chúng mang lại.