Tại sự kiện GTC 2026 diễn ra ở San Jose, Nvidia đã chính thức vén màn chi tiết về dòng CPU trung tâm dữ liệu Vera hoàn toàn mới. Thoát khỏi cái bóng của một con chip phụ trợ, Vera mang đến thiết kế kiến trúc Arm với 88 lõi cùng cấu trúc tủ mạng (rack) mật độ cực cao.
Động thái này khẳng định rõ tham vọng đánh chiếm thị trường CPU chính lưu của hãng, đặc biệt là trong các hệ thống triển khai AI và phân tích dữ liệu quy mô khổng lồ. Đi kèm với con chip, Nvidia còn tung ra một tủ mạng làm mát bằng chất lỏng có sức chứa lên tới 256 CPU Vera.
Khác biệt hoàn toàn so với thế hệ Grace vốn chỉ được xem là linh kiện "đính kèm" cho GPU, Vera hiên ngang tiến ra sân khấu như một CPU trung tâm dữ liệu độc lập và đa dụng. Con chip này nhắm thẳng vào các khối lượng công việc AI nặng đô như framework tác tử, pipeline xử lý kịch bản phức tạp, phân tích dữ liệu và biên dịch mã.
Kiến Trúc 88 Lõi và Hiệu Suất Vượt Trội
Vera mang trong mình 88 lõi Arm v9.2-A với tên mã "Olympus" do chính tay Nvidia nhào nặn, một bước nhảy vọt so với 72 lõi Arm Neoverse của Grace. Nvidia tự tin khẳng định thế hệ mới này đẩy số chỉ thị trên mỗi chu kỳ (IPC) lên gấp 1.5 lần so với đàn anh. Hãng cũng cho biết con số này tương đương với mức tăng hiệu suất khoảng 50% khi đặt lên bàn cân với các CPU "tiêu chuẩn" hiện hành.
Bước đột phá cốt lõi ở Vera chính là việc áp dụng mô hình đa luồng không gian (spatial multi-threading) ngay trong các lõi Olympus. Khác với kiểu đa luồng đồng thời (SMT) truyền thống vốn bắt hai luồng phải chen chúc trên cùng một tài nguyên, thiết kế của Vera phân vùng vật lý rạch ròi các cấu trúc thiết yếu như đơn vị thực thi, bộ nhớ đệm và tệp thanh ghi. Giải pháp này giúp mỗi luồng phần cứng cứ thế băng băng tiến bước mà không phải mòn mỏi chờ đợi quyền truy cập dữ liệu.
Kiến trúc này được sinh ra nhằm tối đa hóa tính song song ở cấp độ chỉ thị và tổng băng thông, cho phép một luồng vô tư xài ké tài nguyên đang rảnh rỗi của luồng kia. Nvidia tin rằng cách làm này sẽ mang lại hiệu suất ổn định và dễ đoán hơn hẳn trong các môi trường đa khách thuê (multi-tenant) phức tạp. Trên thực tế, cả hai luồng đều thực sự chạy song song trên cùng một lõi duy nhất mà không dẫm chân lên nhau.
Nvidia đã gom toàn bộ 88 lõi thành một miền kết hợp duy nhất (single coherent domain), thay vì băm nhỏ thành nhiều vùng NUMA như thiết kế x86 truyền thống. Đây là một cú rẽ nhánh đầy táo bạo giúp tối ưu hóa luồng dữ liệu.
Để kết nối khối lượng lõi khổng lồ này, hãng dùng đến thế hệ mới của công nghệ Scalable Coherency Fabric dựa trên nền tảng CMN của Arm. Dù chưa hé lộ chi tiết cách kìm cương độ trễ ở quy mô này, nhiều khả năng một mạng lưới kết nối (mesh network) thế hệ mới đã được âm thầm triển khai.
Tập Trung Vào Băng Thông Bộ Nhớ và Phân Tích Dữ Liệu
Băng thông và dung lượng bộ nhớ chính là vũ khí chiến lược của Vera. Nếu Grace chỉ dừng ở mức 546 GB/s cho mạng lưới kết nối và 7.6 GB/s mỗi lõi, Vera đã chơi lớn khi nhân đôi tổng băng thông lên ngưỡng 1.2 TB/s.
Dung lượng bộ nhớ cũng được đẩy lên gấp ba, chạm mốc 1.5 TB chuẩn SOCAMM LPDDR5 hoặc LPDDR5X. Những thông số khủng này đảm bảo mỗi lõi luôn được bơm đủ 13.6 GB/s dữ liệu ngay cả khi toàn hệ thống đang bị vắt kiệt sức.
Đáng gờm hơn, mạng lưới kết nối có thể dồn toàn lực cung cấp băng thông lên tới 80 GB/s cho một lõi duy nhất nếu các anh em của nó đang rảnh rỗi. Tính năng "bơm máu" cục bộ này là cứu cánh tuyệt vời cho các tác vụ khát băng thông như phân tích đồ thị hay xử lý mô hình ngôn ngữ lớn (LLM).
Toàn bộ đầu máy và luồng thực thi của Vera được chế tác chuyên biệt để "nhai nuốt" các khối lượng công việc AI khổng lồ. Cụ thể, khối giải mã lệnh rộng tới 10 đơn vị – một con số hiếm thấy trên CPU máy chủ – đảm bảo phần xử lý phía sau không bao giờ chịu cảnh đói dữ liệu.
Nvidia còn trang bị một bộ dự đoán rẽ nhánh thần kinh có thể xử lý hai dự đoán mỗi chu kỳ, song hành cùng công cụ tìm nạp trước chuyên trị mảng phân tích đồ thị. Bộ đôi này sinh ra để triệt tiêu những đứt gãy khó chịu khi xử lý các mã lệnh phức tạp, giúp việc duyệt đồ thị diễn ra trơn tru hơn bao giờ hết.
Hãng cũng không quên tích hợp một bộ đệm lệnh được "đo ni đóng giày" cho PyTorch. Điều này minh chứng rõ ràng việc Nvidia đang biến các framework AI phổ biến thành kim chỉ nam cho thiết kế phần cứng của mình.
Nền Tảng và Tủ Mạng Vera
Vera hoàn toàn tương thích với các tiêu chuẩn thời thượng như PCIe 6.0, CXL 3.1 và cấu hình hai socket. Vượt lên trên những kết nối cơ bản, con chip này mang đến tính năng điện toán bảo mật (Confidential computing) toàn diện trên cả CPU và GPU.
Giờ đây, mã hóa và cách ly đã được mở rộng sâu vào bộ nhớ GPU, một đặc quyền chưa từng có ở kỷ nguyên Grace. Thêm vào đó, giao diện NVLink-C2C thế hệ hai sẵn sàng cày nát mọi giới hạn với băng thông die-to-die chạm ngưỡng 1.8 TB/s.
Phô diễn sức mạnh thực sự của hệ sinh thái, tủ mạng CPU Vera nhồi nhét tới 256 con chip làm mát bằng chất lỏng cùng các DPU BlueField-4 và SuperNIC dòng ConnectX. Cỗ máy này là một quái vật chuyên trị AI và phân tích dữ liệu ở mật độ không tưởng.
Nó có thể gánh tới 400 TB bộ nhớ LPDDR5, cung cấp tổng băng thông bộ nhớ lên đến 300 TB/s. Nói cách khác, một tủ mạng duy nhất đang chứa hơn 22,000 lõi Olympus và 45,000 luồng phần cứng.
Nvidia tự tin các tủ mạng này sẽ đè bẹp đối thủ truyền thống với băng thông CPU gấp 6 lần và hiệu suất AI tác tử gấp đôi. Dữ liệu nội bộ của hãng cũng phô trương mức hiệu suất sandbox cao hơn 1.5 lần so với phe x86. So ngay với đàn anh Grace, Vera được cho là nhanh hơn từ 1.8 đến 2.2 lần trong các tác vụ kịch bản, biên dịch và HPC.
Dù chưa có bên thứ ba nào đứng ra bảo chứng cho những con số khủng khiếp này, chúng hoàn toàn ăn khớp với triết lý thiết kế đè nặng vào băng thông và đa luồng của hãng. Các chip Vera hiện đã đi vào sản xuất hàng loạt và sẵn sàng đến tay đối tác trong nửa cuối năm nay. Bộ vi xử lý này sẽ sớm trở thành linh hồn của hệ thống HGX NVL8 và nền tảng Vera Rubin khổng lồ sắp tới.
Với Vera, Nvidia không chỉ nâng cấp phần cứng mà đang trói chặt các nhà vận hành trung tâm dữ liệu vào một hệ sinh thái khép kín từ CPU, GPU đến mạng lưới kết nối. Dù sức mạnh kỹ thuật là không thể phủ nhận, sự bành trướng này đặt ra một dấu hỏi lớn về nguy cơ độc quyền. Liệu các khách hàng doanh nghiệp có đang vô tình tự đưa mình vào thế kẹt khi quá phụ thuộc vào một nhà cung cấp duy nhất cho toàn bộ hạ tầng AI của tương lai?
