Xiaomi "phá đảo" thị trường Robot AI: Mở mã nguồn mô hình 4,7 tỷ tham số, chạy mượt trên GPU dân dụng
Xiaomi vừa thực hiện một cú đánh trực diện vào các hệ sinh thái đóng bằng việc tung ra Xiaomi-Robotics-0. Ngày 12/02/2026 đánh dấu thời điểm trí tuệ nhân tạo đa phương thức thoát ly khỏi những phòng thí nghiệm đắt đỏ để bước thẳng vào phần cứng tiêu chuẩn. Đây không chỉ là một mô hình mới; đó là lời tuyên chiến của Xiaomi trong cuộc đua robot hóa toàn cầu.
Kiến trúc Mixture-of-Transformers: Khi logic và cơ học hòa làm một
Xiaomi-Robotics-0 sở hữu 4,7 tỷ tham số, vận hành trên cấu trúc Mixture-of-Transformers (MoT) đột phá. Thay vì gộp chung mọi xử lý vào một khối nặng nề, MoT phân tách các nhiệm vụ để tối ưu hóa vòng lặp: nhận thức, quyết định và thực thi.
Trái tim của hệ thống là Mô hình Ngôn ngữ Thị giác (VLM). Nó không chỉ "đọc" dữ liệu; VLM trực tiếp mổ xẻ các chỉ dẫn mơ hồ của con người. Thay vì cần những dòng lệnh khô khan, hệ thống có thể hiểu và lập luận về không gian để xử lý các yêu cầu phức tạp. Đồng hành với nó là Action Expert, xây dựng trên nền tảng Diffusion Transformer (DiT).
Sự khác biệt nằm ở cách robot hành động. Thay vì nhích từng chút một theo cách truyền thống, hệ thống tạo ra các "Action Chunk" – chuỗi chuyển động liên tục được tinh chỉnh bằng kỹ thuật flow-matching. Hãy tưởng tượng robot nhặt một quả trứng: nó không chỉ di chuyển tay đến vị trí, mà còn liên tục tính toán và điều chỉnh lực cầm dựa trên phản hồi thời gian thực, đảm bảo sự mượt mà như bàn tay con người.
"Cú tát" vào các hệ thống AI đắt đỏ
Điểm gây sốc nhất của Xiaomi-Robotics-0 là khả năng suy luận thời gian thực ngay trên card đồ họa dân dụng (consumer-grade GPUs). Trong khi các đối thủ vẫn loay hoay với những cụm server nghìn đô để duy trì độ trễ thấp, Xiaomi đã phá vỡ rào cản chi phí vận hành.
Hiệu suất của mô hình đã được minh chứng qua các chỉ số áp đảo trên các benchmark quốc tế như CALVIN và BridgeData. Đặc biệt, tỷ lệ Sim-to-Real (chuyển đổi từ mô phỏng sang thực tế) đạt mức kỷ lục, cho thấy trí tuệ vật lý tổng quát không còn là lý thuyết suông. Việc Xiaomi mở mã nguồn mô hình VLA (Vision-Language-Action) này là một bước đi đầy toan tính nhằm thâu tóm cộng đồng lập trình viên và thiết lập một tiêu chuẩn công nghiệp mới, nơi mọi nhà phát triển đều có thể đóng góp vào hệ sinh thái Robotics-0.
Chấm dứt tình trạng "học đi đôi với... quên"
Một vấn đề nan giải của các mô hình VLA truyền thống là hiện tượng "thoái hóa suy luận": khi robot học các kỹ năng vận động mới, chúng thường quên mất khả năng tư duy logic ban đầu. Xiaomi triệt tiêu lỗ hổng này bằng phương pháp đồng huấn luyện (co-training) song song trên cả dữ liệu đa phương thức và dữ liệu hành động thực tế.
Kết quả: Xiaomi-Robotics-0 giữ vững khả năng lập luận về thế giới trong khi vẫn thuần thục các thao tác vật lý. Robot giờ đây không còn là những cỗ máy được lập trình sẵn; chúng hiểu bối cảnh và biết cách xoay xở khi môi trường thay đổi.
Lời thách thức gửi tới Tesla Optimus và Figure AI
Xiaomi-Robotics-0 chính thức trở thành "linh hồn" cho các dự án phần cứng của hãng, tiêu biểu là robot hình người CyberOne cao 1,77m. Với bước đi này, Xiaomi không giấu giếm tham vọng chiếm lĩnh bản đồ robot thế giới, tạo ra áp lực trực tiếp lên những cái tên như Tesla Optimus hay Figure AI.
Kỷ nguyên của các hệ sinh thái đóng đang bị đe dọa. Khi một mô hình 4,7 tỷ tham số, có khả năng tự học và chạy được trên phần cứng phổ thông được chia sẻ công khai, Xiaomi không chỉ bán robot – họ đang định nghĩa lại cách con người và máy móc tương tác trong một hệ sinh thái bionic toàn diện.
