Meta, công ty mẹ của Facebook, đang đối mặt với cáo buộc thao túng điểm chuẩn (benchmark) cho các mô hình AI mới nhất là Llama 4 Maverick và Llama 4 Scout. Ahmad Al-Dahle, Phó Chủ tịch AI Tạo sinh tại Meta, đã phủ nhận cáo buộc này trên nền tảng X, khẳng định việc huấn luyện mô hình trên tập dữ liệu kiểm tra (test sets) là "hoàn toàn không đúng sự thật"[2][4]. Tin đồn này xuất phát từ một bài đăng trên mạng xã hội Trung Quốc, do một người dùng tự xưng là cựu nhân viên Meta đăng tải, tố cáo công ty đã che giấu điểm yếu của mô hình bằng cách tối ưu hóa kết quả benchmark[2][4]. Để hiểu rõ hơn về vấn đề này, chúng ta cần xem xét kỹ hơn về cơ chế benchmark và cáo buộc cụ thể mà Meta đang phải đối mặt. Test sets là tập dữ liệu dùng để đánh giá hiệu suất mô hình sau khi huấn luyện. Việc huấn luyện trực tiếp trên test sets có thể làm tăng giả điểm chuẩn, khiến mô hình trông mạnh hơn thực tế[2][4]. Cáo buộc cụ thể nhắm vào Maverick và Scout, cho rằng chúng có hiệu suất thấp trong một số nhiệm vụ, trong khi Meta sử dụng phiên bản thử nghiệm chưa phát hành của Maverick để đạt điểm cao hơn trên nền tảng LM Arena[4]. Phản hồi từ Meta là một sự phủ nhận rõ ràng. Al-Dahle nhấn mạnh Meta "không bao giờ làm điều này" và cam kết tuân thủ tiêu chuẩn công nghiệp[2][4]. Ông cũng đưa ra giải thích về sự không nhất quán mà một số người dùng gặp phải. Theo Al-Dahle, một số người dùng đang thấy "chất lượng hỗn hợp" từ Maverick và Scout trên các nhà cung cấp dịch vụ đám mây khác nhau. Ông giải thích rằng do Meta phát hành các mô hình ngay khi chúng sẵn sàng, nên cần vài ngày để tất cả các triển khai công khai được điều chỉnh[2][4]. Meta cam kết tiếp tục sửa lỗi và hợp tác với các đối tác để cải thiện trải nghiệm người dùng. Tuy nhiên, việc Meta sử dụng phiên bản thử nghiệm của Maverick trên LM Arena đã làm dấy lên nghi ngờ. Các nhà nghiên cứu trên X đã quan sát thấy sự khác biệt rõ rệt trong hành vi của Maverick có thể tải xuống công khai so với mô hình được lưu trữ trên LM Arena[4]. Điều này đặt ra câu hỏi về tính minh bạch và độ tin cậy của các benchmark. Như đã đề cập trước đây, LM Arena chưa bao giờ là thước đo đáng tin cậy nhất về hiệu suất của mô hình AI. Tuy nhiên, các công ty AI thường không tùy chỉnh hoặc tinh chỉnh mô hình của họ để đạt điểm cao hơn trên LM Arena - hoặc ít nhất là không thừa nhận điều đó[4]. Vấn đề với việc điều chỉnh một mô hình cho một benchmark, giữ lại nó và sau đó phát hành một biến thể "vanilla" của cùng một mô hình là nó gây khó khăn cho các nhà phát triển trong việc dự đoán chính xác hiệu suất của mô hình trong các bối cảnh cụ thể. Nó cũng gây hiểu lầm. Lý tưởng nhất, các benchmark - dù còn nhiều thiếu sót - cung cấp một bức tranh về điểm mạnh và điểm yếu của một mô hình duy nhất trên một loạt các nhiệm vụ[4]. Mặc dù Meta phủ nhận các cáo buộc, nhưng vụ việc này làm nổi bật tầm quan trọng của tính minh bạch và trách nhiệm giải trình trong lĩnh vực AI. Việc cộng đồng kiểm chứng và đánh giá độc lập là rất quan trọng để đảm bảo rằng các benchmark phản ánh chính xác khả năng của các mô hình AI. Hơn nữa, sự cạnh tranh khốc liệt trong lĩnh vực AI có thể tạo ra áp lực cho các công ty để trình bày sản phẩm của họ một cách tốt nhất có thể, nhưng điều quan trọng là phải duy trì tính trung thực và tránh các hành vi gây hiểu lầm.