Viện nghiên cứu Epoch AI, đơn vị đứng sau bộ benchmark FrontierMath, vừa công bố kết quả kiểm thử độc lập đối với mô hình ngôn ngữ lớn o3 của OpenAI. Kết quả này cho thấy một sự khác biệt đáng kể so với những con số ấn tượng mà OpenAI từng nhấn mạnh trước đây. Cụ thể, vào thứ Sáu vừa qua, Epoch AI đã tiết lộ rằng trong các bài kiểm tra của họ, mô hình o3 chỉ đạt được điểm số khoảng 10% trên benchmark FrontierMath.https://x.com/EpochAIResearch/status/1913379475468833146Con số 10% này thấp hơn đáng kể so với mức điểm cao nhất mà OpenAI từng tuyên bố cho o3, vốn được cho là khoảng 25% khi mô hình này ra mắt vào tháng 12 năm trước. Sự chênh lệch này càng trở nên nổi bật khi biết rằng các mô hình mạnh mẽ trước đó như GPT-4 của OpenAI hay Gemini của Google chỉ đạt được dưới 2% trên cùng benchmark này. FrontierMath được thiết kế để đánh giá khả năng giải quyết các vấn đề toán học cực kỳ phức tạp, và mức điểm 25% ban đầu của o3 được xem là một bước nhảy vọt.Tuy nhiên, Epoch AI cũng đưa ra những lý giải khả dĩ cho sự khác biệt này. Họ cho rằng kết quả của OpenAI có thể cao hơn do việc sử dụng một "bộ khung nội bộ mạnh mẽ hơn" (internal scaffold), tận dụng nhiều tài nguyên tính toán hơn trong quá trình kiểm thử (test-time computing), hoặc do OpenAI đã chạy thử nghiệm trên một tập hợp con khác của FrontierMath. Cụ thể, OpenAI có thể đã sử dụng phiên bản frontiermath-2024-11-26 với 180 bài toán, trong khi Epoch AI sử dụng phiên bản mới hơn là frontiermath-2025-02-28-private với 290 bài toán. Epoch cũng lưu ý rằng quy trình thiết lập kiểm thử của họ có thể khác biệt so với của OpenAI.Điều quan trọng cần lưu ý là sự khác biệt này không đồng nghĩa với việc OpenAI đã nói dối. Các kết quả benchmark mà OpenAI công bố vào tháng 12 thực tế có bao gồm một mức điểm giới hạn dưới (lower-bound score) khớp với con số khoảng 10% mà Epoch AI quan sát được. Phát hiện của Epoch AI nhấn mạnh sự phức tạp và các yếu tố tiềm ẩn có thể ảnh hưởng đến kết quả benchmark trong lĩnh vực trí tuệ nhân tạo, đồng thời đặt ra câu hỏi về tính minh bạch và phương pháp luận trong việc đánh giá các mô hình AI tiên tiến.Vấn đề càng trở nên phức tạp hơn khi xuất hiện những thông tin về mối liên hệ tài chính giữa hai tổ chức. Một số nguồn tin chỉ ra rằng OpenAI đã hỗ trợ tài chính cho Epoch AI trong việc tạo ra benchmark FrontierMath, thông tin này được xác nhận qua một chú thích trong bài báo nghiên cứu mới nhất về FrontierMath. Giám đốc liên kết của Epoch AI, Tamay Besiroglu, cũng thừa nhận rằng họ bị ràng buộc bởi hợp đồng không được tiết lộ sự tham gia của OpenAI. Điều này làm dấy lên lo ngại về khả năng xung đột lợi ích và liệu OpenAI có được ưu thế không công bằng khi mô hình của họ được đánh giá trên một benchmark mà họ đã tài trợ hay không, mặc dù Epoch khẳng định dữ liệu benchmark là riêng tư và không dùng để huấn luyện.Những phát hiện từ Epoch AI và các cuộc thảo luận xung quanh nó cho thấy tầm quan trọng của việc kiểm định độc lập và sự cần thiết phải có các tiêu chuẩn đánh giá rõ ràng, minh bạch trong ngành công nghiệp AI. Việc hiểu rõ các phương pháp benchmark, phiên bản dữ liệu được sử dụng và các yếu tố tiềm ẩn khác là rất quan trọng để có cái nhìn chính xác về năng lực thực sự của các mô hình AI ngày càng phức tạp, đảm bảo sự cạnh tranh công bằng và thúc đẩy tiến bộ một cách có trách nhiệm.