Các phòng thí nghiệm trí tuệ nhân tạo (AI) hàng đầu như OpenAI, Google và Meta ngày càng dựa vào các nền tảng đánh giá hiệu năng (benchmark) dựa trên cộng đồng, ví dụ như Chatbot Arena, để kiểm tra điểm mạnh và điểm yếu của các mô hình mới nhất. Khi một mô hình đạt điểm cao, phòng thí nghiệm thường quảng bá kết quả đó như bằng chứng về sự cải tiến đáng kể. Tuy nhiên, một số chuyên gia cho rằng phương pháp này tồn tại những vấn đề nghiêm trọng cả về mặt đạo đức lẫn học thuật, đặt ra nghi vấn về giá trị thực sự của các bài kiểm tra này.Theo các nhà phê bình, bao gồm Emily Bender, giáo sư ngôn ngữ học tại Đại học Washington, cách tiếp cận này có nhiều thiếu sót. Một vấn đề cốt lõi là các benchmark này thường không phản ánh được sự phức tạp, bối cảnh đa dạng và các khía cạnh đạo đức của thế giới thực. Chúng không cho biết nhiều về khả năng thực tế của một sản phẩm AI, chẳng hạn như loại câu hỏi nào nó có thể trả lời đáng tin cậy, khi nào nó có thể thay thế chuyên gia con người một cách an toàn, hay tần suất nó tạo ra các câu trả lời sai lệch ("ảo giác"). Arvind Narayanan, giáo sư khoa học máy tính tại Đại học Princeton, nhận định rằng nhiều benchmark có chất lượng thấp, và Maarten Sap, trợ lý giáo sư tại Đại học Carnegie Mellon, mô tả các thước đo này là "khá cơ bản đã bị hỏng".Nguồn gốc dữ liệu của các benchmark cũng là một mối lo ngại lớn. Nhiều bộ dữ liệu đánh giá được tái sử dụng từ các lĩnh vực khác hoặc lấy từ các nguồn nghiệp dư, nội dung do người dùng tạo ra trên các nền tảng như Wikihow, Reddit hay các trang web đố vui. Điều này dẫn đến dữ liệu có thể bị nhiễu, chú thích không nhất quán và tiềm ẩn nhiều sai lệch. Giống như dữ liệu huấn luyện AI, các benchmark này cũng làm dấy lên các câu hỏi pháp lý và đạo đức liên quan đến bản quyền, quyền riêng tư, sự đồng thuận có hiểu biết và quyền từ chối tham gia của người dùng.Một vấn đề khác là tính hợp lệ của cấu trúc (construct validity) yếu kém. Nhiều benchmark không thực sự đo lường được những gì chúng tuyên bố đo lường. Ví dụ, một nghiên cứu phân tích bốn benchmark dùng để đánh giá sự công bằng trong xử lý ngôn ngữ tự nhiên (StereoSet, CrowS-Pairs, WinoBias và WinoGender) đã phát hiện ra tất cả đều bộc lộ những điểm yếu nghiêm trọng trong việc xác định rõ ràng khái niệm đang được đo lường. Các khái niệm phức tạp về mặt văn hóa và gây tranh cãi cao thường không được định nghĩa và đánh giá một cách thỏa đáng.Bất chấp những thiếu sót này, việc thay thế các benchmark đã trở nên phổ biến lại rất khó khăn. Các phòng thí nghiệm muốn so sánh mô hình mới với các mô hình trước đó trên cùng một thước đo, tạo ra một sức ì khiến các benchmark chất lượng thấp vẫn tiếp tục được sử dụng rộng rãi. Các nhà nghiên cứu cũng nhấn mạnh rằng benchmark mang tính chính trị sâu sắc, ảnh hưởng đến việc cái gì được đo lường, theo tiêu chuẩn nào và gây ra những tác động gì sau đó trong quá trình phát triển và triển khai AI.Nền tảng Chatbot Arena, nơi tình nguyện viên đưa ra yêu cầu cho hai mô hình ẩn danh và chọn phản hồi ưa thích hơn, là một ví dụ điển hình bị chỉ trích. Giáo sư Bender đặc biệt nêu vấn đề với phương pháp dựa trên sở thích chủ quan này, cho rằng nó không phải là cách đánh giá khoa học và đáng tin cậy về năng lực thực sự của mô hình.Tóm lại, mặc dù các benchmark AI dựa trên cộng đồng được tạo ra với mục đích đánh giá tiến bộ trong lĩnh vực trí tuệ nhân tạo, chúng đang đối mặt với những thách thức đáng kể về phương pháp luận, đạo đức và tính phù hợp thực tế. Việc phụ thuộc quá nhiều vào các thước đo còn thiếu sót này có thể dẫn đến sự hiểu lầm về khả năng thực sự của AI và tạo ra cảm giác tin cậy sai lầm. Điều này nhấn mạnh sự cần thiết phải phát triển các phương pháp đánh giá AI nghiêm ngặt hơn, có cơ sở đạo đức vững chắc và phản ánh đúng hơn các ứng dụng trong thế giới thực để đảm bảo sự phát triển AI có trách nhiệm.