Wikipedia, bách khoa toàn thư trực tuyến khổng lồ và là nguồn tài nguyên kiến thức miễn phí quan trọng, đang phải đối mặt với một thách thức ngày càng tăng. Các trình thu thập dữ liệu tự động, hay còn gọi là bot AI, đang liên tục quét và trích xuất lượng lớn văn bản cũng như nội dung đa phương tiện từ nền tảng này. Mục đích chính của việc này là để huấn luyện các mô hình trí tuệ nhân tạo tạo sinh (generative AI). Tuy nhiên, hoạt động cào dữ liệu quy mô lớn này đang gây áp lực đáng kể lên máy chủ của Wikipedia, dẫn đến tình trạng tăng chi phí vận hành và đôi khi làm chậm tốc độ tải trang đối với người dùng thông thường. Mức độ ảnh hưởng của các bot AI này không hề nhỏ. Wikimedia Foundation, tổ chức quản lý dữ liệu của Wikipedia, ghi nhận sự gia tăng đáng kể về lưu lượng truy cập và sử dụng băng thông, đặc biệt là từ các bot này. Tình trạng này được mô tả là không bền vững đối với cơ sở hạ tầng của họ. Hoạt động cào dữ liệu liên tục, đặc biệt là đối với các nội dung đa phương tiện, tiêu tốn tài nguyên máy chủ và băng thông một cách đáng kể, khác với mô hình sử dụng không liên tục của người dùng là con người. Điều này buộc Wikimedia phải tìm kiếm các giải pháp để cân bằng giữa việc cung cấp dữ liệu mở và duy trì sự ổn định của hệ thống. Để giải quyết vấn đề này và có lẽ là để giảm bớt gánh nặng cho trang web công cộng, Wikimedia Foundation đã đưa ra một giải pháp chủ động. Họ đã hợp tác với Kaggle, một nền tảng khoa học dữ liệu thuộc sở hữu của Google, để cung cấp một bộ dữ liệu có cấu trúc dưới dạng phiên bản beta. Bộ dữ liệu này hiện có sẵn bằng tiếng Anh và tiếng Pháp, được thiết kế đặc biệt để tối ưu hóa cho việc học máy (machine learning), giúp các nhà phát triển AI dễ dàng hơn trong việc huấn luyện, phát triển mô hình và thực hiện các nghiên cứu khoa học dữ liệu mà không cần phải liên tục truy cập và cào dữ liệu từ trang Wikipedia chính. Bộ dữ liệu được cung cấp này bao gồm nhiều thành phần hữu ích cho việc huấn luyện AI. Theo Wikimedia Enterprise, một bộ phận của Wikimedia Foundation chuyên cung cấp dữ liệu Wikipedia qua API, bộ dữ liệu này chứa: Tóm tắt (abstracts)Mô tả ngắn (short descriptions)Dữ liệu dạng khóa-giá trị kiểu infoboxLiên kết hình ảnhCác phần bài viết được phân đoạn rõ ràng Tuy nhiên, điều đáng chú ý là bộ dữ liệu này không bao gồm các tài liệu tham khảo hoặc các yếu tố phi văn xuôi khác như video clip. Việc thiếu tài liệu tham khảo có thể gây ra một số mơ hồ về vấn đề ghi nhận nguồn gốc thông tin trong bộ dữ liệu. Mặc dù thiếu tài liệu tham khảo, Wikimedia Enterprise khẳng định rằng tất cả nội dung trong bộ dữ liệu đều được cấp phép tự do theo các giấy phép Creative Commons, thuộc phạm vi công cộng hoặc các giấy phép tương tự, vì chúng đều có nguồn gốc từ Wikipedia. Điều này đảm bảo rằng các nhà phát triển AI có thể sử dụng dữ liệu này một cách hợp pháp cho các dự án của họ. Sáng kiến này thể hiện nỗ lực của Wikimedia trong việc thích ứng với kỷ nguyên AI, vừa hỗ trợ cộng đồng phát triển AI, vừa bảo vệ cơ sở hạ tầng thiết yếu của mình để tiếp tục phục vụ hàng tỷ người dùng trên toàn thế giới. Hy vọng rằng việc cung cấp một nguồn dữ liệu thay thế, có cấu trúc và dễ tiếp cận sẽ giúp giảm thiểu tác động tiêu cực của việc cào dữ liệu không kiểm soát lên hoạt động của Wikipedia.