AI Crawler làm quá tải băng thông Wikimedia Commons 50%

Wikimedia Foundation, tổ chức bảo trợ cho Wikipedia và hàng loạt dự án kiến thức cộng đồng khác, vừa công bố một thông tin đáng chú ý. Theo đó, mức tiêu thụ băng thông cho việc tải xuống các tệp đa phương tiện từ Wikimedia Commons đã tăng đột biến 50% kể từ tháng 1 năm 2024. Điều đáng nói là sự gia tăng này không xuất phát từ nhu cầu tìm kiếm kiến thức ngày càng tăng của con người. Thay vào đó, nguyên nhân chính được xác định là do hoạt động của các trình thu thập dữ liệu (crawler) trí tuệ nhân tạo (AI). Wikimedia Commons là một kho lưu trữ khổng lồ chứa hàng triệu tệp hình ảnh, âm thanh và video được cấp phép tự do, đóng vai trò quan trọng trong việc cung cấp tài nguyên cho Wikipedia và các dự án khác. Sự gia tăng đột ngột về lưu lượng truy cập và tải xuống từ các crawler AI cho thấy một xu hướng rõ ràng: các công ty phát triển AI đang tích cực thu thập dữ liệu từ các nguồn mở như Commons để huấn luyện các mô hình ngôn ngữ lớn và các hệ thống AI tạo sinh khác. Những crawler này hoạt động tự động, liên tục quét và tải về khối lượng lớn dữ liệu đa phương tiện, gây áp lực đáng kể lên hạ tầng máy chủ của Wikimedia. Việc băng thông tăng vọt 50% đặt ra những thách thức không nhỏ cho Wikimedia Foundation. Là một tổ chức phi lợi nhuận hoạt động chủ yếu dựa vào nguồn tài trợ và đóng góp, việc duy trì cơ sở hạ tầng kỹ thuật để phục vụ hàng tỷ lượt truy cập mỗi tháng đã là một gánh nặng tài chính đáng kể. Sự gia tăng bất thường do các crawler AI gây ra làm tăng chi phí vận hành, đòi hỏi phải có thêm nguồn lực để đảm bảo sự ổn định và khả năng truy cập liên tục cho người dùng toàn cầu. Điều này buộc Wikimedia phải xem xét các giải pháp để quản lý lưu lượng truy cập từ các bot AI mà không ảnh hưởng đến sứ mệnh chia sẻ kiến thức tự do. Vấn đề này cũng phản ánh một cuộc tranh luận rộng lớn hơn trong ngành công nghệ về việc sử dụng dữ liệu công cộng để huấn luyện AI thương mại. Trong khi Wikimedia Commons cung cấp nội dung dưới giấy phép mở, cho phép tái sử dụng, việc các công ty công nghệ lớn khai thác nguồn tài nguyên này ở quy mô công nghiệp mà không có sự đóng góp tương xứng trở lại đang gây ra nhiều tranh cãi. Câu hỏi về đạo đức, bản quyền và sự công bằng trong việc khai thác dữ liệu đang ngày càng trở nên cấp thiết, đặc biệt khi các mô hình AI được huấn luyện từ dữ liệu cộng đồng lại tạo ra lợi nhuận khổng lồ cho các tập đoàn. Hiện tại, Wikimedia Foundation đang tìm cách giải quyết tình trạng này. Họ nhấn mạnh tầm quan trọng của việc các công ty AI cần minh bạch hơn về hoạt động thu thập dữ liệu của mình và hợp tác với các nền tảng như Wikimedia để tìm ra các giải pháp bền vững. Có thể bao gồm việc thiết lập các giao thức truy cập đặc biệt cho crawler AI, yêu cầu tuân thủ các quy tắc về tốc độ truy cập (rate limiting), hoặc thậm chí là các thỏa thuận hợp tác, nơi các công ty AI đóng góp tài chính hoặc kỹ thuật để hỗ trợ hạ tầng mà họ đang khai thác. Việc cân bằng giữa nguyên tắc truy cập mở và việc quản lý tài nguyên hiệu quả là một bài toán khó đòi hỏi sự hợp tác và trách nhiệm từ cả hai phía. Sự kiện tại Wikimedia Commons là một minh chứng rõ ràng về tác động hữu hình của cuộc cách mạng AI lên hạ tầng kỹ thuật số hiện có. Nó cho thấy nhu cầu cấp thiết phải xây dựng các quy tắc ứng xử và cơ chế hợp tác mới giữa các nhà phát triển AI và những người quản lý các kho kiến thức chung. Nếu không có những giải pháp phù hợp, gánh nặng chi phí có thể đe dọa tính bền vững của các dự án kiến thức mở quan trọng như Wikipedia và Wikimedia Commons, vốn là tài sản vô giá của nhân loại trong kỷ nguyên số.

Tin Tức

Xu Hướng

Hôm Nay

Tuần Này

Tin Tức

Xu Hướng

Hôm Nay

Tuần Này

AI 'khát' dữ liệu, Wikimedia Commons quá tải băng thông

Crawler AI làm tăng vọt 50% nhu cầu băng thông tải đa phương tiện từ kho dữ liệu mở.