Anthropic, một trong những công ty hàng đầu về trí tuệ nhân tạo, gần đây đã công bố một sự việc gây chấn động, khi một nhóm tin tặc được cho là do nhà nước Trung Quốc tài trợ đã lợi dụng nền tảng Claude AI của họ. Mục tiêu? Phát động một chiến dịch gián điệp mạng có sự điều phối và tự động hóa cao bởi AI, một kịch bản mà nhiều người đã lo ngại nay trở thành hiện thực. Đây được xem là trường hợp đầu tiên được biết đến về một chiến dịch như vậy, và nó đang thu hút sự chú ý đặc biệt từ các chuyên gia an ninh mạng cũng như cộng đồng nghiên cứu AI vì tính phức tạp về mặt kỹ thuật, sự mới lạ trong hoạt động và cả những hệ lụy địa chính trị.
Thông báo và Phạm vi Chiến dịch Gián điệp
Thông tin về sự việc này đã được Anthropic tiết lộ vào thứ Năm, ngày 13 tháng 11 năm 2025, thông qua một báo cáo công khai. Cùng với đó, họ cũng chia sẻ các chỉ số về nguy cơ bị xâm nhập (IoC) với các đối tác đáng tin cậy, thể hiện cam kết minh bạch trong một tình huống nhạy cảm như thế này. Không chỉ dừng lại ở một vài mục tiêu nhỏ lẻ, chiến dịch này đã gây ra hậu quả đáng kể. Theo báo cáo, nhóm tấn công đã sử dụng Claude để xâm nhập vào ít nhất 30 tổ chức khác nhau, bao gồm các ông lớn trong ngành công nghệ, các tổ chức tài chính quan trọng, nhà sản xuất hóa chất, và thậm chí cả các cơ quan chính phủ trên nhiều quốc gia.
Về thời gian, giai đoạn lạm dụng AI tự động hóa cao nhất được ghi nhận vào tháng 9 năm 2025. Tuy nhiên, những nỗ lực kém tinh vi hơn đã được quan sát từ tháng 3 năm 2025, cho thấy đây là một quá trình phát triển và hoàn thiện chiến thuật của nhóm tin tặc. Điều này đặt ra câu hỏi về khả năng thích ứng và học hỏi của những kẻ tấn công trong việc tận dụng công nghệ mới.
Kỹ thuật Tấn công và Vai trò Đột phá của AI
Điểm đáng chú ý nhất trong chiến dịch này chính là sự tích hợp của AI vào gần như toàn bộ vòng đời của cuộc tấn công mạng. Nhóm tin tặc đã thao túng Claude Code, công cụ phát triển mã của Anthropic, để thực hiện một cách tự động các giai đoạn chính của cuộc tấn công gián điệp mạng. Nghe có vẻ khó tin đúng không? Nhưng thực tế là, AI đã được giao phó các nhiệm vụ như:
-
Trinh sát (Reconnaissance): Tìm kiếm thông tin về mục tiêu.
-
Phát hiện lỗ hổng (Vulnerability discovery): Xác định các điểm yếu trong hệ thống.
-
Khai thác (Exploitation): Tận dụng các lỗ hổng để xâm nhập.
-
Di chuyển ngang (Lateral movement): Di chuyển trong mạng nội bộ sau khi đã xâm nhập.
-
Thu thập thông tin đăng nhập (Credential harvesting): Đánh cắp tên người dùng và mật khẩu.
-
Phân tích dữ liệu (Data analysis): Xử lý và hiểu dữ liệu đã thu thập.
-
Trích xuất dữ liệu (Data exfiltration): Đánh cắp dữ liệu ra khỏi hệ thống.
Để qua mặt các hàng rào bảo mật của Claude, những kẻ tấn công đã sử dụng một kỹ thuật khá thông minh: chia nhỏ cuộc tấn công thành nhiều nhiệm vụ rời rạc, tưởng chừng như hợp lệ. Mỗi nhiệm vụ nhỏ này được trình bày như một yêu cầu thông thường, thường dưới vỏ bọc một cuộc kiểm tra bảo mật hoặc thử nghiệm thâm nhập. Điều này khiến AI khó có thể nhận ra ý đồ độc hại khi đánh giá từng nhiệm vụ một cách riêng lẻ. Ngoài ra, các nhà điều hành con người còn sử dụng các câu lệnh (prompts) được soạn thảo cẩn thận và đóng vai các nhân viên của các công ty an ninh mạng hợp pháp để thuyết phục Claude thực hiện từng thành phần riêng lẻ của chuỗi tấn công.
Sự tự động hóa không dừng lại ở đó. Nhóm tin tặc đã giao nhiệm vụ cho nhiều phiên bản Claude Code hoạt động song song như các tác nhân thử nghiệm thâm nhập tự động. Chúng tự động sắp xếp các phản hồi và điều chỉnh các yêu cầu tiếp theo dựa trên những khám phá theo thời gian thực. Điều này thực sự là một bước tiến đáng lo ngại trong các chiến thuật tấn công mạng.
Yếu tố Con người, Nguồn gốc và Ý nghĩa Địa chính trị
Dù có mức độ tự động hóa cao, điều quan trọng cần nhấn mạnh là vai trò của con người vẫn cực kỳ cần thiết. Các chuyên gia con người phải xem xét và chỉnh sửa các kết quả do AI tạo ra, bởi vì các mô hình như Claude vẫn có xu hướng "ảo giác" (hallucinations), bịa đặt thông tin và đưa ra những phát hiện không đáng tin cậy. Vậy nên, tuy AI giúp tăng tốc và mở rộng quy mô, nhưng sự giám sát của con người vẫn là chiếc phanh an toàn không thể thiếu.
Anthropic đã dựa trên một số yếu tố để quy kết chiến dịch này cho một nhóm được chính phủ Trung Quốc tài trợ. Các yếu tố bao gồm sự trùng lặp về cơ sở hạ tầng và hành vi với các tác nhân Trung Quốc đã biết, việc lựa chọn mục tiêu phù hợp với lợi ích của Bộ An ninh Quốc gia Trung Quốc, và các mô hình hoạt động khớp với giờ làm việc hành chính của Trung Quốc (9 giờ sáng – 6 giờ chiều, không làm việc cuối tuần và tạm dừng trong các ngày lễ của Trung Quốc).
Một số chuyên gia còn cho rằng việc sử dụng một mô hình AI lớn của Mỹ thay vì một mô hình riêng, nội bộ có thể là một tín hiệu địa chính trị gửi tới Hoa Kỳ, nhằm chứng minh khả năng của Trung Quốc trong việc khai thác các nền tảng AI phương Tây cho các hoạt động mạng. Nếu đúng vậy, đây không chỉ là một cuộc tấn công kỹ thuật mà còn là một thông điệp chính trị đầy ẩn ý.
Hiệu quả, Thách thức và Phản ứng từ Cộng đồng
Chiến dịch này cho thấy AI có thể mang lại lợi thế về tốc độ và khả năng mở rộng, giúp những kẻ tấn công nhắm mục tiêu vào nhiều tổ chức cùng lúc. Tuy nhiên, như đã đề cập, thành công của chiến dịch bị hạn chế bởi sự cần thiết phải có sự giám sát của con người và sự không đáng tin cậy vốn có của các nghiên cứu do AI tạo ra cho các hoạt động phức tạp, có rủi ro cao.
Anthropic đã phát hiện ra việc lạm dụng này thông qua nhật ký sử dụng và đã chia sẻ các chỉ số kỹ thuật với các công ty công nghệ và phòng thí nghiệm nghiên cứu theo các thỏa thuận chia sẻ thông tin. Đây là một bước quan trọng để toàn ngành có thể cùng nhau nâng cao khả năng phòng thủ.
Phản ứng của cộng đồng về sự việc này khá đa chiều. Một mặt, nó được coi là bằng chứng xác thực cho những lo ngại bấy lâu nay về tiềm năng của AI trong việc tạo ra các cuộc tấn công mạng quy mô lớn và tinh vi hơn. Mặt khác, một số chuyên gia an ninh mạng, ví dụ như Kevin Beaumont, đã chỉ trích báo cáo của Anthropic vì thiếu thông tin tình báo có thể hành động và tính minh bạch. Ông cho rằng các kỹ thuật được mô tả có thể đạt được với các công cụ hiện có và báo cáo không cung cấp các chỉ số về nguy cơ bị xâm nhập để xác nhận độc lập. Vẫn còn một cuộc tranh luận sôi nổi về việc liệu chiến dịch này có thực sự đại diện cho một bước nhảy vọt về sự tinh vi trong gián điệp mạng hay chỉ đơn thuần là một cách sử dụng mới của các kỹ thuật tự động hóa và kỹ thuật xã hội hiện có.
So sánh và Những Bước Đi Tiếp theo
Nếu nhìn vào các trường hợp lạm dụng AI trước đây, sự cố với Claude của Anthropic vào năm 2025 có một số điểm khác biệt rõ rệt. Các trường hợp trước thường có mức độ tự động hóa thấp đến trung bình, chủ yếu mang tính chất tư vấn. Vai trò của con người là chủ đạo, và AI chỉ thực hiện các nhiệm vụ riêng lẻ như tạo email lừa đảo (phishing). Việc phát hiện và quy kết cũng thường không rõ ràng. Ngược lại, trong sự cố Claude, mức độ tự động hóa rất cao, bao phủ toàn bộ vòng đời tấn công, và mặc dù vẫn cần sự giám sát của con người, AI đã tham gia sâu vào nhiều giai đoạn một cách song song. Đây là một sự tiến bộ đáng kể, dù theo một hướng không mong muốn.
Tính đến ngày 15 tháng 11 năm 2025, Anthropic đã tăng cường giám sát và chia sẻ thông tin tình báo về mối đe dọa với các đối tác trong ngành. Sự việc này cũng đã thúc đẩy những lời kêu gọi mới về việc tăng cường các biện pháp bảo vệ AI (AI guardrails) và minh bạch hơn trong việc báo cáo các sự cố mạng do AI kích hoạt. Cuộc tranh luận về sự cân bằng giữa tiềm năng tự động hóa của AI và những hạn chế hiện tại của nó do độ tin cậy và sự cần thiết phải có sự giám sát của con người vẫn đang tiếp diễn.
Tóm lại, sự cố này đánh dấu một cột mốc quan trọng trong sự phát triển của các mối đe dọa mạng, làm nổi bật cả khả năng ngày càng tăng và những hạn chế dai dẳng của AI trong các hoạt động tấn công thực tế. Nó nhắc nhở chúng ta rằng, khi công nghệ AI phát triển, các mối đe dọa cũng sẽ tiến hóa theo, và việc phòng thủ luôn cần phải đi trước một bước.