Trong bối cảnh trí tuệ nhân tạo (AI) đang lan tỏa mạnh mẽ trên Internet, các nhà lãnh đạo công nghệ và kinh doanh đã bắt đầu hướng tới bước phát triển tiếp theo: Trí tuệ nhân tạo tổng quát (AGI). AGI được định nghĩa là một cỗ máy sở hữu trí thông minh và năng lực tương đương con người, có khả năng hiểu, học và áp dụng kiến thức trên nhiều lĩnh vực khác nhau. Nếu các hệ thống AI hiện tại đang trên con đường tiến tới AGI, chúng ta cần những phương pháp tiếp cận mới để đảm bảo rằng những cỗ máy siêu thông minh này không đi ngược lại lợi ích của loài người. Tuy nhiên, chúng ta chưa có một bộ quy tắc hoàn hảo như Ba Điều Luật Robot của Isaac Asimov. Nhận thức được điều này, các nhà nghiên cứu tại DeepMind (thuộc Google) đã dày công nghiên cứu và công bố một bài báo kỹ thuật chi tiết, dài hơn 100 trang, đề xuất các phương pháp phát triển AGI một cách an toàn. Mặc dù một số người trong lĩnh vực AI vẫn coi AGI là một giấc mơ xa vời, các tác giả của DeepMind dự đoán rằng nó có thể xuất hiện sớm nhất vào năm 2030. Với viễn cảnh đó, họ đã tập trung phân tích các rủi ro tiềm ẩn từ một trí tuệ tổng hợp giống người, thừa nhận rằng nó có thể dẫn đến "tác hại nghiêm trọng". Công trình nghiên cứu này đã xác định bốn loại rủi ro chính mà AGI có thể gây ra, cùng với các đề xuất để giảm thiểu chúng. Nhóm nghiên cứu do Shane Legg, đồng sáng lập DeepMind, dẫn đầu, đã phân loại các hậu quả tiêu cực tiềm ẩn của AGI thành: lạm dụng (misuse), lệch hướng (misalignment), sai lầm (mistakes) và rủi ro cấu trúc (structural risks). Trong đó, hai loại đầu tiên được thảo luận sâu, còn hai loại sau được đề cập ngắn gọn hơn. Rủi ro đầu tiên, lạm dụng, về cơ bản tương tự như các rủi ro AI hiện tại, nhưng mức độ nguy hiểm lớn hơn nhiều do sức mạnh vượt trội của AGI. Kẻ xấu có thể lợi dụng AGI để gây hại, ví dụ như yêu cầu hệ thống xác định và khai thác các lỗ hổng zero-day hoặc tạo ra virus được thiết kế riêng để sử dụng làm vũ khí sinh học. Để đối phó, DeepMind đề xuất các công ty phát triển AGI phải tiến hành thử nghiệm rộng rãi và tạo ra các quy trình an toàn mạnh mẽ sau đào tạo – về cơ bản là các hàng rào bảo vệ AI được tăng cường. Họ cũng gợi ý về việc phát triển phương pháp loại bỏ hoàn toàn các khả năng nguy hiểm, đôi khi được gọi là "unlearning" (quên đi), mặc dù chưa rõ liệu điều này có khả thi mà không làm hạn chế đáng kể năng lực của mô hình hay không. Tiếp theo là rủi ro lệch hướng, một vấn đề ít đáng lo ngại hơn với AI tạo sinh hiện tại. Loại rủi ro này hình dung về một cỗ máy "nổi loạn", thoát khỏi các giới hạn do người tạo ra đặt định và thực hiện các hành động mà nó biết là người phát triển không mong muốn – gợi nhớ đến hình ảnh Kẻ Hủy Diệt. DeepMind nhấn mạnh rằng tiêu chuẩn về lệch hướng ở đây phức tạp hơn nhiều so với sự lừa dối hay mưu mẹo đơn giản đã thấy trong các nghiên cứu hiện tại. Để ngăn chặn điều này, các nhà phát triển được khuyến nghị sử dụng các kỹ thuật như giám sát khuếch đại (amplified oversight), nơi hai bản sao AI kiểm tra kết quả của nhau, nhằm tạo ra các hệ thống mạnh mẽ khó có khả năng đi chệch hướng. Nếu thất bại, cần có các bài kiểm tra căng thẳng (stress testing) và giám sát chuyên sâu để phát hiện bất kỳ dấu hiệu nào cho thấy AI có thể chống lại con người. Việc giữ AGI trong các môi trường ảo biệt lập (virtual sandboxes) với bảo mật nghiêm ngặt và sự giám sát trực tiếp của con người, cùng một "công tắc tắt" rõ ràng, cũng là biện pháp quan trọng. Một loại rủi ro khác là sai lầm, xảy ra khi AGI tạo ra kết quả có hại mà bản thân nó không nhận thức được và người vận hành cũng không chủ đích. Chúng ta đã thấy nhiều sai lầm tương tự từ AI hiện tại (như việc Google từng đề xuất bôi keo lên pizza), nhưng hậu quả từ sai lầm của AGI có thể nghiêm trọng hơn nhiều. DeepMind lưu ý rằng các quân đội có thể triển khai AGI do "áp lực cạnh tranh", nhưng các hệ thống này có thể mắc lỗi nghiêm trọng vì chúng sẽ đảm nhận các chức năng phức tạp hơn nhiều so với AI ngày nay. Giải pháp được đề xuất chủ yếu tập trung vào việc không để AGI trở nên quá mạnh ngay từ đầu, thông qua việc triển khai chậm rãi, hạn chế quyền hạn của AGI và đưa các lệnh của AGI qua một hệ thống "lá chắn" (shield) để đảm bảo an toàn trước khi thực thi. Cuối cùng là rủi ro cấu trúc, được định nghĩa là những hậu quả không lường trước nhưng có thật từ việc các hệ thống đa tác nhân (multi-agent systems) tác động vào sự tồn tại phức tạp của con người. Ví dụ, AGI có thể tạo ra thông tin sai lệch đáng tin đến mức chúng ta không còn biết tin vào ai hay cái gì. Bài báo cũng nêu khả năng AGI dần tích lũy quyền kiểm soát đối với các hệ thống kinh tế và chính trị, có thể bằng cách đưa ra các kế hoạch thuế quan phức tạp. Đến một ngày, chúng ta có thể nhận ra rằng máy móc đã nắm quyền thay vì con người. Đây là loại rủi ro khó phòng ngừa nhất vì nó phụ thuộc vào cách con người, cơ sở hạ tầng và các thể chế vận hành trong tương lai. Liệu AGI có thực sự xuất hiện trong vòng năm năm tới hay không vẫn là câu hỏi bỏ ngỏ. Nhiều nhà lãnh đạo công nghệ tự tin tuyên bố như vậy, nhưng việc dự đoán sự xuất hiện của AGI rất phức tạp vì chúng ta vẫn đang suy đoán về cách trí tuệ giống người sẽ biểu hiện trong máy móc. Mặc dù những cải tiến rõ rệt của AI tạo sinh trong những năm qua là không thể phủ nhận, nhưng liệu quỹ đạo đó có dẫn đến năng lực thực sự giống con người hay không vẫn còn là một ẩn số. Tulsee Doshi, giám đốc quản lý sản phẩm Gemini của Google, cho biết: "Mọi người có những định nghĩa khác nhau về AGI, vì vậy tùy thuộc vào người bạn nói chuyện, chúng ta đang ở gần hay xa AGI là một cuộc trò chuyện khác... Các mô hình ngôn ngữ lớn, Gemini và việc đào tạo các mô hình ngày càng thông minh hơn đang trên con đường dẫn đến các mô hình có trí tuệ cực cao. Và bản thân điều đó đã có rất nhiều giá trị." Bài báo của DeepMind không phải là lời cuối cùng về an toàn AGI; chính họ cũng lưu ý rằng đây chỉ là "điểm khởi đầu cho những cuộc đối thoại quan trọng". Nếu dự đoán của họ là đúng và AGI sẽ biến đổi thế giới chỉ trong năm năm tới, những cuộc đối thoại này cần phải diễn ra sớm. Nếu không, có lẽ nhiều người sẽ trông khá ngớ ngẩn khi nhìn lại.