OpenAI vừa chính thức ra mắt GPT-5.1 vào API của mình vào ngày 13 tháng 11 năm 2025, giới thiệu hai tính năng chính được mong đợi: chế độ "không suy luận" (no-reasoning mode) cho các phản hồi cực nhanh, trực tiếp và bộ nhớ đệm lời nhắc mở rộng (extended prompt caching) với khả năng lưu trữ lên đến 24 giờ, giúp tạo ra các phản hồi nhanh hơn đáng kể cho các truy vấn lặp lại hoặc tương tự. Bản phát hành này đã ngay lập tức thu hút sự chú ý từ các nhà phát triển, khách hàng doanh nghiệp và các chuyên gia AI, với những đánh giá ban đầu nhấn mạnh cả hiệu suất tăng cường và các trường hợp sử dụng mới.
GPT-5.1: Tốc độ và Hiệu quả vượt trội
Bản cập nhật GPT-5.1 đánh dấu một bước tiến đáng kể trong việc tối ưu hóa hiệu suất và giảm độ trễ cho các ứng dụng AI. Hai tính năng cốt lõi là chế độ "không suy luận" và bộ nhớ đệm mở rộng hứa hẹn sẽ định hình lại cách các doanh nghiệp và nhà phát triển tương tác với các mô hình ngôn ngữ lớn.
Chế độ "Không suy luận" Đẩy nhanh Tốc độ Phản hồi
Tính năng đáng chú ý nhất là chế độ "không suy luận", cho phép người dùng bỏ qua các quá trình suy luận và chuỗi suy nghĩ nội bộ của mô hình, tạo ra các phản hồi trực tiếp, theo nghĩa đen. Theo ghi chú phát hành chính thức của OpenAI vào ngày 13 tháng 11 năm 2025, chế độ này được thiết kế cho các kịch bản mà tốc độ và tính xác định là rất quan trọng, chẳng hạn như hoàn thành mã, trích xuất dữ liệu và các bot giao dịch tần số cao. Các điểm chuẩn cho thấy thời gian phản hồi đã giảm tới 60% so với các lần hoàn thành tiêu chuẩn của GPT-5.1. Điều này mở ra khả năng cho các ứng dụng yêu cầu phản hồi gần như tức thì.
Bộ nhớ đệm lời nhắc 24 giờ: Tiết kiệm chi phí và Tăng tốc
GPT-5.1 hiện hỗ trợ bộ nhớ đệm lời nhắc lên đến 24 giờ. Khi một lời nhắc (hoặc một lời nhắc đủ tương tự) được lặp lại trong khung thời gian này, API có thể cung cấp phản hồi đã được lưu trữ gần như ngay lập tức. OpenAI báo cáo tỷ lệ truy cập bộ nhớ đệm đạt 70–85% trong các tác vụ doanh nghiệp, với độ trễ phản hồi giảm xuống dưới 100ms cho các truy vấn được lưu trong bộ nhớ đệm. Tính năng này được coi là yếu tố thay đổi cuộc chơi đối với các ứng dụng có lưu lượng truy cập cao, như bot hỗ trợ khách hàng và bảng điều khiển phân tích thời gian thực. Các khách hàng doanh nghiệp như Salesforce và Notion đã báo cáo giảm 40–50% chi phí API và tải cơ sở hạ tầng trong các dự án thử nghiệm ban đầu.
Giá cả và Phản ứng Thị trường
OpenAI đã cập nhật các cấp giá cho GPT-5.1. Chế độ tiêu chuẩn có giá 0,015 USD cho 1.000 token (đầu vào) và 0,030 USD cho 1.000 token (đầu ra). Chế độ không suy luận được giảm giá ở mức 0,010 USD cho 1.000 token (đầu vào/đầu ra), phản ánh chi phí tính toán thấp hơn. Bộ nhớ đệm lời nhắc được bao gồm miễn phí cho tối đa 1 triệu lời nhắc được lưu trong bộ nhớ đệm mỗi tháng; trên mức này, sẽ áp dụng phí 0,002 USD cho mỗi 1.000 lần truy xuất bộ nhớ đệm.
Đánh giá của Chuyên gia và Cộng đồng
Các nhà phân tích cơ sở hạ tầng AI như Ben Thompson của Stratechery (ngày 13 tháng 11 năm 2025) xác nhận rằng chế độ không suy luận mang lại khả năng hoàn thành nhanh hơn 2–3 lần cho các tác vụ có cấu trúc, với tổn thất độ chính xác không đáng kể cho các công việc trích xuất và tóm tắt. Tuy nhiên, họ cũng cảnh báo rằng đối với các tác vụ sáng tạo hoặc mở, chế độ này có thể tạo ra các kết quả quá theo nghĩa đen hoặc thiếu ngữ cảnh.
Các nhà phát triển trên Hacker News và Twitter/X đã ca ngợi những cải tiến về tốc độ, đặc biệt cho các tác vụ xử lý hàng loạt và tự động hóa. Một số bày tỏ lo ngại về nguy cơ người dùng vô tình bật chế độ không suy luận cho các tác vụ cần sự tinh tế, có khả năng dẫn đến các kết quả kém linh hoạt. Các chuyên gia đạo đức AI cảnh báo rằng chế độ không suy luận có thể bị lạm dụng cho các chiến dịch spam hoặc thông tin sai lệch, vì nó loại bỏ các kiểm tra nội bộ của mô hình về tính nhất quán logic và tính xác thực.
GPT-5.1 là mô hình ngôn ngữ lớn (LLM) đầu tiên cung cấp chế độ không suy luận chuyên dụng, tạo sự khác biệt so với Claude 3 của Anthropic và Gemini Ultra của Google, vốn vẫn dựa vào các phương pháp phỏng đoán nội bộ để kiểm soát suy luận. Theo Mira Murati, CTO của OpenAI, “chế độ không suy luận và bộ nhớ đệm mở rộng của GPT-5.1 được thiết kế để trao quyền cho các nhà phát triển với tốc độ và tính linh hoạt chưa từng có, đồng thời duy trì độ tin cậy mà khách hàng doanh nghiệp của chúng tôi mong đợi.”