OpenAI ra mắt GPT-5.1 API với chế độ không suy luận và bộ nhớ đệm 24 giờ

Tăng tốc độ phản hồi, giảm chi phí cho ứng dụng AI doanh nghiệp

HM Journal

7 tháng trước5 min

...

Điểm chính

OpenAI ra mắt GPT-5.1 vào API với chế độ "no-reasoning" và bộ nhớ đệm lời nhắc 24 giờ.
Chế độ "no-reasoning" giảm 60% thời gian phản hồi cho các tác vụ cụ thể như hoàn thành mã và trích xuất dữ liệu.
Bộ nhớ đệm 24 giờ giảm độ trễ xuống dưới 100ms cho các truy vấn đã lưu, đạt tỷ lệ truy cập 70-85% trong môi trường doanh nghiệp.
Giá API mới được cập nhật, chế độ không suy luận có chi phí thấp hơn 0,010 USD/1.000 token.
Các nhà phát triển và doanh nghiệp ghi nhận cải thiện đáng kể về tốc độ và chi phí, nhưng có lo ngại về lạm dụng chế độ không suy luận.

Key Takeaways

OpenAI vừa chính thức ra mắt GPT-5.1 vào API của mình vào ngày 13 tháng 11 năm 2025, giới thiệu hai tính năng chính được mong đợi: chế độ "không suy luận" (no-reasoning mode) cho các phản hồi cực nhanh, trực tiếp và bộ nhớ đệm lời nhắc mở rộng (extended prompt caching) với khả năng lưu trữ lên đến 24 giờ, giúp tạo ra các phản hồi nhanh hơn đáng kể cho các truy vấn lặp lại hoặc tương tự. Bản phát hành này đã ngay lập tức thu hút sự chú ý từ các nhà phát triển, khách hàng doanh nghiệp và các chuyên gia AI, với những đánh giá ban đầu nhấn mạnh cả hiệu suất tăng cường và các trường hợp sử dụng mới.

GPT-5.1: Tốc độ và Hiệu quả vượt trội

Bản cập nhật GPT-5.1 đánh dấu một bước tiến đáng kể trong việc tối ưu hóa hiệu suất và giảm độ trễ cho các ứng dụng AI. Hai tính năng cốt lõi là chế độ "không suy luận" và bộ nhớ đệm mở rộng hứa hẹn sẽ định hình lại cách các doanh nghiệp và nhà phát triển tương tác với các mô hình ngôn ngữ lớn.

Chế độ "Không suy luận" Đẩy nhanh Tốc độ Phản hồi

Tính năng đáng chú ý nhất là chế độ "không suy luận", cho phép người dùng bỏ qua các quá trình suy luận và chuỗi suy nghĩ nội bộ của mô hình, tạo ra các phản hồi trực tiếp, theo nghĩa đen. Theo ghi chú phát hành chính thức của OpenAI vào ngày 13 tháng 11 năm 2025, chế độ này được thiết kế cho các kịch bản mà tốc độ và tính xác định là rất quan trọng, chẳng hạn như hoàn thành mã, trích xuất dữ liệu và các bot giao dịch tần số cao. Các điểm chuẩn cho thấy thời gian phản hồi đã giảm tới 60% so với các lần hoàn thành tiêu chuẩn của GPT-5.1. Điều này mở ra khả năng cho các ứng dụng yêu cầu phản hồi gần như tức thì.

Bộ nhớ đệm lời nhắc 24 giờ: Tiết kiệm chi phí và Tăng tốc

GPT-5.1 hiện hỗ trợ bộ nhớ đệm lời nhắc lên đến 24 giờ. Khi một lời nhắc (hoặc một lời nhắc đủ tương tự) được lặp lại trong khung thời gian này, API có thể cung cấp phản hồi đã được lưu trữ gần như ngay lập tức. OpenAI báo cáo tỷ lệ truy cập bộ nhớ đệm đạt 70–85% trong các tác vụ doanh nghiệp, với độ trễ phản hồi giảm xuống dưới 100ms cho các truy vấn được lưu trong bộ nhớ đệm. Tính năng này được coi là yếu tố thay đổi cuộc chơi đối với các ứng dụng có lưu lượng truy cập cao, như bot hỗ trợ khách hàng và bảng điều khiển phân tích thời gian thực. Các khách hàng doanh nghiệp như Salesforce và Notion đã báo cáo giảm 40–50% chi phí API và tải cơ sở hạ tầng trong các dự án thử nghiệm ban đầu.

Giá cả và Phản ứng Thị trường

OpenAI đã cập nhật các cấp giá cho GPT-5.1. Chế độ tiêu chuẩn có giá 0,015 USD cho 1.000 token (đầu vào) và 0,030 USD cho 1.000 token (đầu ra). Chế độ không suy luận được giảm giá ở mức 0,010 USD cho 1.000 token (đầu vào/đầu ra), phản ánh chi phí tính toán thấp hơn. Bộ nhớ đệm lời nhắc được bao gồm miễn phí cho tối đa 1 triệu lời nhắc được lưu trong bộ nhớ đệm mỗi tháng; trên mức này, sẽ áp dụng phí 0,002 USD cho mỗi 1.000 lần truy xuất bộ nhớ đệm.

Đánh giá của Chuyên gia và Cộng đồng

Các nhà phân tích cơ sở hạ tầng AI như Ben Thompson của Stratechery (ngày 13 tháng 11 năm 2025) xác nhận rằng chế độ không suy luận mang lại khả năng hoàn thành nhanh hơn 2–3 lần cho các tác vụ có cấu trúc, với tổn thất độ chính xác không đáng kể cho các công việc trích xuất và tóm tắt. Tuy nhiên, họ cũng cảnh báo rằng đối với các tác vụ sáng tạo hoặc mở, chế độ này có thể tạo ra các kết quả quá theo nghĩa đen hoặc thiếu ngữ cảnh.

Các nhà phát triển trên Hacker News và Twitter/X đã ca ngợi những cải tiến về tốc độ, đặc biệt cho các tác vụ xử lý hàng loạt và tự động hóa. Một số bày tỏ lo ngại về nguy cơ người dùng vô tình bật chế độ không suy luận cho các tác vụ cần sự tinh tế, có khả năng dẫn đến các kết quả kém linh hoạt. Các chuyên gia đạo đức AI cảnh báo rằng chế độ không suy luận có thể bị lạm dụng cho các chiến dịch spam hoặc thông tin sai lệch, vì nó loại bỏ các kiểm tra nội bộ của mô hình về tính nhất quán logic và tính xác thực.

GPT-5.1 là mô hình ngôn ngữ lớn (LLM) đầu tiên cung cấp chế độ không suy luận chuyên dụng, tạo sự khác biệt so với Claude 3 của Anthropic và Gemini Ultra của Google, vốn vẫn dựa vào các phương pháp phỏng đoán nội bộ để kiểm soát suy luận. Theo Mira Murati, CTO của OpenAI, “chế độ không suy luận và bộ nhớ đệm mở rộng của GPT-5.1 được thiết kế để trao quyền cho các nhà phát triển với tốc độ và tính linh hoạt chưa từng có, đồng thời duy trì độ tin cậy mà khách hàng doanh nghiệp của chúng tôi mong đợi.”

Thẻ

#Prompt Caching

#GPT-5.1

#No-Reasoning Mode

OpenAI ra mắt GPT-5.1 API với chế độ không suy luận và bộ nhớ đệm 24 giờ

Điểm chính

Key Takeaways

GPT-5.1: Tốc độ và Hiệu quả vượt trội

Chế độ "Không suy luận" Đẩy nhanh Tốc độ Phản hồi

Bộ nhớ đệm lời nhắc 24 giờ: Tiết kiệm chi phí và Tăng tốc

Giá cả và Phản ứng Thị trường

Đánh giá của Chuyên gia và Cộng đồng

Thẻ

Bài viết liên quan

OpenAI ra mắt GPT-5.1 API với chế độ không suy luận và bộ nhớ đệm 24 giờ

Điểm chính

GPT-5.1: Tốc độ và Hiệu quả vượt trội

Chế độ "Không suy luận" Đẩy nhanh Tốc độ Phản hồi

Bộ nhớ đệm lời nhắc 24 giờ: Tiết kiệm chi phí và Tăng tốc

Giá cả và Phản ứng Thị trường

Đánh giá của Chuyên gia và Cộng đồng

Thẻ

Bài viết liên quan

HM Journal - Loading...

HM Journal - Loading...

OpenAI ra mắt GPT-5.1 API với chế độ không suy luận và bộ nhớ đệm 24 giờ

GPT-5.1: Tốc độ và Hiệu quả vượt trội

Chế độ "Không suy luận" Đẩy nhanh Tốc độ Phản hồi

Bộ nhớ đệm lời nhắc 24 giờ: Tiết kiệm chi phí và Tăng tốc

Giá cả và Phản ứng Thị trường

Đánh giá của Chuyên gia và Cộng đồng

Thẻ

OpenAI ra mắt GPT-5.1 API với chế độ không suy luận và bộ nhớ đệm 24 giờ

GPT-5.1: Tốc độ và Hiệu quả vượt trội

Chế độ "Không suy luận" Đẩy nhanh Tốc độ Phản hồi

Bộ nhớ đệm lời nhắc 24 giờ: Tiết kiệm chi phí và Tăng tốc

Giá cả và Phản ứng Thị trường

Đánh giá của Chuyên gia và Cộng đồng

Thẻ