Trong bối cảnh cạnh tranh ngày càng gay gắt với các đối thủ như Google và chi phí cho các mô hình AI tiên tiến không ngừng tăng, OpenAI đã giới thiệu một giải pháp API mới mang tên Flex processing. Đây là một lựa chọn chiến lược nhằm cung cấp mức giá sử dụng mô hình AI thấp hơn đáng kể, đổi lại người dùng sẽ phải chấp nhận thời gian phản hồi chậm hơn và khả năng tài nguyên không phải lúc nào cũng sẵn có. Động thái này diễn ra khi thị trường chứng kiến sự xuất hiện của các mô hình hiệu quả về chi phí từ các đối thủ cạnh tranh, như Gemini 2.5 Flash của Google, đặt ra thách thức về giá cả và hiệu năng cho OpenAI. Flex processing, hiện đang trong giai đoạn beta và áp dụng cho các mô hình mới ra mắt gần đây của OpenAI là o3 và o4-mini, được thiết kế đặc biệt cho các tác vụ có độ ưu tiên thấp hoặc không thuộc môi trường sản xuất (non-production). Các trường hợp sử dụng lý tưởng bao gồm việc đánh giá mô hình, làm giàu dữ liệu, hoặc xử lý các công việc bất đồng bộ (asynchronous workloads) – những tác vụ mà tốc độ phản hồi tức thì không phải là yếu tố quan trọng nhất. Thay vào đó, người dùng có thể ưu tiên tối ưu hóa chi phí. OpenAI nhấn mạnh rằng đây là giải pháp phù hợp cho những ai sẵn sàng đánh đổi tốc độ để có được mức giá tốt hơn. Mức giảm giá mà Flex processing mang lại là rất đáng kể, lên tới 50% so với mức giá API tiêu chuẩn. Ví dụ cụ thể, đối với mô hình o3, chi phí cho mỗi triệu token đầu vào giảm từ 10 đô la xuống còn 5 đô la, và chi phí cho mỗi triệu token đầu ra giảm từ 40 đô la xuống còn 20 đô la. Tương tự, với mô hình o4-mini, giá token đầu vào giảm từ 1.10 đô la xuống 0.55 đô la và token đầu ra giảm từ 4.40 đô la xuống 2.20 đô la. Mức giá hấp dẫn này mở ra cơ hội tiếp cận các mô hình AI mạnh mẽ cho nhiều đối tượng hơn, bao gồm các doanh nghiệp nhỏ, startup, nhà nghiên cứu và nhà phát triển cá nhân, những người trước đây có thể gặp rào cản về chi phí. Tuy nhiên, việc sử dụng Flex processing cũng đi kèm với một số đánh đổi cần lưu ý. Ngoài thời gian phản hồi chậm hơn, người dùng có thể gặp phải tình trạng "resource unavailability" (lỗi 429), nghĩa là yêu cầu xử lý có thể bị từ chối tạm thời do thiếu tài nguyên. Điều này đòi hỏi các nhà phát triển phải xây dựng logic xử lý lỗi, chẳng hạn như tự động thử lại yêu cầu sau một khoảng thời gian hoặc chuyển sang sử dụng API tiêu chuẩn nếu cần thiết. Bên cạnh đó, để ngăn chặn việc lạm dụng, OpenAI yêu cầu người dùng ở các bậc (tier) thấp phải xác minh danh tính tổ chức khi muốn truy cập mô hình o3 thông qua Flex processing. Nhìn chung, việc ra mắt Flex processing thể hiện chiến lược đa dạng hóa sản phẩm và tối ưu hóa tài nguyên của OpenAI. Bằng cách cung cấp một lựa chọn chi phí thấp hơn cho các tác vụ không yêu cầu tốc độ cao, OpenAI không chỉ tăng cường khả năng cạnh tranh về giá mà còn giúp phân bổ tài nguyên hệ thống hiệu quả hơn, dành hạ tầng cao cấp cho các tác vụ quan trọng và xử lý các tác vụ nền trên hạ tầng ít ưu tiên hơn. Đây là một bước đi khôn ngoan nhằm đáp ứng nhu cầu đa dạng của thị trường và làm cho công nghệ AI tiên tiến trở nên dễ tiếp cận hơn.