OpenAI o3 và o4-mini: AI suy luận, hiểu hình ảnh

OpenAI vừa giới thiệu hai mô hình AI mới, o3 và o4-mini, tiếp tục mở rộng dòng sản phẩm reasoning models (mô hình lý luận) của mình. Động thái này diễn ra sau sự ra mắt gần đây của gia đình GPT-4.1, đánh dấu một bước tiến quan trọng trong việc nâng cao khả năng giải quyết các bài toán phức tạp, tích hợp khả năng hiểu hình ảnh và sử dụng công cụ một cách chủ động của AI. Điểm nổi bật của các mô hình reasoning là khả năng “nghĩ trước khi trả lời”. Thay vì đưa ra phản hồi ngay lập tức, chúng dành thời gian để xử lý yêu cầu một cách kỹ lưỡng, từ đó mang lại kết quả chất lượng cao hơn. o3 và o4-mini tiếp tục phát huy ưu điểm này, đồng thời cải thiện hiệu suất trong các lĩnh vực như lập trình, toán học và khoa học. Tuy nhiên, điểm khác biệt lớn nhất nằm ở khả năng hiểu hình ảnh. o3 và o4-mini là những mô hình đầu tiên của OpenAI có thể “suy nghĩ bằng hình ảnh”. Điều này có nghĩa là chúng không chỉ đơn thuần nhận diện hình ảnh mà còn có thể sử dụng thông tin thị giác trong quá trình suy luận. Người dùng giờ đây có thể tải lên cả những hình ảnh có chất lượng thấp hoặc bị mờ, và mô hình vẫn có thể hiểu được nội dung của chúng. Khả năng này mở ra nhiều ứng dụng tiềm năng, từ phân tích tài liệu khoa học đến hỗ trợ thiết kế và y học. Một điểm đáng chú ý khác là khả năng sử dụng công cụ một cách chủ động (agentic). o3 và o4-mini có thể tự động sử dụng tất cả các công cụ của ChatGPT, bao gồm duyệt web, Python, hiểu và tạo hình ảnh, để giải quyết các bài toán phức tạp nhiều bước. OpenAI cho biết khả năng này là một bước tiến gần hơn tới một ChatGPT có tính “tác nhân” hơn, có thể tự thực hiện các tác vụ thay mặt người dùng. Ví dụ, trong một buổi demo, một nhà nghiên cứu đã cung cấp cho o3 một poster nghiên cứu khoa học và yêu cầu nó phân tích hình ảnh và đưa ra một kết luận không có trong poster. Để tìm ra câu trả lời, o3 đã tự động duyệt internet và phóng to các thành phần khác nhau của hình ảnh để đưa ra một kết luận thuyết phục, thể hiện khả năng sử dụng nhiều công cụ và phân tích hình ảnh chi tiết. Theo OpenAI, o3 và o4-mini vượt trội hơn so với các thế hệ trước về khả năng tuân thủ hướng dẫn và đưa ra các phản hồi hữu ích, có thể kiểm chứng. Trên các benchmark, các mô hình mới này đã vượt qua các mô hình tiền nhiệm, ngay cả khi không sử dụng các công cụ bổ sung mà chúng có quyền truy cập. o3 là mô hình reasoning mạnh nhất của OpenAI hiện tại, trong khi o4-mini là một phiên bản nhỏ hơn, rẻ hơn và nhanh hơn, phù hợp cho các ứng dụng cần cân bằng giữa hiệu năng và chi phí. Để giải quyết những lo ngại về an toàn của mô hình, OpenAI đã chia sẻ rằng cả hai bản phát hành mới đều đã được kiểm tra căng thẳng theo chương trình an toàn của mình và được đánh giá theo Khung chuẩn bị cập nhật. Để tìm hiểu chi tiết về các đánh giá, bạn có thể đọc thẻ hệ thống hoàn chỉnh. Ngoài ra, OpenAI cũng đã ra mắt Codex CLI, một tác nhân mã hóa mã nguồn mở chạy cục bộ trong thiết bị đầu cuối của người dùng. Nó có nghĩa là cung cấp cho người dùng một cách đơn giản và rõ ràng để kết nối các mô hình AI, bao gồm o3 và o4-mini (với sự hỗ trợ cho GPT-4.1 sắp ra mắt), với mã và tác vụ của riêng họ đang chạy trên máy tính của họ. Codex CLI là mã nguồn mở và bạn có thể truy cập nó trên GitHub ngay bây giờ. OpenAI cũng công bố ra mắt một sáng kiến trị giá 1 triệu đô la. Nó có nghĩa là hỗ trợ các dự án ban đầu bằng cách trao các khoản tài trợ với số tiền tăng dần 25 nghìn đô la thông qua tín dụng API. Các đề xuất có thể được gửi thông qua biểu mẫu này trên trang web OpenAI. Sự ra mắt của o3 và o4-mini đánh dấu một bước tiến quan trọng trong sự phát triển của AI, mang lại những mô hình mạnh mẽ hơn, linh hoạt hơn và an toàn hơn cho người dùng và nhà phát triển. Với khả năng hiểu hình ảnh và sử dụng công cụ một cách chủ động, các mô hình này hứa hẹn sẽ mở ra nhiều ứng dụng mới và thú vị trong tương lai.

Tin Tức

Xu Hướng

Hôm Nay

Tuần Này

Tin Tức

Xu Hướng

Hôm Nay

Tuần Này

o3 và o4-mini: OpenAI nâng cấp khả năng suy luận AI

Mô hình mới với khả năng hiểu hình ảnh và tự động sử dụng công cụ.