Gã khổng lồ công nghệ Trung Quốc, Alibaba, vừa công bố một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo với mô hình QVQ-Max. Đây là một chatbot AI thuộc dòng Qwen, được thiết kế đặc biệt để lý luận hình ảnh, có khả năng thấu hiểu nội dung của ảnh và video, sau đó phân tích và đưa ra các giải pháp dựa trên thông tin thu thập được. Điểm đặc biệt của QVQ-Max nằm ở khả năng kết nối thế giới AI dựa trên văn bản với thông tin thực tế. Alibaba khẳng định rằng mô hình này có thể "nhìn", "hiểu" và "suy nghĩ" về thế giới xung quanh. QVQ-Max vượt trội trong việc phân tích hình ảnh, xác định các yếu tố quan trọng và có thể được ứng dụng linh hoạt trong nhiều lĩnh vực như thiết kế đồ họa, tạo kịch bản video và nhập vai. Tương tự như các chatbot AI khác, QVQ-Max có thể hỗ trợ người dùng trong công việc, học tập và cuộc sống cá nhân. Tuy nhiên, nhờ khả năng thị giác đặc biệt, nó còn có thể giúp giải quyết các bài toán toán học và vật lý phức tạp đi kèm sơ đồ, hoặc hướng dẫn nấu ăn dựa trên hình ảnh công thức. Điều này mở ra một loạt các ứng dụng tiềm năng mà các chatbot truyền thống không thể đáp ứng. Alibaba xem QVQ-Max là phiên bản đầu tiên và đã vạch ra kế hoạch cải tiến trong tương lai. Các mục tiêu chính bao gồm nâng cao độ chính xác nhận dạng hình ảnh thông qua các kỹ thuật xác thực, cải thiện khả năng xử lý các nhiệm vụ phức tạp và đa bước để có thể điều khiển điện thoại, máy tính và chơi game. Hơn nữa, Alibaba cũng có kế hoạch mở rộng mô hình từ tương tác dựa trên văn bản sang xác minh công cụ và tạo hình ảnh. Để trải nghiệm QVQ-Max, người dùng có thể truy cập chat.qwen.ai, chọn "Expand more models" trong menu thả xuống ở góc trên bên trái và chọn QVQ-Max. Sau đó, chỉ cần nhập yêu cầu vào hộp chat và đính kèm hình ảnh hoặc video để khám phá khả năng của mô hình này. Sự ra đời của QVQ-Max hứa hẹn sẽ mang lại những thay đổi đáng kể trong cách chúng ta tương tác với công nghệ AI, mở ra một tương lai nơi máy móc có thể hiểu và phản ứng với thế giới xung quanh một cách trực quan hơn.