Microsoft vừa tung ra MAI-Image-2, mô hình tạo ảnh từ văn bản thế hệ thứ hai. Động thái này như một lời "dằn mặt" khéo léo gửi tới OpenAI bằng khả năng tạo văn bản trong ảnh đầy ấn tượng.
Mô hình hiện đã lên sóng MAI Playground và đang được triển khai cho Copilot cùng Bing Image Creator. Các doanh nghiệp được chọn đã có quyền dùng API ngay hôm nay, trước khi hệ thống mở rộng sang Microsoft Foundry.
Sức mạnh từ khả năng xử lý văn bản và độ chân thực
Điểm đáng chú ý nhất của MAI-Image-2 là khả năng kết xuất văn bản chính xác ngay bên trong hình ảnh. Nhóm AI Superintelligence của Microsoft đã xử lý khá tốt điểm yếu quen thuộc này của các mô hình AI. Người dùng giờ đây có thể tạo biểu đồ hay hình minh họa chứa ký tự rõ nét mà không bị móp méo.
Trên bảng xếp hạng Arena.ai, MAI-Image-2 nhanh chóng leo lên vị trí thứ 3. Mô hình hiện chỉ bám đuôi các sản phẩm từ Google và OpenAI. Đây là một bước nhảy vọt so với MAI-Image-1, phiên bản từng lẹt đẹt ở vị trí thứ 9 hồi tháng 10 năm ngoái.
Hệ thống cũng được tinh chỉnh dựa trên phản hồi từ các nhiếp ảnh gia và nhà thiết kế. Nhờ đó, chất lượng quang học và độ chi tiết của bối cảnh đã sát hơn với nhu cầu công việc thực tế.
Chiến lược tự chủ công nghệ của Microsoft
Dưới thời CEO Microsoft AI Mustafa Suleyman, hãng đang chơi một ván cờ đầy toan tính. Thay vì phụ thuộc hoàn toàn vào một đối tác duy nhất, Microsoft muốn tự tay nắm giữ lõi công nghệ.
Gã khổng lồ phần mềm đang áp dụng chiến thuật "bắt cá nhiều tay" cực kỳ tinh quái. Họ vừa dùng công nghệ của OpenAI, vừa phát triển mô hình in-house như MAI, lại vừa rót vốn đầu tư cho đối thủ Anthropic.
Sở hữu một mô hình tự làm giúp Microsoft kiểm soát chi phí ở quy mô lớn và chủ động nâng cấp mà không cần chờ đợi bên thứ ba. Cách tiếp cận này giúp họ phân tán rủi ro và tối đa hóa quyền lực trong hệ sinh thái AI toàn cầu.
Những giới hạn kỹ thuật cần khắc phục
Dù chất lượng đầu ra tốt, việc sử dụng MAI-Image-2 vào lúc này lại vướng phải những rào cản gây nản lòng. Hệ thống áp đặt bộ lọc kiểm duyệt cực kỳ gắt gao và giới hạn số lượng ảnh mỗi lần tạo.
Điểm trừ lớn nhất và cũng nực cười nhất nằm ở định dạng ảnh. Thật kỳ cục khi một mô hình AI ra mắt vào năm 2026 lại chỉ hỗ trợ duy nhất tỷ lệ khung hình 1:1 vuông vức.
Bên cạnh đó, nền tảng hoàn toàn thiếu vắng các công cụ chỉnh sửa hậu kỳ cơ bản. Những giới hạn "trời ơi đất hỡi" này biến MAI-Image-2 thành một món đồ chơi thú vị hơn là một công cụ đáng tin cậy cho dân thiết kế chuyên nghiệp ở thời điểm hiện tại.
