Một công ty mới, Deep Cogito, vừa ra mắt với một loạt các mô hình AI có sẵn công khai, có thể chuyển đổi giữa các chế độ “lý luận” và phi lý luận. Đây là một bước tiến đáng chú ý trong lĩnh vực trí tuệ nhân tạo, hứa hẹn mang lại sự linh hoạt và hiệu quả cao hơn trong việc giải quyết các vấn đề phức tạp.Các mô hình lý luận như o1 của OpenAI đã cho thấy nhiều hứa hẹn trong các lĩnh vực như toán học và vật lý, nhờ khả năng tự kiểm tra thực tế một cách hiệu quả bằng cách giải quyết các vấn đề phức tạp từng bước. Tuy nhiên, khả năng lý luận này phải trả giá: tính toán và độ trễ cao hơn. Đó là lý do tại sao các phòng thí nghiệm như Anthropic đang theo đuổi kiến trúc mô hình “lai” kết hợp các thành phần lý luận với các yếu tố phi lý luận tiêu chuẩn. Các mô hình lai có thể nhanh chóng trả lời các câu hỏi đơn giản trong khi dành thêm thời gian để xem xét các truy vấn khó khăn hơn. Deep Cogito đã giải quyết vấn đề này bằng cách tạo ra các mô hình có thể chuyển đổi giữa hai chế độ, mang lại sự cân bằng giữa tốc độ và độ chính xác.Tất cả các mô hình của Deep Cogito, được gọi là Cogito 1, đều là mô hình lai. Cogito tuyên bố rằng chúng vượt trội hơn các mô hình mở tốt nhất cùng kích thước, bao gồm cả các mô hình từ Meta và công ty khởi nghiệp AI DeepSeek của Trung Quốc. Theo một bài đăng trên blog của công ty, mỗi mô hình có thể trả lời trực tiếp hoặc tự suy ngẫm trước khi trả lời (giống như các mô hình lý luận). Tất cả đều được phát triển bởi một nhóm nhỏ trong khoảng 75 ngày.Các mô hình Cogito 1 có phạm vi từ 3 tỷ tham số đến 70 tỷ tham số và Cogito cho biết rằng các mô hình có phạm vi lên tới 671 tỷ tham số sẽ tham gia cùng chúng trong những tuần và tháng tới. Các tham số tương ứng gần đúng với các kỹ năng giải quyết vấn đề của mô hình, với nhiều tham số thường tốt hơn. Điều này cho thấy Deep Cogito đang nỗ lực để tạo ra các mô hình AI mạnh mẽ và có khả năng mở rộng.Điều quan trọng cần lưu ý là Cogito 1 không được phát triển từ đầu. Deep Cogito xây dựng dựa trên các mô hình Llama mở của Meta và Qwen của Alibaba để tạo ra mô hình của riêng mình. Công ty cho biết họ đã áp dụng các phương pháp đào tạo mới để tăng hiệu suất của các mô hình cơ sở và cho phép khả năng lý luận có thể chuyển đổi. Phương pháp này cho phép Deep Cogito tận dụng các tiến bộ hiện có trong lĩnh vực AI và tập trung vào việc cải thiện và tùy chỉnh các mô hình cho các ứng dụng cụ thể.Theo kết quả đánh giá nội bộ của Cogito, mô hình Cogito 70B lớn nhất, với khả năng lý luận, vượt trội hơn mô hình lý luận R1 của DeepSeek trong một vài đánh giá về toán học và ngôn ngữ. Cogito 70B với khả năng lý luận bị tắt cũng vượt qua mô hình Llama 4 Scout mới phát hành gần đây của Meta trên LiveBench, một thử nghiệm AI đa năng. Điều này cho thấy Cogito 1 có khả năng cạnh tranh với các mô hình AI hàng đầu hiện nay.Mọi mô hình Cogito 1 đều có sẵn để tải xuống hoặc sử dụng thông qua API trên các nhà cung cấp đám mây Fireworks AI và Together AI. Điều này giúp các nhà phát triển và nhà nghiên cứu dễ dàng truy cập và thử nghiệm với các mô hình này.Theo hồ sơ của Bang California, Deep Cogito có trụ sở tại San Francisco được thành lập vào tháng 6 năm 2024. Trang LinkedIn của công ty liệt kê hai người đồng sáng lập, Drishan Arora và Dhruv Malhotra. Malhotra trước đây là giám đốc sản phẩm tại phòng thí nghiệm DeepMind AI của Google, nơi ông làm việc về công nghệ tìm kiếm tổng quát. Arora là một kỹ sư phần mềm cao cấp tại Google. Với kinh nghiệm từ Google và DeepMind, những người sáng lập Deep Cogito có kiến thức và kỹ năng cần thiết để thành công trong lĩnh vực AI.Deep Cogito, có những người ủng hộ bao gồm South Park Commons, theo PitchBook, có mục tiêu đầy tham vọng là xây dựng “siêu trí tuệ tổng quát”. Những người sáng lập công ty hiểu cụm từ này có nghĩa là AI có thể thực hiện các tác vụ tốt hơn hầu hết con người và “khám phá ra những khả năng hoàn toàn mới mà chúng ta chưa thể tưởng tượng ra”. Đây là một mục tiêu đầy thách thức, nhưng với các mô hình AI lai đột phá của mình, Deep Cogito đang trên đường đạt được nó.