Cá heo từ lâu đã được xem là một trong những sinh vật thông minh nhất hành tinh. Chúng có khả năng hợp tác, dạy nhau những kỹ năng mới và thậm chí nhận ra bản thân trong gương. Tuy nhiên, một trong những bí ẩn lớn nhất vẫn là cách chúng giao tiếp với nhau thông qua một loạt các âm thanh phức tạp như tiếng huýt sáo và tiếng click. Trong nhiều thập kỷ, các nhà khoa học đã nỗ lực giải mã những âm thanh này, và giờ đây, với sự trợ giúp của mô hình AI mở của Google và điện thoại Pixel, họ có thể sắp đạt được những bước tiến quan trọng.https://www.youtube.com/watch?v=T8GdEVVvXyE Google đang tìm cách tích hợp AI tạo sinh vào mọi lĩnh vực hoạt động của mình, và việc hợp tác với Dự án Cá heo Hoang dã (Wild Dolphin Project - WDP) cũng không phải là ngoại lệ. WDP đã nghiên cứu cá heo từ năm 1985, sử dụng phương pháp không xâm lấn để theo dõi một cộng đồng cá heo đốm Đại Tây Dương cụ thể. Dự án này thu thập các bản ghi video và âm thanh của cá heo, cùng với các ghi chú liên quan đến hành vi của chúng. Một trong những mục tiêu chính của WDP là phân tích cách cá heo phát âm thanh và cách điều này ảnh hưởng đến tương tác xã hội của chúng. Sau nhiều thập kỷ thu âm dưới nước, các nhà nghiên cứu đã liên kết được một số hoạt động cơ bản với các âm thanh cụ thể. Ví dụ, cá heo đốm Đại Tây Dương có những tiếng huýt sáo đặc trưng, dường như được sử dụng như tên gọi, cho phép hai cá thể cụ thể tìm thấy nhau. Chúng cũng liên tục tạo ra các mẫu âm thanh "squawk" trong các cuộc chiến. Các nhà nghiên cứu của WDP tin rằng việc hiểu cấu trúc và các mẫu âm thanh của cá heo là cần thiết để xác định xem khả năng giao tiếp của chúng có đạt đến trình độ của một ngôn ngữ hay không. "Chúng ta không biết liệu động vật có từ ngữ hay không," Denise Herzing của WDP cho biết. Để đạt được mục tiêu cuối cùng là "nói chuyện" với cá heo, WDP đã tạo ra một bộ dữ liệu khổng lồ, được gắn nhãn tỉ mỉ, mà Google cho rằng hoàn hảo để phân tích bằng AI tạo sinh. Mô hình ngôn ngữ lớn (LLM) đã trở nên phổ biến trong công nghệ tiêu dùng, về cơ bản là dự đoán các mẫu. Bạn cung cấp cho chúng một đầu vào, và các mô hình dự đoán token tiếp theo lặp đi lặp lại cho đến khi có đầu ra. Khi một mô hình được đào tạo hiệu quả, đầu ra có thể nghe như được tạo ra bởi một người. Google và WDP hy vọng có thể làm điều tương tự với DolphinGemma cho động vật có vú biển. DolphinGemma dựa trên các mô hình AI mở Gemma của Google, bản thân chúng được xây dựng trên nền tảng tương tự như các mô hình Gemini thương mại của công ty. Mô hình giao tiếp cá heo sử dụng công nghệ âm thanh SoundStream do Google phát triển để mã hóa âm thanh của cá heo, cho phép các âm thanh được đưa vào mô hình khi chúng được ghi lại. Google cho biết họ đã đào tạo mô hình bằng cách sử dụng kho lưu trữ âm thanh của Dự án Cá heo Hoang dã. Đây là một mô hình đầu vào âm thanh, đầu ra âm thanh. Vì vậy, sau khi cung cấp cho nó một âm thanh của cá heo, mô hình sẽ thực hiện giống như các mô hình ngôn ngữ tập trung vào con người—nó dự đoán token tiếp theo. Nếu nó hoạt động giống như một LLM tiêu chuẩn, thì các token được dự đoán đó có thể là những âm thanh mà cá heo có thể hiểu được. Nhóm nghiên cứu hy vọng rằng DolphinGemma sẽ giúp khám phá ra các mẫu phức tạp, cho phép tạo ra một từ vựng chung. Google tuyên bố rằng việc con người kiểm tra dữ liệu theo cách này sẽ tốn quá nhiều thời gian. Google cho biết họ đã thiết kế DolphinGemma theo phương pháp nghiên cứu của WDP. Nhóm nghiên cứu sử dụng điện thoại Pixel tại hiện trường, vì vậy mô hình phải hiệu quả. Việc chạy các mô hình AI trên điện thoại thông minh thường gặp khó khăn do tài nguyên hạn chế. Một mô hình càng lớn và có khả năng, nó càng cần nhiều RAM và thông lượng xử lý để hoạt động. DolphinGemma bao gồm khoảng 400 triệu tham số. Đó là con số nhỏ so với một LLM điển hình. Vì nhóm nghiên cứu quan sát cá heo hoang dã trong môi trường dưới nước, họ cần các hệ thống âm thanh nhỏ gọn. Trong vài năm qua, WDP đã sử dụng một thiết bị được tạo ra tại Viện Công nghệ Georgia có tên là CHAT (Cetacean Hearing Augmentation Telemetry) dựa trên Pixel 6. Nhóm nghiên cứu sử dụng CHAT để tạo ra các âm thanh tổng hợp của cá heo mà họ cố gắng liên kết với một đối tượng. Nó cũng có thể nghe âm thanh của cá heo để tìm một phản hồi "bắt chước" phù hợp. Google cho biết nhóm nghiên cứu sẽ có CHAT mới dựa trên Pixel 9 cho mùa nghiên cứu hè năm 2025. Việc chuyển sang Pixel 9 được cho là sẽ cho phép CHAT chạy các mô hình học sâu và các thuật toán khớp mẫu cùng một lúc. Nhóm nghiên cứu dường như không quan tâm đến việc đưa đầu ra của DolphinGemma trực tiếp vào bộ chuyển đổi âm thanh CHAT để động vật nghe. Công việc với CHAT có thể hưởng lợi từ công việc AI của Google, nhưng đó là một lĩnh vực điều tra song song. Không ai mong đợi DolphinGemma và CHAT mới sẽ ngay lập tức giúp con người trò chuyện bằng tiếng huýt sáo của cá heo, nhưng hệ thống có thể cho phép các tương tác cơ bản theo thời gian. Giống như các mô hình Gemma ngôn ngữ người, DolphinGemma là một dự án truy cập mở. Google sẽ phát hành mô hình cho các nhà nghiên cứu trên khắp thế giới sử dụng vào mùa hè này. Mặc dù DolphinGemma đã được đào tạo trên âm thanh của cá heo đốm Đại Tây Dương, nhưng Google cho rằng có thể tinh chỉnh nó cho các loài cá voi khác. Sự hợp tác giữa Google và WDP, cùng với sự ra đời của DolphinGemma và CHAT, đánh dấu một bước tiến quan trọng trong việc giải mã ngôn ngữ phức tạp của cá heo. Mặc dù vẫn còn nhiều thách thức phía trước, những công cụ này hứa hẹn sẽ mở ra những cánh cửa mới để hiểu sâu hơn về trí thông minh và khả năng giao tiếp của những sinh vật biển tuyệt vời này.