Trong hơn một thập kỷ, Amazon đã tiên phong phát triển các công nghệ dựa trên giọng nói, tạo nền tảng cho các ứng dụng AI hội thoại mạnh mẽ, từ trợ lý cá nhân hàng đầu thế giới Alexa đến các dịch vụ AWS như Lex, Polly và Connect. Tuy nhiên, để AI giọng nói thực sự mang lại giá trị lớn hơn cho khách hàng, nó cần phải nắm bắt được sự tinh tế và phức tạp trong các cuộc trò chuyện của con người. Lời nói mang ý nghĩa, nhưng chỉ riêng từ ngữ thôi thì chưa đủ nếu thiếu đi bối cảnh âm thanh mang lại chiều sâu cho chúng. Cách một điều gì đó được nói ra cũng quan trọng không kém, thậm chí còn hơn cả nội dung được nói. Việc tái tạo chính xác điều này bằng AI luôn là một thách thức lớn – cho đến tận bây giờ. Các phương pháp truyền thống để xây dựng ứng dụng hỗ trợ giọng nói thường đòi hỏi sự phối hợp phức tạp của nhiều mô hình: nhận dạng giọng nói để chuyển lời nói thành văn bản, các mô hình ngôn ngữ lớn (LLM) để hiểu và tạo phản hồi, và chuyển văn bản thành giọng nói để chuyển đổi văn bản trở lại thành âm thanh. Cách tiếp cận phân mảnh này không chỉ làm tăng độ phức tạp trong quá trình phát triển mà còn không thể bảo tồn được bối cảnh âm thanh quan trọng và các sắc thái như tông giọng, ngữ điệu và phong cách nói – những yếu tố cần thiết cho các cuộc hội thoại tự nhiên. Để giải quyết những thách thức này, Amazon đã công bố Amazon Nova Sonic, một mô hình nền tảng mới đột phá. Nova Sonic áp dụng một cách tiếp cận hoàn toàn mới bằng cách hợp nhất khả năng hiểu và tạo giọng nói vào một mô hình duy nhất. Sự hợp nhất này cho phép mô hình điều chỉnh phản hồi giọng nói được tạo ra phù hợp với bối cảnh âm thanh (ví dụ: tông giọng, phong cách) và lời nói đầu vào, mang lại các cuộc đối thoại tự nhiên hơn đáng kể. Mô hình này hiện có sẵn thông qua một API mới trong Amazon Bedrock, giúp đơn giản hóa việc phát triển các ứng dụng giọng nói như tự động hóa cuộc gọi dịch vụ khách hàng và các tác nhân AI trong nhiều ngành công nghiệp, bao gồm du lịch, giáo dục, chăm sóc sức khỏe, giải trí, v.v. Điểm đặc biệt của Nova Sonic là khả năng hiểu được các sắc thái tinh tế trong giao tiếp của con người. Nó nhận biết được những khoảng dừng tự nhiên, sự ngập ngừng của người nói, biết chờ đợi thời điểm thích hợp để phản hồi và xử lý một cách duyên dáng khi người dùng ngắt lời (barge-in). Ví dụ, trong một cuộc trò chuyện với trợ lý du lịch ảo được xây dựng trên Nova Sonic, khi giọng điệu của khách hàng chuyển từ hào hứng sang lo lắng về chi phí cho chuyến đi Hawaii, giọng điệu của AI cũng trở nên trấn an hơn khi cung cấp thông tin giá cả liên quan. Khả năng này, cùng với tốc độ suy luận cực nhanh, làm cho các ứng dụng giọng nói được hỗ trợ bởi Nova Sonic trở nên tự nhiên và hữu ích hơn. Nova Sonic cũng tạo ra bản ghi văn bản cho lời nói của người dùng, cho phép các nhà phát triển sử dụng văn bản đó để gọi các công cụ và API cụ thể nhằm xây dựng các tác nhân AI hỗ trợ giọng nói, chẳng hạn như trợ lý du lịch có thể đặt vé máy bay bằng cách truy xuất thông tin chuyến bay cập nhật. Một ví dụ khác là trợ lý AI dành cho doanh nghiệp, nơi Nova Sonic thể hiện khả năng cung cấp phản hồi dựa trên dữ liệu của công ty. Trợ lý này có thể trích xuất báo cáo và chia sẻ dữ liệu chính xác bằng giọng điệu tự nhiên, đàm thoại, đồng thời chủ động đặt các câu hỏi tiếp theo có liên quan. Cuộc đối thoại liền mạch cho phép trao đổi nhiều lượt mà không yêu cầu người nói phải thiết lập ngữ cảnh rõ ràng. Để giúp các nhà phát triển và những người đam mê công nghệ dễ dàng khám phá Amazon Nova và các mô hình Gen AI tiên tiến của mình, Amazon cung cấp trải nghiệm web tại nova.amazon.com. Tại đây, người dùng có thể làm việc với các mô hình nền tảng và truy cập Amazon Nova Act SDK để xây dựng các tác nhân có khả năng thực hiện hành động trong trình duyệt web. Bên cạnh đó, Amazon cũng cung cấp hơn 135 khóa đào tạo AWS về AI/ML cho mọi người ở mọi cấp độ kinh nghiệm, bao gồm các khóa học miễn phí và chi phí thấp về AI tạo sinh. Với sự ra mắt của Nova Sonic, Amazon tiếp tục đổi mới với các mô hình nền tảng tiên tiến, mang lại giá trị thực tế cho mọi khách hàng. Việc hợp nhất khả năng hiểu và tạo giọng nói không chỉ giải quyết các thách thức kỹ thuật lâu nay mà còn mở ra một kỷ nguyên mới cho các ứng dụng AI hội thoại, nơi máy móc có thể giao tiếp với con người một cách tự nhiên, tinh tế và hiệu quả hơn bao giờ hết.