Mới đây, Google đã công bố Gemini 3.5 Live Translate, một mô hình âm thanh AI mới được thiết kế để các cuộc hội thoại đa ngôn ngữ theo thời gian thực trở nên tự nhiên hơn.

Khác với các hệ thống dịch truyền thống xử lý lời nói theo từng lượt, Gemini 3.5 Live Translate liên tục lắng nghe, dịch và phát lại nội dung đã dịch, cho phép cuộc trò chuyện diễn ra trôi chảy chỉ với độ trễ vài giây, mô phỏng cách con người giao tiếp tự nhiên.

W-google gemini live translate.jpg
Chế độ Dịch trực tiếp trên ứng dụng Google Dịch cho iPhone. Ảnh: Du Lam

Mô hình này có thể tự động nhận diện ngôn ngữ đang được sử dụng và hỗ trợ hơn 70 ngôn ngữ, bao gồm tiếng Việt, tạo ra hàng nghìn cặp ngôn ngữ khác nhau trong cùng một cuộc hội thoại.

Google cho biết công nghệ hiện đã được cung cấp cho các nhà phát triển và đối tác để tích hợp vào các cuộc họp trực tuyến, nền tảng giao tiếp và ứng dụng di động.

Những điểm mới của Gemini 3.5 Live Translate

Thay đổi lớn nhất nằm ở cách thức dịch thuật: Thay vì chờ một người nói xong rồi mới tạo bản dịch, Gemini 3.5 Live Translate thực hiện dịch trực tuyến liên tục.

Nhờ đó, cuộc trò chuyện trở nên mượt mà hơn, giảm đáng kể những khoảng dừng khó xử, sự gián đoạn và độ trễ thường thấy ở các công cụ dịch truyền thống.

Google cho biết hệ thống được xây dựng để hoạt động hiệu quả trong các tình huống giao tiếp hằng ngày. Mô hình có thể xử lý môi trường nhiều tiếng ồn, âm thanh nền, nhiều người nói cùng lúc và các kiểu nói chuyện không quá trang trọng.

Điều này giúp Gemini 3.5 Live Translate phù hợp với nhiều tình huống sử dụng như: tổng đài chăm sóc khách hàng; các chuyến tham quan có hướng dẫn viên; lớp học đa ngôn ngữ; dịch vụ gọi xe; chương trình phát sóng trực tiếp.

Google cũng đặc biệt chú trọng đến chất lượng giọng nói đầu ra. Thay vì tạo ra một giọng nói tổng hợp chung chung, hệ thống cố gắng giữ lại các đặc điểm trong cách nói của người dùng, bao gồm: tốc độ nói, ngữ điệu, cảm xúc trong giọng nói.

Nhờ vậy, phần nội dung được dịch nghe tự nhiên hơn và người nghe dễ theo dõi cuộc trò chuyện hơn.

Kỷ nguyên mới của dịch thuật thời gian thực

Mục tiêu lớn hơn của Gemini 3.5 Live là đưa dịch thuật trực tiếp vượt ra khỏi các màn trình diễn công nghệ để trở thành một công cụ giao tiếp hằng ngày.

Bằng cách cho phép các cuộc trò chuyện đa ngôn ngữ diễn ra gần như theo thời gian thực mà không yêu cầu người dùng thay đổi cách nói chuyện, Gemini 3.5 Live Translate có thể giúp việc giao tiếp đa ngôn ngữ trở nên thực tế hơn đối với doanh nghiệp, tổ chức và cá nhân.

Xu hướng này cho thấy ngành công nghệ đang bước vào một giai đoạn mới, nơi dịch thuật AI theo thời gian thực ngày càng phổ biến.

Trong thời gian gần đây, AirPods Pro 3 được Apple giới thiệu với tính năng Live Translation. Google Translate dần triển khai tính năng dịch trực tiếp qua tai nghe trên cả thiết bị Apple và Android. Tại sự kiện CES 2026, nhiều thiết bị dịch thuật cầm tay thời gian thực cũng được giới thiệu.

Gemini 3.5 Live Translate chỉ là sản phẩm mới nhất trong làn sóng công nghệ dịch thuật ứng dụng AI. Sự phát triển này phản ánh nhu cầu ngày càng lớn về việc giao tiếp hiệu quả giữa các nền văn hóa khác nhau, giúp du lịch, học ngoại ngữ và hợp tác quốc tế trở nên thuận tiện hơn bao giờ hết.

Cách dùng Dịch trực tiếp trên Google Dịch

Bước 1: Mở ứng dụng Google Dịch trên thiết bị

Bước 2: Chọn Dịch trực tiếp ở góc dưới bên trái màn hình. Bạn có thể thiết lập cặp ngôn ngữ nguồn (hoặc cho phép Google tự động phát hiện ngôn ngữ) và đích.

Bước 3: Màn hình hiển thị các chế độ: Đang nghe (kết nối tai nghe để nghe bản dịch theo thời gian thực), Cuộc trò chuyện (bản dịch phát ra loa ngoài trên điện thoại) và Chỉ văn bản. Lựa chọn chế độ theo nhu cầu sử dụng rồi chọn Bắt đầu.

(Theo Cnet)