Phần lớn các tai nghe dịch thuật như Google Pixel Buds hay Timkettle chỉ hỗ trợ dịch một người nói tại một thời điểm. Điều này khiến chúng kém hiệu quả trong những môi trường có nhiều người cùng trò chuyện, nơi thông tin thường bị lẫn lộn và gián đoạn.
Để khắc phục vấn đề đó, các nhà nghiên cứu tại Đại học Washington đã phát triển hệ thống mang tên Spatial Speech Translation (Dịch giọng nói không gian). Công nghệ này giúp tai nghe AI phân biệt và dịch nhiều giọng nói cùng lúc bằng cách xác định hướng phát ra âm thanh của từng người nói.
Hệ thống sử dụng micro âm thanh lập thể đặt cách nhau như hai tai người, mô phỏng cách con người cảm nhận âm thanh từ các hướng khác nhau. Thiết kế này cho phép thiết bị phân biệt các giọng nói đến từ những vị trí cụ thể và xử lý từng luồng âm thanh riêng biệt.
Toàn bộ quá trình dịch được xử lý trực tiếp trên thiết bị, không cần kết nối internet hay gửi dữ liệu lên máy chủ. Điều này không chỉ giúp giảm độ trễ mà còn đảm bảo tính riêng tư cho người dùng.
Hệ thống có thể dịch trong thời gian thực với độ trễ chỉ từ 2 đến 4 giây. Người dùng thử nghiệm đánh giá rằng mức độ trễ này hoàn toàn chấp nhận được, đặc biệt trong các tình huống như hội thảo hay thảo luận nhóm.
Hiện tại, công nghệ hỗ trợ dịch ba ngôn ngữ gồm tiếng Tây Ban Nha, tiếng Đức và tiếng Pháp. Trong tương lai, nhóm nghiên cứu sẽ mở rộng sang nhiều ngôn ngữ khác.
Thiết bị nguyên mẫu được xây dựng trên nền tảng phần cứng mạnh mẽ: chip Apple M2, tai nghe Sony WH-1000XM4 và micro Sonic Presence SP15C. Đặc biệt, nhóm phát triển đã công bố mã nguồn mở, nhằm khuyến khích cộng đồng khoa học và các nhà phát triển tiếp tục mở rộng và ứng dụng công nghệ này vào thực tiễn.
Tai nghe AI dịch đa giọng nói của Đại học Washington là một bước tiến đáng kể trong lĩnh vực giao tiếp đa ngôn ngữ. Không chỉ vượt qua những giới hạn kỹ thuật hiện tại, công nghệ này còn hứa hẹn sẽ trở thành công cụ hữu ích cho giáo dục, du lịch, kinh doanh và các sự kiện quốc tế trong tương lai gần.