Tai nghe AI đột phá: Dịch nhiều người nói cùng lúc trong thời gian thực -

1. Giới hạn của các thiết bị dịch hiện nay

Phần lớn các tai nghe dịch thuật như Google Pixel Buds hay Timkettle chỉ hỗ trợ dịch một người nói tại một thời điểm. Điều này khiến chúng kém hiệu quả trong những môi trường có nhiều người cùng trò chuyện, nơi thông tin thường bị lẫn lộn và gián đoạn.

2. Giải pháp từ Đại học Washington

Để khắc phục vấn đề đó, các nhà nghiên cứu tại Đại học Washington đã phát triển hệ thống mang tên Spatial Speech Translation (Dịch giọng nói không gian). Công nghệ này giúp tai nghe AI phân biệt và dịch nhiều giọng nói cùng lúc bằng cách xác định hướng phát ra âm thanh của từng người nói.

3. Công nghệ âm thanh lập thể thông minh

Hệ thống sử dụng micro âm thanh lập thể đặt cách nhau như hai tai người, mô phỏng cách con người cảm nhận âm thanh từ các hướng khác nhau. Thiết kế này cho phép thiết bị phân biệt các giọng nói đến từ những vị trí cụ thể và xử lý từng luồng âm thanh riêng biệt.

Toàn bộ quá trình dịch được xử lý trực tiếp trên thiết bị, không cần kết nối internet hay gửi dữ liệu lên máy chủ. Điều này không chỉ giúp giảm độ trễ mà còn đảm bảo tính riêng tư cho người dùng.

4. Hiệu năng và trải nghiệm người dùng

Hệ thống có thể dịch trong thời gian thực với độ trễ chỉ từ 2 đến 4 giây. Người dùng thử nghiệm đánh giá rằng mức độ trễ này hoàn toàn chấp nhận được, đặc biệt trong các tình huống như hội thảo hay thảo luận nhóm.

Hiện tại, công nghệ hỗ trợ dịch ba ngôn ngữ gồm tiếng Tây Ban Nha, tiếng Đức và tiếng Pháp. Trong tương lai, nhóm nghiên cứu sẽ mở rộng sang nhiều ngôn ngữ khác.

5. Phần cứng mạnh mẽ, mã nguồn mở

Thiết bị nguyên mẫu được xây dựng trên nền tảng phần cứng mạnh mẽ: chip Apple M2, tai nghe Sony WH-1000XM4 và micro Sonic Presence SP15C. Đặc biệt, nhóm phát triển đã công bố mã nguồn mở, nhằm khuyến khích cộng đồng khoa học và các nhà phát triển tiếp tục mở rộng và ứng dụng công nghệ này vào thực tiễn.

Tai nghe AI dịch đa giọng nói của Đại học Washington là một bước tiến đáng kể trong lĩnh vực giao tiếp đa ngôn ngữ. Không chỉ vượt qua những giới hạn kỹ thuật hiện tại, công nghệ này còn hứa hẹn sẽ trở thành công cụ hữu ích cho giáo dục, du lịch, kinh doanh và các sự kiện quốc tế trong tương lai gần.

Thông tin khác

» 6 CÂU HỎI PHỎNG VẤN HÀNH CHÍNH – TRẢ LỜI SAO CHO MƯỢT NHƯ FILE EXCEL (24.04.2025)
» VnPro Cung Cấp Chat Prompt Thực Hành Lab Cisco, Microsoft, AI & CyberSecurity: Giải Pháp Học Tập Đột Phá Thời AI (24.04.2025)
» Làm Chủ Công Cụ Quyền Năng Của Thời Đại Số (24.04.2025)
» TIP – Trước khi đi phỏng vấn, đừng chỉ chuẩn bị quần áo đẹp (24.04.2025)
» Chiến lược công nghệ tương lai của Cisco: AI đại lý, bảo mật lượng tử và cơ sở hạ tầng bền vững (23.04.2025)
» Cisco Tăng Cường Đầu Tư Vào Công Nghệ AI và Bảo Mật Mạng: Bước Đi Chiến Lược Trong Kỷ Nguyên Số (23.04.2025)
» 6 Câu Hỏi Phỏng Vấn Thực Tập Sinh IT/Network – Không Biết Là Toang! (22.04.2025)
» PHỎNG VẤN VỊ TRÍ TƯ VẤN TUYỂN SINH – ỨNG VIÊN CẦN “ÔN TẬP” GÌ? (22.04.2025)

Tai nghe AI đột phá: Dịch nhiều người nói cùng lúc trong thời gian thực -