Các nhà nghiên cứu của Microsoft cho biết VALL-E 2 có khả năng tạo ra giọng nói chính xác, tự nhiên và đủ sức thuyết phục để dễ dàng nhầm lẫn với giọng nói thật của con người.
Chất lượng vượt trội
Công cụ AI có thể thực hiện điều này bằng cách tích hợp hai tính năng chính: “Lấy mẫu có nhận thức về sự lặp lại” và “Mô hình mã hóa theo nhóm”.
Repetition Aware Sampling cải thiện cách AI chuyển đổi văn bản thành giọng nói bằng cách giải quyết các lần lặp lại của “token” — các đơn vị ngôn ngữ nhỏ, như từ hoặc các phần của từ — ngăn chặn các vòng lặp vô hạn của âm thanh hoặc cụm từ trong quá trình giải mã. Nói cách khác, tính năng này giúp thay đổi các mẫu giọng nói của VALL-E 2, giúp giọng nói nghe trôi chảy và tự nhiên hơn.
Trong khi đó, mô hình mã nhóm cải thiện hiệu quả bằng cách giảm độ dài chuỗi — hoặc số lượng mã thông báo riêng lẻ mà mô hình xử lý trong một chuỗi đầu vào duy nhất. Điều này tăng tốc quá trình tạo giọng nói của VALL-E 2 và giúp quản lý những khó khăn khi xử lý các chuỗi âm thanh dài.
Các thí nghiệm được tiến hành trên các tập dữ liệu LibriSpeech và VCTK cho thấy VALL-E 2 vượt trội hơn các hệ thống TTS zero-shot trước đây về độ mạnh mẽ của giọng nói, độ tự nhiên và độ tương đồng của người nói. Đây là hệ thống đầu tiên đạt được sự ngang bằng với con người về các số liệu này.
Các nhà nghiên cứu đã viết trong báo cáo rằng chất lượng đầu ra của VALL-E 2 phụ thuộc vào độ dài và chất lượng của giọng nói cũng như các yếu tố môi trường như tiếng ồn xung quanh.
Tuy nhiên, Microsoft cho biết đây hoàn toàn là một dự án nghiên cứu và sẽ không phát hành VALL-E 2 cho công chúng do nguy cơ sử dụng sai mục đích. Điều này trùng hợp với mối lo ngại ngày càng tăng về công nghệ sao chép giọng nói Deepfake. Các công ty AI khác như OpenAI đã đặt ra những hạn chế tương tự đối với công nghệ giọng nói của họ để ngăn chặn việc giả mạo nhận dạng giọng nói hoặc mạo danh một người.
Tuy nhiên, các nhà nghiên cứu đã gợi ý rằng công nghệ giọng nói AI có thể thấy các ứng dụng thực tế trong tương lai. VALL-E 2 có thể tổng hợp giọng nói trong khi vẫn duy trì danh tính của người nói và có thể được sử dụng cho mục đích học tập giáo dục, giải trí, báo chí, nội dung tự biên soạn, tính năng trợ năng, hệ thống phản hồi giọng nói tương tác, dịch thuật, chatbot, v.v.
Theo Khoa học sống
Link nguồn: https://cafef.vn/may-tao-giong-noi-ai-giong-het-con-nguoi-nhung-qua-nguy-hiem-188240712134501636.chn