Đầu năm nay, tỷ phú Bill Gates khẳng định AI sẽ là tâm điểm lớn nhất của ngành công nghệ, và sẽ mang đến những thay đổi lớn nhất trong những năm tới.
Trên thực tế, ngay cả khi Microsoft đang ‘thắng lớn’ nhờ khoản đầu tư vào OpenAI – cha đẻ của ChatGPT, các nhà nghiên cứu của tập đoàn công nghệ này vẫn không ngủ quên trên chiến thắng. Thay vào đó, Microsoft tiếp tục đầu tư mạnh vào các dự án AI ở các lĩnh vực khác.
Vào tháng 1 năm nay, Microsoft đã tiết lộ những tiến bộ mà họ đã đạt được trong dự án AI chuyển văn bản thành giọng nói, Vall-E. Mặc dù đã tồn tại nhiều công cụ AI khác trong cùng lĩnh vực, nhưng công nghệ AI sắp tới của gã khổng lồ công nghệ có trụ sở tại Redmond sẽ cho phép người dùng nói tiếng nước ngoài bằng chính giọng nói của họ.
Microsoft gọi VALL-E là “mô hình ngôn ngữ codec thần kinh” và nó được xây dựng dựa trên công nghệ có tên EnCodec mà Meta đã công bố vào tháng 10 năm 2022.
VALL-E cũng được đào tạo trên bộ dữ liệu LibriLight do Meta tạo ra. Nó chứa 60.000 giờ nói bằng tiếng Anh từ hơn 7.000 người nói, hầu hết trong số đó được lấy từ sách nói thuộc phạm vi công cộng của LibriVox. Để VALL-E tạo ra kết quả tốt, giọng nói trong mẫu ba giây phải khớp chặt chẽ với giọng nói trong dữ liệu huấn luyện.
Không giống như các phương pháp chuyển văn bản thành giọng nói khác, thường tổng hợp giọng nói bằng cách điều khiển các dạng sóng điều khiển dạng sóng. Để tạo giọng nói, các nhà nghiên cứu của Microsoft đã cung cấp cho AI khả năng tạo codec âm thanh riêng biệt từ lời nhắc văn bản và âm thanh.
Nói cách khác, nó phân tích cách một người phát âm, chia thông tin đó thành các thành phần riêng biệt (được gọi là “mã thông báo”) nhờ EnCodec và sử dụng dữ liệu huấn luyện để khớp với những gì nó “biết” về âm thanh của giọng nói đó.
Nhóm cũng có thể giảm thời lượng của lời nhắc âm thanh xuống chỉ còn ba giây mà vẫn có được giọng nói chính xác và nhất quán với giọng nói gốc của người dùng.
Với những tiến bộ gần đây trong công nghệ, các nhà nghiên cứu chắc chắn đã đưa AI tiến xa hơn cho phép người dùng giao tiếp bằng ngoại ngữ bằng giọng nói của chính họ, ngay cả khi họ không nói được ngôn ngữ đó. ở đó. Điều này có thể giúp ích rất nhiều trong việc giúp mọi người giao tiếp xuyên biên giới hiệu quả hơn, giảm bớt các rào cản trong giao tiếp. Như đã thấy trong clip trên, AI cũng có khả năng mô tả chính xác nhiều cảm xúc trong giọng nói, khiến giọng nói trở nên chân thực hơn, mang lại cảm giác ‘con người’ hơn là ‘máy móc’.
Tuy nhiên, sự chân thật của AI trong việc ‘giả giọng’ cũng là con dao hai lưỡi. Khi ngày càng có nhiều kẻ xấu sử dụng bộ tạo giọng nói AI để mạo danh và lừa đảo, điều này đặt ra nhiều câu hỏi về việc liệu VALL-E có bị lợi dụng hay không, và làm thế nào để có cơ chế quản lý hiệu quả.
Bản thân Microsoft cũng nhận thức được những nhược điểm và khả năng những kẻ xấu lạm dụng công nghệ này. Đây có thể là lý do tại sao công cụ này vẫn chưa được phát hành ra công chúng.
Không chỉ Microsoft, nhiều hãng khác cũng đang rất quan tâm đến lĩnh vực tạo giọng nói bằng AI. Mới đây nhất, Google cũng được cho là đang phát triển một dự án AI đầy tham vọng của riêng mình, có thể giúp người dùng dịch hơn 1.000 ngôn ngữ được sử dụng trên toàn cầu.
Tham khảo Kỹ thuật thú vị
Link nguồn: https://cafef.vn/khong-can-gioi-ngoai-ngu-nguoi-dung-gio-co-the-nho-ai-cua-microsoft-noi-ho-o-du-thu-tieng-giong-noi-cung-y-het-chinh-chu-20230311120727632.chn