Phiên bản alpha chỉ dành cho một nhóm nhỏ người dùng ChatGPT Plus (trả phí) và OpenAI cho biết tính năng này sẽ dần được triển khai cho tất cả người dùng Plus vào mùa thu năm 2024.
Khi OpenAI lần đầu giới thiệu giọng nói của GPT-4o vào tháng 5, nó đã khiến khán giả kinh ngạc vì phản ứng nhanh và giống hệt giọng nói của con người thật – một giọng nói đặc biệt. Giọng nói đó, Sky, giống với giọng của nữ diễn viên Scarlett Johansson.
Ngay sau buổi trình diễn của OpenAI, Johansson cho biết cô đã từ chối nhiều lời đề nghị từ CEO Sam Altman để cho công ty sử dụng giọng nói của mình và sau khi xem bản demo của GPT-4o, cô đã thuê một luật sư để bảo vệ hình ảnh của mình.
OpenAI phủ nhận việc sử dụng giọng nói của Johansson, nhưng sau đó đã xóa giọng nói được hiển thị trong bản demo của mình. Vào tháng 6, OpenAI cho biết họ sẽ trì hoãn việc phát hành chế độ giọng nói nâng cao để tăng cường các biện pháp an toàn.
Một tháng sau, OpenAI cho biết các tính năng chia sẻ màn hình và video được giới thiệu trong bản cập nhật Spring không có trong phiên bản alpha sẽ sớm ra mắt.
Hiện tại, bản demo GPT-4o vẫn chỉ là bản demo, nhưng một số người dùng trả phí có thể sử dụng tính năng giọng nói của ChatGPT.
ChatGPT hiện có thể nói và nghe
Người dùng có thể dùng thử chế độ giọng nói hiện có trong ChatGPT, nhưng OpenAI cho biết chế độ giọng nói nâng cao sẽ rất khác biệt.
Giải pháp âm thanh cũ của ChatGPT sử dụng ba mô hình riêng biệt: Một mô hình để chuyển đổi giọng nói của người dùng thành văn bản, GPT-4 để xử lý yêu cầu của người dùng và mô hình thứ ba để chuyển đổi văn bản của ChatGPT thành giọng nói.
Nhưng GPT-4o là một mô hình đa phương tiện, có khả năng xử lý các tác vụ này mà không cần sự hỗ trợ của các mô hình phụ trợ, giúp các cuộc hội thoại có độ trễ thấp hơn đáng kể.
OpenAI cũng tuyên bố GPT-4o có thể cảm nhận cảm xúc trong giọng nói của người dùng, bao gồm buồn, phấn khích hoặc hát.
Người dùng ChatGPT Plus sẽ được trải nghiệm trực tiếp chất lượng giọng nói giống con người thực sự ở chế độ giọng nói nâng cao.
OpenAI cho biết họ đang triển khai giọng nói ChatGPT mới dần dần để theo dõi chặt chẽ việc sử dụng tính năng này. Những người trong nhóm alpha sẽ nhận được thông báo trong ứng dụng ChatGPT, sau đó là email có hướng dẫn về cách sử dụng.
Trong những tháng kể từ khi OpenAI trình diễn, công ty cho biết họ đã thử nghiệm khả năng nói của GPT-4o với hơn 100 nhóm đánh giá bên ngoài độc lập nói 45 ngôn ngữ khác nhau. Một báo cáo về kết quả thử nghiệm sẽ được công bố vào đầu tháng 8.
Công ty cho biết chế độ giọng nói nâng cao sẽ chỉ giới hạn ở bốn giọng nói mặc định của ChatGPT — Juniper, Breeze, Cove và Ember — được tạo ra thông qua sự hợp tác với các diễn viên lồng tiếng được trả tiền.
Giọng nói Sky được giới thiệu trong bản demo tháng 5 của OpenAI không còn khả dụng trong ChatGPT. Người phát ngôn của OpenAI, Lindsay McCallum cho biết: “ChatGPT không thể giả giọng nói của người khác, cả cá nhân và người của công chúng, và sẽ chặn các đầu ra khác với một trong những giọng nói mặc định này”.
OpenAI đang cố gắng tránh tranh cãi về deepfake. Vào tháng 1, công nghệ sao chép giọng nói của công ty khởi nghiệp AI ElevenLabs đã được sử dụng để mạo danh Tổng thống Hoa Kỳ Biden, đánh lừa cử tri ở tiểu bang New Hampshire.
OpenAI tuyên bố đã giới thiệu bộ lọc mới để chặn các yêu cầu tạo nhạc hoặc âm thanh có bản quyền.
Trong năm qua, các công ty AI đã gặp rắc rối pháp lý vì vi phạm bản quyền và các mô hình âm thanh như GPT-4o sẽ mở ra một giai đoạn mới mà các công ty có thể nộp đơn khiếu nại, đặc biệt là các hãng thu âm – họ đã kiện các trình tạo bài hát AI như Suno, Udio…
Link nguồn: https://cafef.vn/giong-noi-cua-chatgpt-moi-giong-het-giong-nguoi-that-188240731111202836.chn