Trong khi mọi người đang vui vẻ nói về việc các công cụ AI mới có tiềm năng thay đổi cuộc sống con người như thế nào trong tương lai thì có một vấn đề mà mọi người đang bỏ qua: nguồn gốc của những bộ dữ liệu này. vật liệu tạo nên những tính năng tuyệt vời này. Mới đây, một báo cáo của New York Times đã tiết lộ một số góc khuất của vấn đề này cũng như cách OpenAI tạo ra những tính năng hấp dẫn cho các công cụ AI của mình.
Khi bắt đầu câu chuyện, OpenAI vào năm 2021 trở nên cạn kiệt và cực kỳ đói dữ liệu nên đã phát triển một mô hình AI dịch âm thanh có tên Whisper để vượt qua trở ngại này. Sau đó, mô hình này đã tổng hợp hơn 1 triệu giờ video trên YouTube – bao gồm cả việc đào tạo GPT-4, mô hình ngôn ngữ lớn tiên tiến nhất của họ vào thời điểm đó.
![Hé lộ góc khuất đằng sau thành công rực rỡ của OpenAI: phụ thuộc vào “mỏ vàng kỹ thuật số” do Google nắm giữ - Ảnh 1. Hé lộ góc khuất đằng sau thành công rực rỡ của OpenAI: phụ thuộc vào “mỏ vàng kỹ thuật số” do Google nắm giữ - Ảnh 1.](https://diaocthoibao.com/wp-content/uploads/2024/04/phu-thuoc-vao-mo-vang-ky-thuat-so-do-Google.jpg)
Theo báo cáo của New York Times, mặc dù OpenAI vào thời điểm đó – bao gồm cả chủ tịch Greg Brockman – biết rằng điều này có thể gây ra rắc rối pháp lý, nhưng họ vẫn tiếp tục sử dụng nó vì cho rằng nó phù hợp với họ. mục đích sử dụng hợp lý.
Trả lời yêu cầu bình luận của The Verge, đại diện OpenAI, Lindsay Held, cho biết trong email rằng công ty tinh chỉnh các bộ dữ liệu “duy nhất” cho từng mô hình AI của mình để “giúp họ hiểu thế giới tốt hơn”. và duy trì khả năng cạnh tranh trong nghiên cứu trên toàn cầu. Held cho biết công ty sử dụng “nhiều nguồn dữ liệu khác nhau bao gồm dữ liệu công khai và dữ liệu không công khai từ nhiều đối tác” và cũng đang xem xét việc tạo ra dữ liệu tổng hợp. cho bản thân mình.
Trong khi đó, với tư cách là công ty sở hữu nền tảng YouTube, Google cho biết công ty đã biết về “các báo cáo chưa được xác nhận” về hoạt động của OpenAI, đồng thời nói thêm rằng “cả tệp robots.txt và Điều khoản dịch vụ của chúng tôi đều cấm thu thập và tải xuống nội dung YouTube.” .” Trước đó, CEO YouTube Neal Mohan cũng cho biết rất có thể OpenAI đã sử dụng YouTube để huấn luyện AI tạo ra video Sora.
Do đó, đại diện Google Matt Bryant cho biết, công ty đang thực hiện “các biện pháp kỹ thuật và pháp lý” để ngăn chặn việc sử dụng dữ liệu trái phép “khi chúng tôi có bằng chứng kỹ thuật và pháp lý rõ ràng”. rõ ràng là phải làm điều đó”.
![Hé lộ góc khuất đằng sau thành công rực rỡ của OpenAI: phụ thuộc vào “mỏ vàng kỹ thuật số” do Google nắm giữ - Ảnh 2. Hé lộ góc khuất đằng sau thành công rực rỡ của OpenAI: phụ thuộc vào “mỏ vàng kỹ thuật số” do Google nắm giữ - Ảnh 2.](https://diaocthoibao.com/wp-content/uploads/2024/04/phu-thuoc-vao-mo-vang-ky-thuat-so-do-Google.jpeg; charset=utf-8)
Không chỉ OpenAI, Google còn khai thác các video YouTube làm nguồn dữ liệu đào tạo cho AI của mình.
Báo cáo của NYT cho biết, không chỉ OpenAI, bản thân Google cũng thu thập các bản dịch âm thanh từ YouTube. Ông Bryant cho biết Google đã đào tạo một số mô hình của mình bằng dữ liệu từ “nội dung YouTube, theo thỏa thuận của chúng tôi với những người sáng tạo nội dung YouTube”.
Cũng cùng hoàn cảnh với các đối thủ khác là Meta, dù nắm giữ nhiều mạng xã hội lớn nhất hành tinh nhưng vẫn gặp nhiều hạn chế trong việc có được nguồn dữ liệu chất lượng. Báo cáo của New York Times cho biết nhóm AI của Meta đã thảo luận về việc tìm cách sử dụng trái phép các tài liệu có bản quyền trong nỗ lực bắt kịp OpenAI.
Về phần Meta, sau khi họ xem qua “gần như tất cả các tài liệu bằng tiếng Anh bao gồm sách, tiểu luận, thơ và báo có trên internet”, họ đã cân nhắc thực hiện các bước như trả tiền cho giấy phép xuất bản sách hoặc mua lại một nhà xuất bản lớn. Những động thái này cho thấy công ty rõ ràng đang bị hạn chế bởi nguồn dữ liệu người dùng sau vụ bê bối Cambridge Analytica.
![Hé lộ góc khuất đằng sau thành công rực rỡ của OpenAI: phụ thuộc vào “mỏ vàng kỹ thuật số” do Google nắm giữ - Ảnh 3. Hé lộ góc khuất đằng sau thành công rực rỡ của OpenAI: phụ thuộc vào “mỏ vàng kỹ thuật số” do Google nắm giữ - Ảnh 3.](https://diaocthoibao.com/wp-content/uploads/2024/04/1712631251_336_phu-thuoc-vao-mo-vang-ky-thuat-so-do-Google.jpeg; charset=utf-8)
Báo cáo cho thấy toàn bộ ngành AI, bao gồm các công ty lớn như Google, OpenAI và Meta, đang phải vật lộn với tình trạng thiếu dữ liệu. Một báo cáo khác của Wall Street Journal cho thấy rất có thể toàn bộ nguồn dữ liệu trên internet sẽ được các công ty sử dụng vào năm 2028, gây ra thách thức nghiêm trọng cho toàn bộ ngành công nghiệp AI.
Một giải pháp khả thi vào lúc này là đào tạo các mô hình AI trên dữ liệu “tổng hợp” do mô hình của chính chúng tạo ra – còn được gọi là kỹ thuật “học chương trình giảng dạy”. “, bao gồm việc cung cấp cho các mô hình này dữ liệu chất lượng cao được sắp xếp theo đúng thứ tự. Các nhà nghiên cứu hy vọng rằng dữ liệu này có thể được sử dụng để tạo ra “kết nối thông minh hơn giữa các ý tưởng” trong khi tiêu thụ ít thông tin hơn, nhưng những cách tiếp cận này vẫn chưa được chứng minh trong thực tế.
Đó là lý do tại sao cho đến nay, lựa chọn phổ biến của nhiều công ty khác là sử dụng bất kỳ dữ liệu nào họ nhận được, dù được phép hay không. Với hàng loạt vụ kiện liên quan đến việc sử dụng dữ liệu trong năm qua, đây rõ ràng không phải là một lựa chọn dễ dàng đối với họ.
Link nguồn: https://cafef.vn/tiet-lo-goc-khuat-dang-sau-thanh-cong-ruc-ro-cua-openai-le-thuoc-vao-mot-mo-vang-so-do-google-nam-giu-188240409073200738.chn