Trước đó, có người cho rằng ChatGPT hoạt động thuần túy dựa trên xác suất thống kê – tức là chọn đáp án do nhiều người đưa ra – để phản hồi, nhưng chính ChatGPT cho biết, cách thức hoạt động rất phức tạp. Nó phức tạp hơn thế khi dựa vào các mô hình học sâu để có thể học sâu và tổng hợp các câu trả lời từ kiến thức mà nó học được. Vậy câu trả lời của OpenAI như thế nào?
Nó giống như huấn luyện một con chó
Theo bài đăng của OpenAI, không giống như phần mềm thông thường, các mô hình AI của họ là các mạng thần kinh nhân tạo khổng lồ. Những mô hình đó hoạt động dựa trên thực tế là chúng học một lượng lớn dữ liệu trên quy mô lớn, thay vì được lập trình rõ ràng. Mặc dù không phải là một so sánh hoàn hảo, nhưng quá trình này giống như huấn luyện một con chó hơn là lập trình thông thường.
Sơ đồ đào tạo ChatGPT. Ảnh của OpenAI.
Đầu tiên là giai đoạn “Đào tạo trước”, một quá trình giúp mô hình học cách dự đoán từ tiếp theo trong câu, khi tiếp xúc với nhiều văn bản trên internet (và với vô số văn bản). quan điểm khác nhau).
Ví dụ, họ phải có khả năng hoàn thành câu “thay vì rẽ trái, cô ấy đã rẽ…”. Bằng cách học từ hàng tỷ câu, mô hình của OpenAI học ngữ pháp, sự kiện thế giới và một số khả năng suy luận. Các mô hình cũng tìm hiểu về một số thành kiến xuất hiện trong số hàng tỷ câu đó.
Tiếp theo là quá trình “tinh chỉnh” mô hình bằng cách sử dụng tập dữ liệu hẹp hơn do OpenAI tạo cẩn thận cùng với người đánh giá, theo hướng dẫn mà họ cung cấp. Do không thể dự đoán mọi khả năng con người sẽ tải vào hệ thống trong tương lai nên OpenAI không viết hướng dẫn chi tiết mà chỉ nêu một số danh mục trong hướng dẫn để người đánh giá sử dụng và đánh giá các mẹo. Có thể xảy ra đối với một số ví dụ đầu vào. Sau đó, trong quá trình sử dụng, các mô hình tổng quát hóa từ phản hồi của người dùng để trả lời các câu hỏi từ người dùng.
Trong một số trường hợp, OpenAI hướng dẫn người đánh giá đưa ra phản hồi chẳng hạn như “không hoàn thành các yêu cầu về nội dung bất hợp pháp hoặc tránh đưa ra ý kiến về các chủ đề gây tranh cãi“. Một phần quan trọng của quá trình tinh chỉnh là duy trì vòng phản hồi mạnh mẽ với người đánh giá, để trả lời các câu hỏi và làm rõ hướng dẫn của họ. Theo OpenAI, vòng phản hồi này là cách họ huấn luyện mô hình ngày càng tốt hơn.
Trí tuệ nhân tạo và nhân cách nhân tạo
Một lời giải thích trên blog OpenAI về cách thức hoạt động của ChatGPT mang đến cái nhìn rõ ràng hơn về điều gì tạo nên chatbot AI này. Tiếp xúc với hàng tỷ câu trong tập dữ liệu giúp mô hình AI này học cách viết một câu hoàn chỉnh – điều này mang lại cho nó cả khả năng hiểu các câu hỏi do người dùng đặt ra cũng như khả năng tạo câu hỏi của chính nó. tạo câu để thể hiện hiểu biết sâu sắc để trả lời câu hỏi của người dùng.
Bên cạnh đó, dung lượng khổng lồ của bộ dữ liệu cũng cho phép ChatGPT nắm bắt được một số sự thật về thế giới và một số khả năng suy luận, từ đó đưa ra câu trả lời cho người dùng, thay vì chỉ dựa trên thống kê các câu có sẵn, chồng chéo trong khối dữ liệu.
Điều này gần như có nghĩa là kích thước khối dữ liệu sẽ quyết định độ thông minh của mô hình AI, vì nó cung cấp cho nó nhiều kiến thức hơn để học. Việc ChatGPT chạy trên GPT-3, mô hình dữ liệu có số tham số lớn thứ hai thế giới hiện nay, bỏ xa các đối thủ được xem là lời giải thích cho khả năng của AI chatbot này.
Nhưng những hướng dẫn về cách tinh chỉnh mô hình của OpenAI cũng như hiệu suất của nhóm người đánh giá – hay còn gọi là người đánh giá – đối với mô hình AI này mới là điều làm nên đặc điểm của nó.
Nếu bạn đã từng sử dụng ChatGPT, có lẽ bạn sẽ cảm nhận được điều này trong các phản hồi “ba phải” của nó đối với các vấn đề gây tranh cãi. Điều này được thể hiện trong hướng dẫn đào tạo của OpenAI khi yêu cầu chatbot này tránh đưa ra ý kiến về các chủ đề gây tranh cãi.
Nhưng một thủ thuật gần đây đã chỉ ra rằng hoàn toàn có thể lách luật và hướng dẫn này để biến ChatGPT thành một phiên bản đáng sợ hơn, với những câu trả lời có quan điểm rõ ràng hơn. vì thái độ ba phải như trước.
Điều tương tự cũng có thể thấy trong chatbot Bing mới ra mắt gần đây của Microsoft. Thay vì những câu trả lời ba đúng như ChatGPT, những câu trả lời của Bing Chat có phần gay gắt và cứng đầu hơn, thậm chí không thừa nhận sai lầm và tranh cãi với người dùng. Có thể nói không ngoa rằng chính những hướng dẫn, quy tắc của người tạo mô hình sẽ ảnh hưởng đến “nhân cách nhân tạo” của mỗi AI chatbot.
Link nguồn: https://cafef.vn/nghe-openai-giai-thich-can-ke-ve-cach-huan-luyen-chatgpt-giong-nhu-huan-luyen-mot-chu-cho-20230218172213348.chn