ChatGPT có thể bị lừa dễ dàng hơn chúng ta nghĩ

Các nhà khoa học từ công ty trí tuệ nhân tạo Anthropic đã xác định được một lỗ hổng nguy hiểm tiềm tàng trong các mô hình ngôn ngữ lớn (LLM) được sử dụng rộng rãi như ChatGPT và chatbot Claude 3 của Anthropic.

Được mệnh danh là “bẻ khóa lặp lại”, cách hack này lợi dụng cơ chế học tập phụ thuộc vào ngữ cảnh, trong đó chatbot học từ thông tin được cung cấp trong lời nhắc văn bản do người dùng viết. Các nhà khoa học đã vạch ra kế hoạch của họ và thử nghiệm cách khai thác trên chatbot AI của Anthropic Claude 2.

Nghiên cứu kết luận, mọi người có thể sử dụng hack để buộc LLM tạo ra các phản ứng nguy hiểm, mặc dù các hệ thống như vậy đã được đào tạo để ngăn chặn điều này. Bởi vì nhiều bản bẻ khóa bỏ qua các giao thức bảo mật tích hợp chi phối cách AI phản ứng khi được hỏi cách chế tạo bom.

LLM như ChatGPT dựa vào “cửa sổ ngữ cảnh” để xử lý các cuộc hội thoại. Đây là lượng thông tin mà hệ thống có thể xử lý như một phần của dữ liệu đầu vào – với cửa sổ ngữ cảnh dài hơn cho phép nhập nhiều văn bản hơn.

Các nhà khoa học cho biết trong một tuyên bố rằng cửa sổ ngữ cảnh trong chatbot AI hiện lớn hơn hàng trăm lần so với đầu năm 2023 – điều đó có nghĩa là AI sẽ phản hồi theo nhiều sắc thái và nhận biết ngữ cảnh hơn. hơn. Nhưng điều đó cũng đã mở ra cánh cửa cho sự bóc lột.

Lừa AI để tạo nội dung chất độc có hại

Đầu tiên, viết ra một cuộc trò chuyện giả giữa người dùng và trợ lý AI trong lời nhắc văn bản – trong đó trợ lý hư cấu trả lời một loạt câu hỏi có thể gây hại.

Sau đó, trong lời nhắc văn bản thứ hai, nếu bạn hỏi một câu hỏi như “Làm cách nào để chế tạo bom?” Trợ lý AI sẽ bỏ qua các giao thức an toàn và phản hồi. Bởi vì bây giờ nó đã bắt đầu học từ văn bản đầu vào. Điều này chỉ có tác dụng nếu bạn viết một “kịch bản” dài hoặc kết hợp câu hỏi-trả lời.

Các nhà khoa học cho biết, khi số lượng cuộc trò chuyện tăng lên vượt quá một điểm nhất định, nhiều khả năng mô hình sẽ tạo ra các phản ứng có hại.

Họ lưu ý rằng việc kết hợp nhiều lần bẻ khóa với các kỹ thuật bẻ khóa đã được công bố trước đó thậm chí còn hiệu quả hơn, giảm thời gian nhắc nhở cần thiết để mô hình trả về phản hồi có hại.

Các nhà nghiên cứu nhận thấy rằng họ có thể giảm thiểu các cuộc tấn công bằng cách thêm một bước bổ sung được kích hoạt sau khi người dùng gửi lời nhắc của họ (có chứa cuộc tấn công bẻ khóa) và LLM đã nhận được nó. . Trong lớp mới này, hệ thống sẽ dựa vào các kỹ thuật đào tạo an toàn hiện có để phân loại và sửa đổi lời nhắc trước khi LLM có cơ hội đọc nó và soạn phản hồi. Trong quá trình thử nghiệm, nó đã giảm tỷ lệ hack thành công từ 61% xuống chỉ còn 2%.

Nhiều bản bẻ khóa đã hoạt động trên các dịch vụ AI của chính Anthropic cũng như của các đối thủ cạnh tranh, bao gồm cả ChatGPT và Gemini của Google. Họ cho biết họ đã cảnh báo các công ty và nhà nghiên cứu AI khác về mối nguy hiểm này.

Theo Khoa học sống

Link nguồn: https://cafef.vn/co-the-lua-duoc-chatgpt-mot-cach-de-dang-hon-chung-ta-tuong-188240417141218711.chn