Mô hình AI còn xa lạ với nhiều người dùng Việt lần đầu tiên vượt qua GPT-4 trên bảng xếp hạng “thông minh”.

Vào thứ Ba, mô hình ngôn ngữ lớn tiên tiến (LLM) Claude 3 Opus của Anthropic đã đạt được một cột mốc quan trọng khi vượt qua GPT-4 của OpenAI trong bảng xếp hạng Chatbot Arena được công nhận rộng rãi. được cộng đồng nghiên cứu AI làm công cụ đánh giá khả năng của các mô hình ngôn ngữ AI. Sự kiện này đã thu hút sự chú ý lớn trong giới công nghệ, với Nick Dobos, một nhà phát triển phần mềm, bày tỏ sự ghi nhận này qua tweet, tuyên bố “Nhà vua đã chết” và kèm theo thông báo. thông điệp “Yên nghỉ nhé, GPT-4,” phản ánh sự chấm dứt sự thống trị của GPT-4 trên diễn đàn này.

Kể từ khi được giới thiệu vào Chatbot Arena vào khoảng ngày 10 tháng 5 năm 2023, GPT-4 và các biến thể của nó đã duy trì vị trí dẫn đầu cho đến thời điểm này. Điều này khiến sự xuất hiện của Claude 3 Opus trở thành một sự kiện đáng chú ý, đánh dấu một thời điểm quan trọng trong lịch sử phát triển của AI. Simon Willison, một nhà nghiên cứu AI độc lập, đã nhấn mạnh tầm quan trọng của tính đa dạng trong lĩnh vực này, lưu ý rằng lần đầu tiên, những mô hình tốt nhất – Opus cho các nhiệm vụ nâng cao và Haiku cho chi phí và hiệu quả – đến từ một tổ chức không phải OpenAI.

"Nhà vua đã qua đời": Mô hình AI còn xa lạ với nhiều người dùng Việt lần đầu tiên vượt qua GPT-4 trên bảng xếp hạng 'thông minh' - Ảnh 1.

Đấu trường Chatbot được vận hành bởi Tổ chức Hệ thống Mô hình Lớn (LMSYS ORG) – tổ chức nghiên cứu tập trung vào các mô hình mở, là nơi thu hút sự quan tâm đặc biệt từ hoạt động nghiên cứu và phát triển AI. Trang web này cung cấp một cơ chế đánh giá độc đáo trong đó người dùng được yêu cầu so sánh và đánh giá chất lượng đầu ra của hai LLM không được gắn nhãn, từ đó xác định mô hình nào tốt hơn. Thông qua hàng ngàn so sánh như vậy, Chatbot Arena xác định và cập nhật thứ hạng của các mô hình AI dựa trên những đánh giá tổng hợp.

Trang web này đóng vai trò không thể thiếu trong việc cung cấp một phương pháp khách quan và đáng tin cậy để đánh giá chất lượng của các mô hình ngôn ngữ lớn, đặc biệt khi việc đánh giá chất lượng của chatbot AI là một thách thức. do sự đa dạng và không đồng nhất của sản phẩm. Sự nổi bật của Claude 3 Opus trên Chatbot Arena không chỉ là bước tiến lớn của Anthropic mà còn là dấu hiệu cho thấy sự cạnh tranh ngày càng gia tăng trong lĩnh vực công nghệ AI, mở ra những cơ hội và thách thức mới cho OpenAI và các đối tác khác trong việc phát triển các mô hình ngôn ngữ lớn tiếp theo. .

"Nhà vua đã qua đời": Mô hình AI còn xa lạ với nhiều người dùng Việt lần đầu tiên vượt qua GPT-4 trên bảng xếp hạng 'thông minh' - Ảnh 2.

Dự kiến vào mùa hè này, OpenAI có kế hoạch ra mắt phiên bản tiếp theo của mô hình ngôn ngữ lớn (LLM), có thể được gọi là GPT-4.5 hoặc GPT-5, như một bản nâng cấp đáng kể cho ChatGPT hiện tại. Sự ra đời của phiên bản này được xem là một bước tiến quan trọng, sau sự thành công và được chấp nhận rộng rãi của các phiên bản GPT-4 trước đó. Các phiên bản này bao gồm GPT-4-0314, là phiên bản “gốc” được phát hành vào tháng 3 năm 2023; GPT-4-0613, bản cập nhật với “cải thiện chức năng hỗ trợ cuộc gọi” được giới thiệu vào ngày 13 tháng 6 năm 2023; GPT-4-1106-preview, phiên bản của GPT-4 Turbo sẽ ra mắt vào tháng 11 năm 2023; và GPT-4-0125-preview, mẫu GPT-4 Turbo mới nhất được phát triển để giảm bớt trường hợp “lười biếng”, ra mắt vào tháng 1 năm 2024.

Trong bối cảnh cạnh tranh ngày càng tăng trong không gian trợ lý AI, các mẫu Claude 3 của Anthropic đã chứng tỏ được sức mạnh với người dùng, leo lên bảng xếp hạng và thậm chí còn đe dọa đến thị phần của ChatGPT. Việc người dùng di chuyển từ ChatGPT sang Claude 3 được Pietro Schirano, một nhà phát triển phần mềm, trên X (trước đây là Twitter) nhận xét là “điều điên rồ nhất” trong cuộc thi này.

Với Claude 3, Anthropic cam kết cải thiện đáng kể khả năng trả lời câu hỏi, hiểu các hướng dẫn phức tạp và tăng cường hiểu biết theo ngữ cảnh, cho phép bạn xử lý thông tin chính xác và linh hoạt hơn. Bản thân Claude 3 được chia thành ba phiên bản: Haiku, Sonnet và Opus, trong đó Opus là phiên bản cao cấp nhất, được mô tả là “mô hình AI lớn nhất và thông minh nhất”. Hiện tại, Opus và Sonnet có sẵn trên trang web claude.ai và thông qua API của nó, trong khi Haiku sẽ sớm có mặt. Cả ba phiên bản đều được thiết kế để hỗ trợ các ứng dụng như chatbot và trích xuất dữ liệu.

Sự cải thiện so với các phiên bản trước của Claude là khá rõ ràng, trong bối cảnh các mẫu AI trước đây gặp khó khăn khi trả lời một số lệnh mơ hồ do khả năng hiểu ngôn ngữ còn hạn chế. bối cảnh. Các mô hình mới hiện ít có khả năng từ chối đáp ứng các yêu cầu hơn, phản ánh sự tiến bộ đáng kể trong việc duy trì các tiêu chuẩn an toàn mà không làm giảm hiệu quả tương tác.

Anthropic cũng tự tin khẳng định rằng các mẫu Claude 3 cung cấp tốc độ phản hồi gần như ngay lập tức, ngay cả khi phải đối mặt với các tài liệu phức tạp. Claude 3 “Haiku” nổi bật là một giải pháp nhanh chóng, tiết kiệm chi phí, có khả năng xử lý các tài liệu nghiên cứu chứa đầy đồ thị và hình ảnh trong vòng chưa đầy ba giây. Đặc biệt hơn, phiên bản Opus còn thể hiện khả năng suy luận vượt trội so với các mẫu cạnh tranh, trong đó có GPT-4 của OpenAI, trong các bài đánh giá phức tạp như bài kiểm tra trình độ. Sau đại học.

Ngoài ra, mô hình tương tự của Google, Gemini Advanced, cũng đang ngày càng nhận được sự chú ý, cho thấy sự cạnh tranh trong không gian này vượt xa OpenAI và Anthropic. Tuy nhiên, trong khi đối mặt với những thách thức ngắn hạn, OpenAI đang chủ động chuẩn bị cho tương lai bằng cách phát triển và sẵn sàng giới thiệu phiên bản kế nhiệm mạnh mẽ cho GPT-4 Turbo. Lần ra mắt dự kiến này không chỉ đánh dấu bước tiến mới của công nghệ AI mà còn mở ra hứa hẹn về những thay đổi thú vị và đáng chú ý trên bảng xếp hạng Chatbot Arena trong thời gian tới.

Link nguồn: https://cafef.vn/nha-vua-da-bang-ha-mo-hinh-ai-con-xa-la-voi-nhieu-nguoi-dung-viet-lan-dau-tien-vuot-qua-gpt-4-tren-bang-xep-hang-do-thong-minh-188240330065609625.chn