Alibaba đang đặt mục tiêu nâng cao tiêu chuẩn phát triển AI bằng cách tung ra một bộ mô hình ngôn ngữ lớn (LLM) dành riêng cho toán học có tên là Qwen2-Math. Gã khổng lồ thương mại điện tử này cho biết bộ mô hình này có thể hoạt động tốt hơn GPT-4o.
Nhóm Qwen đã chia sẻ gần đây trên nền tảng dành cho nhà phát triển GitHub rằng: “Trong năm qua, chúng tôi đã nỗ lực đáng kể trong việc nghiên cứu và cải thiện khả năng suy luận của các mô hình ngôn ngữ lớn, đặc biệt tập trung vào khả năng giải quyết các bài toán số học”.
Các mô hình ngôn ngữ lớn của Alibaba đã được phát hành vào tháng 6. Các mô hình này có ba phiên bản, khác nhau về số lượng tham số mà chúng sử dụng. Các tham số là các biến giúp AI học cách tạo ra đầu ra chính xác từ dữ liệu đã cho.
Theo bài đăng của nhóm Qwen, mô hình có số lượng tham số lớn nhất, Qwen2-Math-72B-Instruct, đã vượt trội hơn các LLM độc quyền do Hoa Kỳ phát triển về các biện pháp đánh giá khả năng toán học. Các LLM đó bao gồm GPT-4o, Claude 3.5 Sonnet của Anthropic, Gemini 1.5 Pro của Google và Llama-3.1-405B của Meta Platforms.
Nhóm phát triển cho biết: “Chúng tôi hy vọng Qwen2-Math có thể đóng góp cho cộng đồng trong việc giải quyết các vấn đề toán học phức tạp”.
Theo bài đăng, các mô hình AI Qwen2-Math đã được thử nghiệm trên cả chuẩn toán tiếng Anh và tiếng Trung. Bao gồm GSM8K, một tập dữ liệu gồm 8.500 bài toán tiểu học nâng cao đa dạng về mặt ngôn ngữ; OlympiadBench, một chuẩn khoa học đa phương thức song ngữ cấp cao; và gaokao, kỳ thi tuyển sinh đại học nổi tiếng khó khăn của Trung Quốc.
Vào tháng 7, Qwen2-72B-Instruct chỉ xếp sau GPT-4o và Claude 3.5 Sonnet trong bảng xếp hạng LLM của SuperClue, một nền tảng đánh giá các mô hình dựa trên các thông số như sức mạnh tính toán, suy luận logic, mã hóa và hiểu văn bản, cùng nhiều thông số khác.
Theo SuperClue, khoảng cách giữa các mô hình AI của Trung Quốc và Hoa Kỳ dường như đang thu hẹp khi Trung Quốc đã đạt được tiến bộ đáng kể trong việc phát triển LLM trong nước trong nửa đầu năm nay.
Một bài kiểm tra riêng biệt được công bố vào tháng 7 bởi LMSYS — một tổ chức nghiên cứu mô hình AI được Đại học California, Berkeley hỗ trợ — cho thấy Qwen2-72B xếp thứ 20, trong khi các mô hình độc quyền từ OpenAI, Anthropic và Google chiếm hầu hết 10 vị trí đầu.
Link nguồn: https://cafef.vn/trung-quoc-ra-mat-ai-chuyen-toan-muc-tieu-vuot-chatgpt-va-gemini-188240812061806684.chn