Apple đang âm thầm tiến nhanh hơn trong lĩnh vực trí tuệ nhân tạo tổng hợp, vừa đạt được bước đột phá mới, mô hình ngôn ngữ lớn đa phương tiện MM1. Tiến bộ này được mô tả trong một bài nghiên cứu mới có tiêu đề “MM1: Phương pháp, phân tích và hiểu biết sâu sắc từ việc đào tạo trước các mô hình ngôn ngữ đa phương tiện lớn”, cho thấy khả năng ấn tượng về nhận dạng hình ảnh và suy luận dựa trên ngôn ngữ tự nhiên.
Mẫu MM1 sẽ có 3 size gồm thông số 3 tỷ, 7 tỷ và 30 tỷ. Các nhà nghiên cứu đã sử dụng những mô hình này để thực hiện các thí nghiệm, xác định các yếu tố chính ảnh hưởng đến hiệu suất. Điều thú vị là, khác với các bộ dữ liệu được đào tạo trước khác, đối với MM1, độ phân giải và số lượng thẻ gắn trên hình ảnh có ảnh hưởng lớn đến hiệu suất của mô hình, lớn hơn nhiều so với các ngôn ngữ và hình ảnh kết nối khác.
![Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 1. Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 1.](https://diaocthoibao.com/wp-content/uploads/2024/03/ra-mat-mo-hinh-AI-moi-giup-xoa-mo-khoang.png; charset=utf-8)
Nhóm đã xây dựng MM1 một cách tỉ mỉ bằng cách sử dụng kiến trúc “Kết hợp các chuyên gia” và phương pháp “Top-2 Gating”. Cách tiếp cận này không chỉ mang lại kết quả xuất sắc trong các tiêu chuẩn được đào tạo trước mà còn mang lại hiệu suất mạnh mẽ trên các tiêu chuẩn đa phương tiện hiện có. Ngay cả sau khi được tinh chỉnh cho các tác vụ cụ thể, mẫu MM1 vẫn duy trì hiệu suất rất vượt trội.
“Chúng tôi chứng minh rằng để đào tạo trước các mô hình đa phương thức quy mô lớn, việc sử dụng kết hợp tỉ mỉ giữa dữ liệu chú thích hình ảnh, văn bản hình ảnh xen kẽ và chỉ văn bản thuần túy là rất quan trọng để đạt được kết quả tiên tiến trên nhiều điểm chuẩn”, các nhà nghiên cứu giải thích. Bằng cách đào tạo các mô hình trên một tập dữ liệu đa dạng bao gồm thông tin ngôn ngữ và hình ảnh, mô hình MM1 có thể thực hiện xuất sắc các nhiệm vụ như chú thích hình ảnh, trả lời các câu hỏi bằng hình ảnh và suy luận ngôn ngữ tự nhiên.
![Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 2 Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 2](https://diaocthoibao.com/wp-content/uploads/2024/03/ra-mat-mo-hinh-AI-moi-giup-xoa-mo-khoang.png)
Nhờ bộ dữ liệu đa phương tiện quy mô lớn được đào tạo trước, mẫu MM1 của Apple có thể hiểu được nội dung của bức ảnh, chẳng hạn như đếm số lượng vật thể trong ảnh, thực hiện các phép tính.
![Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 3. Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 3.](https://diaocthoibao.com/wp-content/uploads/2024/03/1710770506_515_ra-mat-mo-hinh-AI-moi-giup-xoa-mo-khoang.png)
Model MM1 có thể đọc văn bản và số trong hình ảnh
Các thử nghiệm cho thấy các mẫu MM1-3B-Chat và MM1-7B-Chat hoạt động tốt hơn hầu hết các đối thủ cạnh tranh có kích thước tương tự trên thị trường. Các mô hình này đặc biệt nổi bật trong các nhiệm vụ như VQAv2 (trả lời câu hỏi dựa trên hình ảnh và văn bản), TextVQA (trả lời câu hỏi dựa trên văn bản về một hình ảnh) và ScienceQA (trả lời câu hỏi dựa trên hình ảnh và văn bản). hỏi khoa học).
Điều đáng ngạc nhiên là dù phiên bản lớn nhất của mô hình MM1 chỉ có 30 tỷ tham số nhưng nó thể hiện khả năng học theo ngữ cảnh tốt, cho phép thực hiện suy luận nhiều bước trên một loạt hình ảnh đầu vào. sử dụng gợi ý “chuỗi suy nghĩ”. Điều này chỉ ra tiềm năng của các mô hình đa phương thức lớn hơn để giải quyết các vấn đề phức tạp, có kết thúc mở thường đòi hỏi sự hiểu biết có căn cứ và sản xuất ngôn ngữ.
![Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 4. Apple đạt được đột phá về Generative AI: ra mắt mô hình AI mới giúp xóa mờ khoảng cách giữa hình ảnh và văn bản - Ảnh 4.](https://diaocthoibao.com/wp-content/uploads/2024/03/1710770507_840_ra-mat-mo-hinh-AI-moi-giup-xoa-mo-khoang.png)
Mô hình thậm chí còn cho thấy khả năng hiểu ngữ cảnh trong hình ảnh, trả lời các câu hỏi về cảm nhận của người xem về những hình ảnh đó.
Tuy nhiên, hiệu suất tổng thể của MM1 chưa thực sự vượt qua mẫu Gemini của Google hay GPT-4V của OpenAI. Mặc dù MM1 chưa phải là người dẫn đầu tuyệt đối nhưng đây vẫn là một bước tiến lớn của Apple trong lĩnh vực trí tuệ nhân tạo tổng hợp. Đầu năm nay, công ty cũng mua lại DarwinAI, startup ứng dụng AI trong kiểm tra chất lượng quy trình sản xuất, giúp nâng cao chất lượng sản phẩm.
Ngoài ra, nhiều nguồn tin trước đây cho biết Apple đang nghiên cứu một framework mô hình hóa ngôn ngữ lớn mang tên “Ajax” cũng như chatbot có tên nội bộ là “Apple GPT”. Mục tiêu là tích hợp các công nghệ này vào Siri, Messages, Apple Music cũng như các ứng dụng và dịch vụ khác.
Apple có lịch sử là người đi sau hiệu quả hơn là người tiên phong trong những bước ngoặt lớn về công nghệ. Nhưng với việc AI có khả năng biến đổi mọi khía cạnh của thế giới kỹ thuật số, áp lực để Apple duy trì vị thế cạnh tranh là rất lớn. Việc công bố MM1 cho thấy Apple có đủ tài năng và nguồn lực để tạo ra những tiến bộ mới, nhưng vẫn sẽ cần thời gian để biết liệu nhà sản xuất iPhone có thể bắt kịp những người tiền nhiệm hay không.
Link nguồn: https://cafef.vn/apple-dat-duoc-dot-pha-trong-ai-tao-sinh-ra-mat-mo-hinh-ai-moi-giup-xoa-nhoa-khoang-cach-giua-hinh-anh-va-van-ban-188240318130216374.chn