Khi trí tuệ nhân tạo có thể "nghe" và "nhìn thấy" con người

Trong vài năm trở lại đây, chatbot AI đã trở thành tâm điểm chú ý của giới công nghệ, đặc biệt là sau sự xuất hiện của ChatGPT vào năm 2022. Tuy nhiên, một làn sóng công nghệ mới đang dần hình thành, tập trung phát triển AI “đa giác quan”. mô hình, có khả năng xử lý thông tin từ nhiều nguồn khác nhau như văn bản, hình ảnh và âm thanh. Xu hướng này hứa hẹn mang đến những trải nghiệm tự nhiên và chân thực hơn cho người dùng khi tương tác với AI.

Đi đầu trong lĩnh vực AI “đa giác quan” là OpenAI với GPT-4 Omni, viết tắt của “omnichannel”. GPT-4 Omni có khả năng xử lý đồng thời video và âm thanh, mở ra nhiều ứng dụng tiềm năng. Trong video giới thiệu, GPT-4 Omni thể hiện khả năng giải toán thông qua camera điện thoại, đồng thời trả lời câu hỏi bằng giọng nói. OpenAI cho biết tính năng này sẽ được triển khai cho người dùng Premium.

Không chịu thua kém, Google cũng giới thiệu Project Astra, một dự án AI “đa giác quan” đầy tham vọng. Project Astra cho phép người dùng tương tác với AI bằng hình ảnh và giọng nói. Dù công nghệ này vẫn đang trong giai đoạn phát triển ban đầu nhưng Google tự tin khẳng định đây chính là tương lai của AI. “Mặc dù chúng tôi đã đạt được tiến bộ đáng kinh ngạc trong việc phát triển hệ thống AI có thể hiểu thông tin đa phương thức, nhưng việc giảm thời gian phản hồi xuống mức đàm thoại là một thách thức. khó khăn về mặt kỹ thuật”, Google chia sẻ trong một bài đăng trên blog.

Sự khác biệt chính giữa GPT-4 Omni và Project Astra nằm ở khả năng xử lý thông tin. GPT-4 Omni có thể xử lý trực tiếp âm thanh, video và văn bản trong khi Project Astra dường như vẫn sử dụng nhiều mô hình AI riêng biệt. Điều này giải thích cho tốc độ phản hồi của Project Astra chậm hơn so với GPT-4 Omni. Sự phát triển của AI “đa giác quan” cũng đang thúc đẩy sự xuất hiện của các thiết bị đeo hỗ trợ AI như Humane AI Battery, Rabbit R1 và Meta Ray-Bans. Những thiết bị này hứa hẹn sẽ giúp mọi người giảm bớt sự phụ thuộc vào điện thoại thông minh.

Vào tháng 12 năm 2023, Google giới thiệu Gemini, một mô hình AI “đa giác quan” khác, nhưng video demo của Gemini bị phát hiện đã chỉnh sửa. 6 tháng sau, Google vẫn chưa sẵn sàng tung ra Gemini, trong khi OpenAI đang tiến nhanh với GPT-4 Omni. Cuộc đua AI “đa giác quan” đang diễn ra vô cùng hấp dẫn và OpenAI dường như đang chiếm thế thượng phong.

AI “đa giác quan” chắc chắn sẽ trở thành một trong những công nghệ được nhắc đến nhiều nhất trong thời gian tới. Công nghệ này có tiềm năng thay đổi cách chúng ta tương tác với AI, mang đến những ứng dụng thiết thực và hiệu quả hơn. AI “đa giác quan” cho phép AI “nhìn” và “nghe” chính thế giới, thay vì phải dựa vào con người để diễn giải thông tin.

Link nguồn: https://cafef.vn/cuoc-dua-ai-da-giac-quan-khi-tri-tue-nhan-tao-da-co-the-nghe-va-nhin-con-nguoi-188240516155058103.chn