Dựa trên hồ sơ công ty đại chúng của Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC), Patronus AI – startup chuyên đánh giá sức mạnh của các mô hình ngôn ngữ lớn (LLM), đã xây dựng bộ dữ liệu gồm hơn 10.000 câu hỏi và đáp án liên quan. Một số câu hỏi yêu cầu AI trích xuất dữ liệu, thực hiện các phép tính và suy luận đơn giản.
Bốn mô hình LLM mạnh nhất hiện nay, như GPT-4 và GPT-4-Turbo của OpenAI, Claude 2 của Anthropic và Llama 2 của Meta, thực hiện bài kiểm tra 150 câu hỏi được trích xuất từ bộ dữ liệu trên.
Kết quả cho thấy không có mô hình nào thể hiện được khả năng xử lý phân tích như mong đợi. Cụ thể, phiên bản OpenAI mạnh mẽ nhất là GPT-4-Turbo có tới 88% câu trả lời sai ở chế độ không truy cập dữ liệu và chỉ đạt tỷ lệ chính xác 85% khi trợ lý con người chỉ vào phân đoạn. văn bản cụ thể để tìm câu trả lời.
Llama 2, mô hình AI mã nguồn mở do Meta phát triển, dẫn đầu trong tình trạng “ảo ảnh”, trả lời sai tới 70%, chỉ đúng 19% ngay cả khi được cấp quyền truy cập vào dữ liệu.
Trong khi đó, khi bước vào những “bối cảnh dài hơn”, Claude 2 của Anthropic thể hiện tương đối tốt, với thành tích 75% trả lời đúng, 21% trả lời sai và 3% từ chối trả lời. Trong bài kiểm tra này, GPT-4-Turbo đã trả lời đúng 79% câu hỏi và trả lời sai 17% trong số đó.
Anand Kannappan, đồng sáng lập Patronus AI cho biết: “Tỷ lệ hiệu suất đó là hoàn toàn không thể chấp nhận được”. “Tỷ lệ trả lời đúng phải cao hơn nhiều để được tự động hóa và sẵn sàng sản xuất.”
Phát hiện này cho thấy vẫn còn một chặng đường dài trước khi các mô hình AI có thể được tích hợp vào các ngành được quản lý chặt chẽ như tài chính, cho dù là trong quy trình dịch vụ khách hàng hay nghiên cứu đổi mới.
Khả năng trích xuất dữ liệu nhanh chóng và thực hiện phân tích báo cáo tài chính cơ bản là một trong những ứng dụng hứa hẹn nhất mà chatbot AI có thể hỗ trợ con người trong lĩnh vực tài chính cạnh tranh.
Các tập đoàn lớn đang đổ tiền vào việc phát triển các mô hình AI của riêng họ để xử lý khối dữ liệu tài chính khổng lồ, chẳng hạn như Bloomberg LP đang tìm cách sử dụng AI để phân tích các tiêu đề tài chính. Trong khi đó, JPMorgan xây dựng một công cụ đầu tư tự động được hỗ trợ bởi AI. Một dự báo gần đây của McKinsey cho biết AI có thể tạo ra có thể thúc đẩy ngành ngân hàng thêm hàng nghìn tỷ đô la mỗi năm.
Tuy nhiên, chặng đường này vẫn còn khá xa. Khi Microsoft lần đầu tiên ra mắt Bing Chat tích hợp GPT của OpenAI, họ đã sử dụng chatbot để tóm tắt các thông cáo báo chí về thu nhập. Giới quan sát nhanh chóng nhận ra những con số mà AI trả lời là sai lệch, thậm chí là bịa đặt.
“Những sai sót như vậy là không thể chấp nhận được, đặc biệt là trong những ngành có quy định chặt chẽ. Đồng sáng lập Qian cho biết tỷ lệ lỗi 1 trên 20 là không đủ.
Tuy nhiên, Kannappan vẫn bày tỏ sự lạc quan về sự phát triển của công nghệ trong thời gian tới. “Các mô hình sẽ ngày càng hoàn thiện hơn theo thời gian. Chúng tôi kỳ vọng rằng về lâu dài, hầu hết các công việc đều có thể được tự động hóa. Nhưng các công ty gần như chắc chắn vẫn sẽ phải có trợ lý con người để giúp AI thực hiện công việc của mình.”
Một phần thách thức của việc kết hợp LLM vào các sản phẩm thực là các thuật toán không mang tính xác định, nghĩa là chúng không được đảm bảo trả về cùng một kết quả ngay cả với cùng một đầu vào. Điều này có nghĩa là các công ty cần thực hiện kiểm tra nghiêm ngặt hơn để đảm bảo rằng AI hoạt động chính xác, không lạc đề và cung cấp kết quả đáng tin cậy.
Đại diện OpenAI chỉ ra các nguyên tắc sử dụng AI, trong đó cấm đưa ra lời khuyên tài chính phù hợp bằng cách sử dụng các mô hình của OpenAI mà không có người đủ trình độ xem xét thông tin và yêu cầu bất kỳ ai sử dụng mô hình OpenAI trong ngành tài chính đều phải đưa ra tuyên bố từ chối trách nhiệm về những hạn chế của AI. Chính sách sử dụng của OpenAI cũng nêu rõ rằng các mô hình của OpenAI không được tinh chỉnh để cung cấp lời khuyên tài chính.
Link nguồn: https://cafef.vn/con-xa-ai-moi-co-the-doc-bao-cao-tai-chinh-18823122113304909.chn