Khi Microsoft đầu tư 1 tỷ USD vào OpenAI vào năm 2019, họ đã đồng ý xây dựng một siêu máy tính tiên tiến với hiệu suất siêu mạnh cho startup trí tuệ nhân tạo này. Vấn đề duy nhất – Microsoft không có bất kỳ máy tính nào mà OpenAI cần và không chắc họ có thể xây dựng bất kỳ máy tính nào đủ lớn trên đám mây Azure mà không làm hỏng nó.
Khi đó OpenAI đang bắt tay vào đào tạo các mô hình AI lớn, cần hấp thụ một lượng dữ liệu khổng lồ, học ngày càng nhiều tham số và biến trong quá trình đào tạo. Điều đó có nghĩa là OpenAI cần phải có khả năng điện toán đám mây mạnh mẽ trong một thời gian dài.
Siêu máy tính AI từ hàng chục nghìn GPU
Để vượt qua thử thách này, Microsoft đã phải tìm cách liên kết sức mạnh xử lý của hàng chục nghìn GPU Nvidia A100 với nhau — 10.000 USD ngựa thồ dành cho việc huấn luyện các mô hình AI. Số lượng khổng lồ chip đồ họa Nvidia A100 này cũng buộc hãng phải tính đến cách bố trí máy chủ trên tủ rack để đảm bảo nguồn điện không bị quá tải.
Để đào tạo các mô hình AI, tải điện toán được phân bổ cho các hàng GPU được nhóm thành các cụm điện toán kết nối với nhau thông qua mạng băng thông cực cao, độ trễ thấp. ảnh Microsoft.
Dù không tiết lộ chi phí chính xác của dự án này nhưng theo Scott Guthrie, phó chủ tịch mảng đám mây và AI của Microsoft, con số này có thể còn cao hơn vài trăm triệu USD.
Nidhi Chappell, tổng giám đốc cơ sở hạ tầng Azure AI của Microsoft, cho biết:Chúng tôi đã xây dựng một kiến trúc hệ thống có thể hoạt động và trở nên đáng tin cậy trên quy mô lớn. Điều đó đã khiến ChatGPT trở nên khả thi. Có một mô hình xuất hiện từ đó. Sẽ còn rất nhiều mẫu nữa.”
Tuyên bố đó đang dần trở thành hiện thực. Hệ thống được Microsoft xây dựng để đào tạo, vì vậy ChatGPT hiện đang được sử dụng để đào tạo và vận hành các mô hình AI lớn khác, bao gồm cả chatbot Bing Chat mới được giới thiệu vào tháng trước. Ngoài ra, Microsoft cũng bán hệ thống này cho các công ty khác để đào tạo các mô hình của riêng họ.
Việc đào tạo các mô hình AI khổng lồ đòi hỏi một số lượng lớn bộ xử lý đồ họa được kết nối với nhau thành một siêu máy tính AI. Không chỉ vậy, ngay cả việc trả lời các truy vấn của người dùng cũng buộc các mô hình phải suy luận – điều này cũng đòi hỏi sức mạnh tính toán của các chip đồ họa này – nhưng với một chút thay đổi trong thiết kế hệ thống.
Scott Guthrie, phó chủ tịch đám mây và AI của Microsoft. Ảnh Bloomberg
Microsoft cũng có bộ xử lý đồ họa chuyên dụng để suy luận mô hình AI khi trả lời các truy vấn – nhưng hàng trăm nghìn GPU này không tập trung ở một vị trí mà phân tán ở hơn 60 trung tâm dữ liệu. rải rác ở nhiều bộ phận trong công ty. Giờ đây, công ty cũng đang bổ sung GPU mới nhất của Nvidia cho AI – GPU H100 – phiên bản mới nhất có công nghệ lưới Infiniband của Nvidia để chia sẻ dữ liệu tốc độ siêu cao.
…và vô số chi tiết nhỏ không tên
Để xây dựng một hệ thống điện toán đám mây khổng lồ như vậy sẽ cần hàng nghìn thành phần khác nhau – thậm chí cả giá đỡ máy chủ, đường ống, bê tông cho các tòa nhà, tất cả các loại vật liệu. dữ liệu khác nhau – thậm chí một chút chậm trễ trong bất kỳ thành phần nào cũng có thể gây ra lỗi hệ thống.
Gần đây, nhóm lắp đặt đã phải đối phó với tình trạng thiếu máng cáp – những vật dụng giống như cái giỏ lớn dùng để đựng cáp khi đi dây trên trần nhà. Vì vậy, họ phải thiết kế một loại khay cáp mới mà Microsoft có thể tự sản xuất hoặc mua ở nơi khác để bù đắp cho sự thiếu hụt này. Guthrie cũng cho biết công ty đang nghiên cứu các cách để loại bỏ càng nhiều máy chủ càng tốt trong các trung tâm dữ liệu hiện có trên toàn cầu, để họ không phải chờ đợi để xây dựng các tòa nhà mới.
Nvidia H100, “quái vật GPU” với 100 tỷ bóng bán dẫn, 43.000 nhân đồ họa CUDA. ảnh Nvid
Không chỉ vậy, khi siêu máy tính AI trên đám mây Azure của Microsoft bắt đầu hoạt động, đồng nghĩa với việc mọi cỗ máy sẽ bước vào vòng quay của nó cùng một lúc. Để đảm bảo tất cả các máy chạy cùng lúc, Microsoft phải suy nghĩ về vị trí của mọi thứ – từ chip xử lý đến nguồn điện và hệ thống làm mát cho chúng – mọi bộ phận, mọi thành phần phải được đặt đúng chỗ. vị trí phù hợp để hoạt động ổn định.
Nếu không, ông Guthrie nói, trung tâm dữ liệu của bạn sẽ biến thành một tổ hợp khổng lồ giữa lò vi sóng, máy nướng bánh mì và máy hút bụi trong một nhà bếp.
Microsoft vẫn đang phát triển máy chủ, thiết kế chip tùy chỉnh và tối ưu hóa chuỗi cung ứng của mình. Đó là tất cả về việc chuyển thành các cải tiến về tốc độ, hiệu quả và tiết kiệm chi phí nhất có thể.
Ông Guthrie nói:Mô hình AI đang gây choáng váng cho thế giới ngày nay được xây dựng trên siêu máy tính mà chúng ta đã xây dựng từ nhiều năm trước. Các mô hình mới sẽ được xây dựng trên siêu máy tính mới mà chúng tôi đang đào tạo, thậm chí còn lớn hơn và có thiết kế phức tạp hơn.”
Tham khảo Bloomberg
Link nguồn: https://cafef.vn/dang-sau-moi-cau-tra-loi-cua-chatgpt-can-hang-chuc-nghin-gpu-nvidia-a100-de-huan-luyen-hang-tram-nghin-gpu-khac-de-van-hanh-20230314162606543.chn