Trí tuệ nhân tạo đã và đang có những bước tiến vượt bậc với những hình ảnh tĩnh, được tạo ra từ những “bài toán” văn bản. Trong những tháng kể từ khi ra mắt, các dịch vụ hình ảnh dựa trên văn bản như Dall-E và Stable Diffusion đã tạo ra những bức ảnh đẹp, hấp dẫn với độ chân thực đáng kinh ngạc, khiến nhiều người dùng khó chụp được. phân biệt giữa thực và ảo.
Giờ đây, Runway – một startup có trụ sở tại New York tiếp tục ‘phô diễn’ sức mạnh của trí tuệ nhân tạo lên một tầm cao mới: Tạo video từ văn bản.
Theo đó, đầu tuần này, Runway đã trình làng Gen 2 – một hệ thống AI có thể tạo video từ một vài gợi ý của người dùng. Giống như các công cụ AI khác (như ChatGPT), người dùng chỉ cần nhập mô tả thứ muốn tạo (Ví dụ: Người đi dưới mưa), Gen 2 sẽ tạo ra một video dài khoảng 3 giây, có cảnh trong video. giống hoặc gần giống với nội dung được yêu cầu. Ngoài lời nhắc bằng văn bản, người dùng có thể tải lên hình ảnh làm tài liệu tham khảo cho hệ thống tạo video AI này.

Đoạn video ngắn được tạo dựa trên lời nhắc có nội dung: “Hoàng hôn qua cửa sổ trong một căn hộ ở New York”. Ảnh: Đường Băng
Theo Bloomberg, việc phát hành Gen 2 của Runway cũng đánh dấu lần đầu tiên người dùng đại chúng được chứng kiến khả năng chuyển đổi văn bản thành video do AI cung cấp. Trước Runway, những gã khổng lồ như Google và Meta năm ngoái cũng đã tiết lộ công nghệ chuyển văn bản thành video. Tuy nhiên, các dự án này mới chỉ ở giai đoạn nghiên cứu hoặc chưa được công bố rộng rãi.
Đối với Runway, công ty khởi nghiệp đã làm việc trên các công cụ AI từ năm 2018 và huy động được 50 triệu USD vào cuối năm ngoái. Thật thú vị, Runway thực sự đã giúp tạo ra phiên bản gốc của Stable Diffusion, trước khi công cụ chuyển văn bản thành hình ảnh nổi tiếng này được phổ biến và phát triển thêm bởi công ty Stability AI.
Trong một bản demo trực tiếp độc quyền vào tuần trước với người đồng sáng lập và CEO của Runway, Cris Valenzuela, một phóng viên của Bloomberg đã thử nghiệm Gen 2 bằng cách đưa ra lời nhắc có nội dung: “Cảnh quay bằng máy bay không người lái lái xe đến cảnh quan sa mạc”.

Video được tạo với lời nhắc “Cảnh quay bằng máy bay không người lái về phong cảnh sa mạc”. Ảnh: Đường Băng
Trong vòng vài phút, Gen 2 đã tạo ra một video chỉ dài vài giây với chất lượng hình ảnh kém. Tuy nhiên, nội dung trong video thực sự đạt đến đỉnh cao, với cảnh quay bằng máy bay không người lái trên một khung cảnh sa mạc.
Phóng viên của Bloomberg có thể nhìn rõ bầu trời xanh và những đám mây bồng bềnh phía chân trời, và cảnh bình minh (hoặc có lẽ là hoàng hôn), ở góc bên phải của khung hình video, những tia nắng mặt trời. nó làm nổi bật những đụn cát nâu bên dưới.
Một số video khác mà Runway đã tạo từ lời nhắc của chính nó cho thấy một số điểm mạnh và điểm yếu hiện tại của hệ thống này. Ví dụ: video cận cảnh nhãn cầu trông sắc nét và khá giống con người; trong khi một clip khác quay cảnh một người đi xuyên rừng cho thấy Gen 2 vẫn gặp khó khăn trong việc tạo chuyển động cơ thể và tạo chân tay người chân thực nhất có thể.

Một video ví dụ khác được tạo bởi mô hình Gen-2 của Runway. Lời nhắc văn bản là “Một cảnh quay theo sau một người đi qua bụi rậm trong rừng.” Ảnh: Đường Băng
Như CEO Valenzuela thừa nhận, Gen 2 vẫn chưa hoàn toàn “tìm ra” cách khắc họa chính xác các vật thể chuyển động.
Người sáng lập Runway cho biết: “Bạn có thể tạo ra một cuộc rượt đuổi bằng ô tô, nhưng đôi khi ô tô có thể bay đi mất.
Đáng chú ý, khi các mô hình chuyển văn bản thành hình ảnh như DALL-E hoặc Stable Diffusion có xu hướng ưu tiên các lời nhắc ‘dài dòng’, điều này có thể dẫn đến đầu ra chi tiết hơn, Gen 2 sẽ ra đi. Ở hướng ngược lại.
Theo đó, người dùng cần đưa ra lời nhắc đơn giản nhất có thể với Gen 2. Theo Runway, Gen 2 là một cách cung cấp cho các nghệ sĩ, nhà thiết kế và nhà làm phim một công cụ khác có thể giúp họ. thực hiện các quy trình sáng tạo của nó và làm cho những công cụ đó có giá cả phải chăng và dễ tiếp cận hơn trước đây.
Được biết, Gen 2 được xây dựng dựa trên mô hình AI hiện có tên là Gen 1, được Runway trên Discord thử nghiệm vào tháng 2, với sự tham gia của hàng nghìn người dùng.
Mô hình AI thế hệ 1 yêu cầu người dùng tải video lên làm nguồn đầu vào mà nó sẽ sử dụng (cùng với hướng dẫn người dùng như lời nhắc văn bản hoặc hình ảnh tĩnh) để tạo video không có âm thanh dài 3 giây. . Ví dụ: Bạn có thể tải lên hình ảnh một chú mèo đang đuổi theo món đồ chơi có dòng chữ “xoăn đáng yêu” và Gen 1 sẽ tạo một video về chú mèo có bộ lông “xoăn”. đuổi theo một món đồ chơi.
Các video được tạo bằng mô hình AI Gen 2 hiện không có âm thanh, nhưng Runway cho biết công ty đang nghiên cứu công nghệ tạo âm thanh với hy vọng cuối cùng sẽ tạo ra một hệ thống có thể tạo ra cả hình ảnh và âm thanh.
Hiện tại, Gen 2 vẫn chưa được phổ biến rộng rãi cho tất cả người dùng. Thay vào đó, người dùng sẽ phải đăng ký danh sách chờ để tham gia dùng thử giới hạn.
Tham khảo Bloomberg
Link nguồn: https://cafef.vn/lo-dien-cong-cu-ai-chuyen-van-ban-thanh-video-trong-vai-giay-chi-can-nhap-loi-nhac-se-nhan-lai-noi-dung-theo-dung-yeu-cau-18823032421110021.chn