Tại một ngôi làng nhỏ cách Bangalore ba giờ về phía tây nam, Preethi P. ngả người nhẹ nhàng trên một chiếc ghế đẩu. Thông thường, cô sẽ dành hàng giờ để may quần áo ở đây; Trung bình, họ kiếm được ít hơn 1 USD/ngày cho công việc của mình. Ngày nay, thay vì loay hoay với đống vải, Preethi P. cầm điện thoại trên tay, đọc to từng dòng bằng tiếng mẹ đẻ và ghi vào ứng dụng trên điện thoại thông minh của mình.
Cô gái trẻ nằm trong số 70 người dân địa phương được công ty khởi nghiệp Karya thuê để thu thập dữ liệu văn bản, giọng nói và hình ảnh. Đáng chú ý, Preethi được trả lương rất cao, ít nhất là theo tiêu chuẩn địa phương.
Sau ba ngày làm việc với Karya, Preethi kiếm được 4.500 rupee (54 USD), gấp hơn 4 lần số tiền mà một học sinh trung học 22 tuổi có thể kiếm được từ công việc may vá. Chia sẻ với Bloomberg, cô cho biết số tiền này chỉ đủ để trả góp hàng tháng cho gia đình.
“Tất cả những gì tôi cần là điện thoại và internet,” Preethi nói.
Karya được thành lập vào năm 2021, sau sự trỗi dậy điên cuồng của AI nói chung. Theo cơ quan thương mại ngành công nghệ Nasscom, Ấn Độ dự kiến sẽ có gần 1 triệu người làm những công việc giống Preethi vào năm 2030. Karya được cho là có khả năng tạo ra sự khác biệt vì công ty sẵn sàng trả mức thù lao cực kỳ hào phóng cho phụ nữ nông thôn nghèo . Startup này cũng cam kết tạo ra kho dữ liệu ngôn ngữ Ấn Độ với chất lượng tốt hơn và đa dạng hơn, từ đó khuyến khích nhiều công ty công nghệ chi tiền hơn.
“Hàng năm, các công ty công nghệ lớn chi hàng tỷ USD để thu thập dữ liệu đào tạo cho các mô hình machine learning và AI. Trả lương thấp cho công việc như vậy là sự thất bại của ngành”, Manu Chopra, kỹ sư máy tính 27 tuổi, tốt nghiệp Đại học Stanford, nói với Bloomberg. Đây cũng là kẻ đứng sau thành công của Karya.
Giờ đây, một số tên tuổi lớn nhất ở Thung lũng Silicon đang tiếp cận Karya để giải quyết một trong những thách thức lớn nhất mà các sản phẩm AI phải đối mặt: tìm kiếm dữ liệu chất lượng cao để xây dựng các công cụ giúp phục vụ tốt hơn hàng tỷ người dùng tiềm năng không nói tiếng Anh. Điều này cho thấy sự thay đổi mạnh mẽ trong ngành dữ liệu cũng như mối quan hệ của Thung lũng Silicon với các nhà cung cấp dữ liệu.
Đặc biệt, Tập đoàn Microsoft còn hợp tác với Karya để mua dữ liệu giọng nói địa phương cho các sản phẩm AI, trong khi Quỹ Bill & Melinda Gates bắt tay với Karya để giảm thiểu sự mất cân bằng giới tính trong dữ liệu được cung cấp. cho các mô hình ngôn ngữ lớn. Google cũng đang dựa vào Karya và các đối tác địa phương để thu thập dữ liệu giọng nói ở 85 quận của Ấn Độ.
“Ấn Độ là quốc gia châu Á đầu tiên nơi chúng tôi thực hiện việc này và Google đang thử nghiệm Bard bằng 9 ngôn ngữ Ấn Độ. Nhiều ngôn ngữ chưa có sẵn trong kho kỹ thuật số. Vấn đề quá nghiêm trọng”, Manish Gupta, người đứng đầu Google Research ở Ấn Độ cho biết.
Theo các chuyên gia, khi sử dụng cho các ngôn ngữ Nam Á, một số mô hình gặp khó khăn về ngữ pháp cơ bản. Cũng có những lo ngại rằng các dịch vụ AI này có thể phản ánh quan điểm sai lệch về các nền văn hóa. Đáp lại, Mehran Sahami, giáo sư khoa khoa học máy tính tại Đại học Stanford, cho biết điều quan trọng là phải đa dạng hóa dữ liệu đào tạo, bao gồm cả dữ liệu không phải tiếng Anh, để các hệ thống AI “không duy trì những định kiến có hại, đáng ghét”.
Karya mở rộng vốn ngôn ngữ bằng cách nhắm mục tiêu cụ thể đến tầng lớp lao động nông thôn. Hơn 32.000 công nhân đã đăng nhập vào ứng dụng, hoàn thành 40 triệu tác vụ kỹ thuật số phải trả phí như nhận dạng hình ảnh, căn chỉnh đường viền, chú thích video hoặc giọng nói. Đối với Manu Chopra, mục tiêu không chỉ đơn giản là cải thiện dữ liệu mà còn giúp xóa đói giảm nghèo.
Người sáng lập Manu Chopra lớn lên ở một vùng quê nghèo tên là Shakur Basti, và nhờ nỗ lực của mình, ông đã vào được Đại học Stanford. Sau khi tốt nghiệp, anh bắt đầu nhận ra niềm đam mê của mình: sử dụng công nghệ để giải quyết tình trạng đói nghèo ở quê hương.
“Chỉ cần tiết kiệm được 1.500 USD, một người Ấn Độ đủ điều kiện gia nhập tầng lớp trung lưu. Tuy nhiên, người nghèo có thể phải mất tới 200 năm mới đạt được mức tiết kiệm đó”, Manu Chopra nói.
Chia sẻ với Bloomberg, Chopra cho biết Microsoft đã phải trả một số tiền rất lớn để thu thập dữ liệu giọng nói cho hệ thống nghiên cứu AI của mình. Tuy nhiên, chất lượng rất thấp.
Karya có thể giải quyết vấn đề này. Công ty khởi nghiệp do Chopra sáng lập đã thu thập được 10.000 giờ dữ liệu giọng nói Marathi dành riêng cho các dịch vụ AI của Microsoft. Chúng cũng được đọc bởi cả giọng nam và giọng nữ, từ năm vùng khác nhau.
Saikat Guha, nhà nghiên cứu tại Microsoft Research India, cho biết ông đã sử dụng nội dung của Karya để thực hiện dự án giúp người khiếm thị tìm được việc làm. “Chất lượng dữ liệu tốt hơn nhiều so với bất kỳ nguồn nào khác. Nếu bạn trả lương công bằng cho người lao động, họ sẽ đầu tư nhiều hơn, nỗ lực nhiều hơn và cuối cùng dữ liệu sẽ có chất lượng tốt hơn”, Saikat Guha nói.
Tham vọng của Karya không dừng lại ở Ấn Độ. Công ty cho biết họ đang đàm phán để bán nền tảng này như một dịch vụ cho các tổ chức ở Châu Phi và Nam Mỹ.
Giờ đây, phụ nữ ở Yelandur, một ngôi làng khác phía tây nam Bangalore, đang háo hức chờ đợi dự án tiếp theo của Karya. Shambhavi S., 25 tuổi, cũng nằm trong số đó. Cô gái trẻ kiếm được vài nghìn rupee từ công việc giống như Preethi P.
“Tôi không biết trí tuệ nhân tạo là gì, chưa từng nghe đến nó. Tôi chỉ muốn kiếm tiền và giáo dục con cái đàng hoàng”, Shambhavi S tâm sự.
Dựa theo: Bloomberg
Link nguồn: https://cafef.vn/google-microsoft-dat-cuoc-vao-chang-trai-nong-thon-27-tuoi-la-cuu-sinh-vien-stanford-khao-khat-xoa-doi-giam-ngheo-cho-que-huong-nho-ai-188231106153403485.chn