Elon Musk: Dữ liệu con người dùng để đào tạo AI đã cạn kiệt

Chuyển đổi số - Ngày đăng : 17:29, 10/01/2025

CEO Tesla Elon Musk cho biết, các công ty AI đã cạn kiệt dữ liệu để đào tạo các mô hình AI và khai thác hết kiến thức của con người.

Elon Musk cho rằng, các công ty công nghệ sẽ phải chuyển sang dữ liệu “tổng hợp” – tạo ra từ các mô hình AI – để xây dựng và tinh chỉnh hệ thống mới. Quá trình này thực chất đang diễn ra.

Musk, người mở startup AI xAI năm 2023, nhận xét: “Tổng lượng kiến thức tích lũy của con người đã cạn kiệt trong quá trình đào tạo AI. Về cơ bản, điều này xảy ra năm ngoái”.

musk bloomberg — Elon Musk cho rằng đã cạn kiệt dữ liệu đào tạo AI. Ảnh: Bloomberg

Các mô hình AI như GPT-4o đứng sau ChatGPT được đào tạo dựa trên lượng lớn dữ liệu từ Internet. Chúng phát hiện các mẫu (pattern) trong thông tin đó để thực hiện các công việc khác nhau, chẳng hạn dự đoán từ tiếp theo trong một câu.

Phát biểu trong một cuộc phỏng vấn được livestream trên X, Musk nói “cách duy nhất” để đối phó với việc thiếu dữ liệu đào tạo mô hình mới là chuyển sang dữ liệu tổng hợp.

Meta – chủ sở hữu Facebook và Instagram – đã dùng dữ liệu tổng hợp để điều chỉnh mô hình Llama AI, còn Microsoft cũng dùng dữ liệu do AI tạo ra cho mô hình Phi-4.

Google và OpenAI – nhà phát triển ChatGPT – sử dụng dữ liệu tổng hợp trong các công việc liên quan đến AI.

Tuy nhiên, Musk cũng cảnh báo thói quen tạo ra ảo giác của các mô hình AI – thuật ngữ chỉ đầu ra thiếu chính xác, vô nghĩa – gây nguy hiểm đến quá trình tổng hợp dữ liệu vì không thể biết được câu trả lời đúng hay sai.

Theo Andrew Duncan, Giám đốc AI nền tảng tại Viện Alan Turing, bình luận của Musk phù hợp với ước tính của một báo cáo học thuật gần đây về việc dữ liệu có sẵn công khai cho các mô hình AI có thể cạn kiệt vào năm 2026.

Việc quá lệ thuộc vào dữ liệu tổng hợp gây nguy cơ “sụp đổ mô hình”, thuật ngữ đề cập đến đầu ra kém chất lượng. Ngoài ra, còn có rủi ro về thiên kiến và thiếu sáng tạo.

Bên cạnh đó, với sự phát triển của nội dung AI trên mạng, những dữ liệu đó cũng có thể đang được đưa vào các bộ đào tạo dữ liệu AI.

Dữ liệu chất lượng cao và cách thức kiểm soát nó là một trong những vấn đề pháp lý trong cuộc bùng nổ AI. Năm 2024, OpenAI thừa nhận không thể tạo ra những công cụ như ChatGPT mà không truy cập nội dung bản quyền, trong khi cộng đồng sáng tạo và nhà xuất bản yêu cầu bồi thường vì sử dụng nội dung của họ trong quy trình đào tạo mô hình.

(Theo The Guardian)