Microsoft phủ nhận cáo buộc thu thập dữ liệu AI trái phép

Microsoft đang đối mặt với làn sóng chỉ trích khi bị cáo buộc thu thập dữ liệu người dùng Word và Excel để huấn luyện AI, dù công ty đã lên tiếng phủ nhận.

Câu chuyện bắt đầu trong bối cảnh Microsoft vừa trải qua một sự cố lớn với phần mềm Outlook, khiến hàng triệu người dùng không thể truy cập. Ngay sau đó, công ty lại đối mặt với một vấn đề còn nghiêm trọng hơn khi bị cáo buộc về việc thu thập dữ liệu AI một cách có chủ ý.

microsoft-phu-nhan-cao-buoc-thu-thap-du-lieu-ai-trai-phep-2.jpg

Theo báo cáo từ Tom's Hardware, Microsoft Office - có một tính năng mới gọi là "Connected Experiences". Tính năng này được cho là tự động thu thập dữ liệu từ các tập tin Word và Excel để huấn luyện mô hình AI của công ty. Điểm đáng chú ý là tính năng này được bật mặc định, và quy trình tắt được mô tả là "rất phức tạp".

Việc này có thể ảnh hưởng nghiêm trọng đến người dùng vì nhiều lý do. Thứ nhất, khi nội dung được sử dụng để huấn luyện AI như Microsoft's Copilot, nó để lại một "dấu ấn" trong thuật toán. Điều này có nghĩa là trong tương lai, thông tin nhạy cảm hoặc độc quyền có thể xuất hiện trong các phản hồi của AI. Ngoài ra, việc cho phép bên thứ ba sử dụng dữ liệu theo cách này có thể dẫn đến các vấn đề pháp lý phức tạp, đặc biệt đối với các vấn đề tài chính.

microsoft-phu-nhan-cao-buoc-thu-thap-du-lieu-ai-trai-phep.jpg

Tuy nhiên, Microsoft đã chính thức lên tiếng phủ nhận những cáo buộc này. Công ty khẳng định họ không sử dụng dữ liệu khách hàng từ các ứng dụng Microsoft 365 để huấn luyện mô hình AI. Theo Microsoft, sự nhầm lẫn xuất phát từ một cài đặt quyền riêng tư trong Microsoft Office về "optional connected experiences" - một tính năng chỉ đơn thuần giúp người dùng tìm kiếm hình ảnh trực tuyến hoặc thông tin có sẵn trên mạng.

Frank Shaw, người đứng đầu bộ phận truyền thông của Microsoft, cũng đã lên tiếng trên Bluesky để bác bỏ những cáo buộc này. Tài liệu học tập của Microsoft được đăng vào ngày 21/10/2024 có đề cập đến danh sách dài các trải nghiệm được kết nối trong Office "phân tích nội dung của bạn" nhưng không đề cập rõ ràng về việc loại trừ việc huấn luyện AI Large Language Model (LLM).

microsoft-phu-nhan-cao-buoc-thu-thap-du-lieu-ai-trai-phep-3.jpg

microsoft-phu-nhan-cao-buoc-thu-thap-du-lieu-ai-trai-phep-3(1).jpg

Tranh cãi này xảy ra trong bối cảnh rộng lớn hơn về quyền riêng tư dữ liệu và AI. Trước đó, Adobe cũng từng gặp phải phản ứng dữ dội tương tự khi điều khoản người dùng của họ bị hiểu nhầm là công ty đang sử dụng dữ liệu để huấn luyện AI. LinkedIn bị cáo buộc tự động thu thập dữ liệu người dùng vào tháng 9, và The New York Times đã kiện OpenAI về vi phạm bản quyền vào cuối năm 2023.

Đáng chú ý là Mustafa Suleyman, người đứng đầu bộ phận AI của Microsoft và là đồng sáng lập DeepMind của Google, đã từng công khai tuyên bố rằng bất kỳ nội dung nào được công bố trên internet mở đều có thể được coi là "công bằng" để sử dụng làm tài liệu huấn luyện AI, và việc ngăn các công cụ AI truy cập nội dung là một vấn đề pháp lý còn nhiều tranh cãi.