DeepSeek của Trung Quốc bị nghi sử dụng dữ liệu từ Google Gemini để huấn luyện mô hình AI mới

Tuần trước, phòng thí nghiệm AI của Trung Quốc là DeepSeek đã công bố phiên bản mới của mô hình AI lý luận mang tên R1, với hiệu năng ấn tượng trên nhiều bài kiểm tra toán học và lập trình. Tuy nhiên, công ty không tiết lộ rõ nguồn dữ liệu được dùng để huấn luyện mô hình này – điều khiến một số nhà nghiên cứu AI nghi ngờ rằng nó có thể đã sử dụng dữ liệu từ mô hình Gemini do Google phát triển.

Dấu hiệu giống Gemini

Sam Paech, một lập trình viên tại Melbourne chuyên đánh giá “trí tuệ cảm xúc” của AI, đã chia sẻ bằng chứng cho thấy mô hình mới R1-0528 của DeepSeek có xu hướng dùng từ ngữ và cấu trúc tương tự với Gemini 2.5 Pro. Trong một bài đăng trên X (Twitter), anh cho rằng phong cách trả lời của R1-0528 “gần như phản ánh” cách mà Gemini diễn đạt.


Dù đây chưa phải là bằng chứng chắc chắn, một nhà phát triển khác đứng sau bài đánh giá “free speech eval” mang tên SpeechMap cũng nhận xét rằng quá trình “suy nghĩ” (trace) của DeepSeek R1 rất giống Gemini, tức là cách mà mô hình trình bày chuỗi lập luận để đi đến kết quả.

Đây không phải lần đầu DeepSeek bị cáo buộc dùng đầu ra từ các mô hình đối thủ. Tháng 12 năm ngoái, các lập trình viên nhận thấy mô hình V3 của DeepSeek đôi khi tự nhận là ChatGPT, gợi ý rằng có thể nó đã được huấn luyện bằng các log hội thoại từ ChatGPT.

Đầu năm nay, OpenAI nói với tờ Financial Times rằng họ đã phát hiện dấu hiệu DeepSeek sử dụng kỹ thuật “distillation”, tức là huấn luyện một mô hình nhỏ bằng cách khai thác dữ liệu từ đầu ra của mô hình lớn hơn. Theo Bloomberg, Microsoft – đối tác và nhà đầu tư của OpenAI – đã phát hiện lượng lớn dữ liệu bị rò rỉ từ các tài khoản nhà phát triển của OpenAI vào cuối năm 2024, và OpenAI tin rằng những tài khoản này có liên hệ với DeepSeek.

Distillation không phải là điều hiếm trong cộng đồng AI. Tuy nhiên, điều khoản sử dụng của OpenAI cấm rõ ràng việc dùng đầu ra từ sản phẩm của họ để xây dựng mô hình cạnh tranh.

Thêm vào đó, một vấn đề phức tạp hiện nay là các mô hình AI ngày càng dễ bị “nhiễm bẩn” dữ liệu từ chính các nội dung do AI tạo ra – do các trang web spam, nội dung clickbait, và bot tràn ngập các nền tảng như Reddit hay X. Điều này khiến việc lọc sạch dữ liệu huấn luyện trở nên khó khăn hơn bao giờ hết.

Dù vậy, theo Nathan Lambert – nhà nghiên cứu tại Viện AI phi lợi nhuận AI2 – khả năng DeepSeek sử dụng Gemini vẫn là điều hoàn toàn có thể xảy ra.

 

“Nếu tôi là DeepSeek, tôi chắc chắn sẽ tạo ra thật nhiều dữ liệu tổng hợp từ mô hình API tốt nhất trên thị trường,” Lambert viết trên X. “Họ đang thiếu GPU nhưng lại có nhiều tiền. Điều đó giống như có thêm năng lực tính toán vậy.”

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *