Tờ SCMP cho biết, từ ngày 8/8, Baidu đã phát hành bản cập nhật trong đó chặn các bot khai thác thông tin của Google và Bing truy cập một phần dịch vụ Baidu Baike (dịch vụ lưu trữ và tra cứu thông tin tương tự như Wikipedia) ở Trung Quốc.

187dfcdd91bc6885ad52d4ea5ec2f6b6721cd85e.jpeg
Baidu đang tìm cách bảo vệ "tài nguyên số" khi nhu cầu dữ liệu đào tạo AI tăng cao. Ảnh: SCMP

Baidu Baike là kho lưu trữ dữ liệu trực tuyến có khoảng 30 triệu đầu mục. Động thái chặn truy cập của Google và Microsoft cho thấy, Baidu đang nỗ lực bảo vệ tài sản online trong bối cảnh nhu cầu khai thác dữ liệu phục vụ cho đào tạo AI ngày càng tăng cao.

Trước đó, nền tảng tin tức và diễn đàn phổ biến Reddit cũng đã có bước đi tương tự, khi chặn nhiều công cụ tìm kiếm (trừ Google). Được biết, Google đã có thoả thuận trị giá hàng triệu USD để khai thác thông tin từ Reddit cho việc huấn luyện mô hình AI.

Năm ngoái, Microsoft từng đe dọa cắt truy cập vào dữ liệu tìm kiếm Internet của hãng nếu các công cụ tìm kiếm đối thủ tiếp tục sử dụng nguồn tài nguyên này cho chatbot và GenAI.

Sau hơn hai năm kể từ khi ChatGPT ra mắt, nhiều nhà phát triển AI lớn trên thế giới đã tìm kiếm thỏa thuận với các nhà xuất bản nội dung để tiếp cận dữ liệu chất lượng cho các dự án GenAI.

Chẳng hạn, vào tháng 6, OpenAI đã ký một thỏa thuận với tạp chí tin tức Time của Mỹ, cho phép tạp chí này tiếp cận tất cả nội dung đã lưu trữ trong hơn 100 năm lịch sử của ấn phẩm.

(Theo SCMP)