Do dữ liệu đào tạo những mô hình này thường bao gồm cả nội dung có bản quyền như sách, bài viết trực tuyến...
Các công ty AI từng bị kiện vì vấn đề bản quyền. Cụ thể, vào năm ngoái, tờ New York Times đã cáo buộc OpenAI sử dụng những nội dung có bản quyền của tờ báo để đào tạo mô hình của mình mà không được phép. Tờ New York Times đưa ra bằng chứng cả ChatGPT (do OpenAI tạo ra) và Bing Chat (cấp phép GPT từ OpenAI) có khả năng sao chép gần như hoàn toàn một bài báo của New York Times nếu câu lệnh được đưa ra một cách khéo léo.
Phủ nhận cáo buộc, OpenAI phản hồi đó là một trục trặc ngoài ý muốn do tình trạng “nhiễu dữ liệu” chứ không phải cố ý sao chép. Tuy nhiên, phía New York Times phản bác, ngay cả khi đây là một sự vô ý, việc “rò rỉ” nội dung thông qua chatbot AI có thể khiến suy giảm lượng người tìm kiếm và đọc văn bản gốc ở tờ báo, làm tổn hại tới hoạt động kinh doanh.
Vụ việc này phần nào nêu lên những vấn đề hóc búa về vấn đề AI và bản quyền. Ngay cả khi các công ty không cố tình sao chép những nội dung có bản quyền, việc đào tạo các mô hình lớn về dữ liệu quét trên web vẫn có nguy cơ dính phải các nội dung đó. Khi AI sao chép đoạn trích của những nội dung có bản quyền, nguyên văn hoặc ở dạng diễn giải, nó có được tính là vi phạm bản quyền không? Pháp luật xử lý việc cung cấp nội dung có bản quyền một cách vô ý, nhưng có khả năng gây thiệt hại như thế nào?
Sau khi xem xét những sự khác biệt giữa nội dung do con người và do trí tuệ nhân tạo sản xuất, trong một số tình huống tương tự, con người không bị coi là vi phạm trong khi AI dính phải cáo buộc. Ví dụ, trí tuệ nhân tạo tổng hợp nội dung của một cuốn sách và bán nội dung được tóm tắt đó; còn các trang web bán nội dung sách tóm tắt được tạo nên bởi con người. Trong trường hợp này, trí tuệ nhân tạo được tính là vi phạm còn con người thì không. Đây là một trong những thách thức đặt ra cho luật sở hữu trí tuệ.
Hướng giải quyết đã được đặt ra với định hướng cụ thể dành cho 2 loại mô hình AI (lớn và nhỏ).
Các mô hình ngôn ngữ nhỏ gồm hầu hết mô hình AI được đào tạo trên một bộ dữ liệu cụ thể, thường được dùng cho các nhiệm vụ chuyên biệt. Đối với các mô hình này, việc cung cấp đầy đủ quyền lợi cho chủ sở hữu nội dung sẽ giúp đảm bảo lợi ích đôi bên. Cụ thể, việc đảm bảo bản quyền cho những nguồn đào tạo này sẽ khuyến khích người sáng tạo ra nội dung gốc sản xuất nhiều nội dung chất lượng hơn, từ đó nâng cao chất lượng dữ liệu được dùng để đào tạo AI.
Các mô hình ngôn ngữ lớn có thể kể đến như: mô hình của OpenAI, Google, Anthropic, Meta, Mistral; các trình tạo hình ảnh như: Midjourney, Stable Diffusion hoặc DALL-E. Đối với loại mô hình này, cách thức xử lý sẽ phức tạp hơn khi các nhà cầm quyền cần phải cân đo đong đếm phúc lợi chung dựa trên 2 yếu tố: giá trị mà dữ liệu đem lại; và thiệt hại kinh tế đối với chủ sở hữu nội dung. Cơ chế giải quyết “sau” cũng có thể được áp dụng, cho phép những nhà sáng tạo nội dung có thể khởi kiện để đòi lại khoản bồi thường cho thiệt hại kinh tế phải chịu.
Có thể thấy, dù đã có một số định hướng ban đầu, tuy nhiên các chính sách về bản quyền và AI vẫn cần được cân nhắc cẩn thận để tiến tới sự phát triển chung của xã hội.
(Theo cepr.org)