LTS: Sau hơn 6 năm thực hiện Quy hoạch báo chí và Nghị quyết 18, hệ thống báo chí Việt Nam đã giảm từ 850 xuống còn 733 cơ quan báo chí; số báo giảm từ 179 xuống 98, số đài phát thanh - truyền hình giảm từ 72 xuống 38, đánh dấu cuộc tái cấu trúc lớn nhất của ngành kể từ sau Đổi mới, theo dữ liệu của Bộ Văn hóa, Thể thao và Du lịch và Bộ Thông tin và Truyền thông (cũ). Thực tế này dẫn đến việc, nhiều website báo chí đã và đang bị đóng lại. Chúng ta cần ứng xử với kho dữ liệu khổng lồ này như thế nào trong tư cách là tài sản số quốc gia trong kỷ nguyên AI?

Tuần Việt Nam trao đổi với chuyên gia tư vấn chiến lược công nghệ thông tin Đào Trung Thành về vấn đề này nhân dịp kỷ niệm 101 ngày báo chí cách mạng Việt Nam.

Báo chí là hạ tầng niềm tin xã hội

Trước khi đi vào câu chuyện dữ liệu báo chí, ông nhìn nhận mối quan hệ giữa AI và báo chí hiện nay như thế nào?

Ông Đào Trung Thành: Tôi nghĩ, cần nhìn AI và báo chí không chỉ như câu chuyện công nghệ thay thế con người. Nếu chỉ hỏi “AI có viết thay nhà báo không?”, ta đã đặt vấn đề hơi hẹp. Câu hỏi lớn hơn là: trong một xã hội mà nội dung có thể được tạo ra gần như vô hạn, rất nhanh và rất rẻ, báo chí còn giữ vai trò gì?

Theo tôi, vai trò cốt lõi của báo chí không phải là sản xuất thêm chữ, thêm ảnh, thêm video. Vai trò cốt lõi của báo chí là giúp xã hội phân biệt điều gì đáng tin, điều gì cần kiểm chứng, điều gì có lợi ích công chúng, điều gì chỉ là tiếng đồn. AI có thể làm xã hội nhiều thông tin hơn, nhưng báo chí phải giúp xã hội sáng suốt hơn.

Dao Trung Thanh.jpg
Ông Đào Trung Thành: Vai trò cốt lõi của báo chí là giúp xã hội phân biệt điều gì đáng tin, điều gì cần kiểm chứng, điều gì có lợi ích công chúng. Ảnh: VietNamNet

Vì vậy, tôi nhìn báo chí trong kỷ nguyên AI ở ba tầng.

Một là báo chí là hạ tầng niềm tin. Khi thông tin trở nên dư thừa, niềm tin trở thành tài sản khan hiếm. Công chúng không chỉ cần biết “có chuyện gì xảy ra”, mà cần biết “có thể tin ai”, “nguồn nào chịu trách nhiệm”, “đâu là sự thật đã được kiểm chứng”.

Hai là báo chí là ký ức có trách nhiệm của xã hội. Một bài báo tốt không chỉ ghi lại sự kiện, mà còn lưu lại ngữ cảnh, thời điểm, con người, tranh luận, lựa chọn chính sách và cả những sai lầm mà xã hội từng đi qua. Đó là thứ mà dữ liệu thô trên Internet không dễ thay thế.

Ba là báo chí là một trường thực hành đạo đức thông tin. AI có thể tạo nội dung, nhưng AI không có lương tri nghề nghiệp, không có sự day dứt trước một thông tin sai, không có trách nhiệm xã hội trước hậu quả của lời nói. Trong cuốn Đạo đức AI: Nguyên tắc và thực hành, tôi nhấn mạnh rằng AI có trách nhiệm không bắt đầu từ thuật toán, mà bắt đầu từ dữ liệu, mục đích sử dụng và cơ chế chịu trách nhiệm. Với báo chí, điều đó càng đúng. Dùng AI trong báo chí không chỉ là câu chuyện năng suất, mà là câu chuyện phẩm giá nghề nghiệp.

Tôi không cho rằng báo chí nên sợ AI. Nhưng báo chí cũng không nên say AI. Cần một thái độ tỉnh táo: dùng AI để tăng năng lực xác minh, phân tích dữ liệu, phục vụ công chúng tốt hơn, nhưng không giao phó sự thật cho máy móc. Kiểm soát đúng không giết sáng tạo. Kiểm soát đúng tạo ra phẩm giá cho sáng tạo.

Nói ngắn gọn, AI có thể giúp báo chí chạy nhanh hơn, nhưng chỉ đạo đức nghề nghiệp mới giúp báo chí đi đúng hướng. Trong kỷ nguyên AI, báo chí không chỉ cạnh tranh bằng tốc độ đưa tin, mà bằng năng lực bảo vệ sự thật và gìn giữ niềm tin xã hội.

Dữ liệu báo chí là nguồn lực dữ liệu có giá trị của quốc gia

Trong hơn 10 năm qua, Việt Nam đã có nhiều cơ quan báo chí ngừng hoạt động, sáp nhập hoặc chuyển đổi mô hình. Theo ông, khi một tờ báo biến mất, xã hội thực sự mất đi điều gì dưới góc độ dữ liệu?

Khi một tờ báo biến mất, xã hội không chỉ mất dữ liệu. Xã hội mất một người ghi chép có trách nhiệm. Internet có rất nhiều nội dung, nhưng không phải nội dung nào cũng là ký ức. Ký ức xã hội phải có nguồn, có ngữ cảnh, có người chịu trách nhiệm và có khả năng được kiểm chứng.

Tôi cho rằng báo chí khác mạng xã hội ở điểm đó. Mạng xã hội ghi lại phản ứng. Báo chí, nếu làm đúng chức năng của mình, ghi lại sự kiện, đặt câu hỏi, kiểm chứng và để lại dấu vết trách nhiệm. Khi một tờ báo biến mất mà dữ liệu không được bảo tồn, ta không chỉ mất bài viết, mà mất một phần cơ chế xã hội từng giúp chúng ta hiểu điều gì đã xảy ra.

Mỗi bài báo không đơn thuần là một văn bản. Nó có ngày tháng, tác giả, nhân vật, địa danh, sự kiện, bối cảnh, nguồn tin, ảnh, video, bản chỉnh sửa, thậm chí cả những tranh luận và phản hồi của xã hội ở thời điểm đó. Một tờ báo tồn tại 20 đến 30 năm có thể đã ghi lại hàng trăm nghìn lát cắt của đời sống kinh tế, chính trị, văn hóa, xã hội. Nếu những dữ liệu ấy biến mất, chúng ta không chỉ mất bài viết, mà mất cả khả năng truy nguyên một phần quá khứ.

Có những thứ mất đi rất ồn ào, như một tờ báo dừng xuất bản. Nhưng có những thứ mất đi rất im lặng, như một đường link cũ không còn mở được, một ảnh tư liệu không còn metadata, một bài điều tra không còn bản gốc, một lát cắt lịch sử bị rơi khỏi trí nhớ số của quốc gia. Pew Research Center cho biết 38% các trang web từng tồn tại năm 2013 đã không còn truy cập được sau một thập kỷ, và 23% trang tin tức được khảo sát có ít nhất một liên kết hỏng (Chapekis et al., 2024). Điều đó cho thấy “mất ký ức số” không phải là hình ảnh văn chương, mà là một hiện tượng rất thật của Internet hiện đại.

Nói ngắn gọn: khi một tờ báo biến mất, xã hội không chỉ mất tiếng nói hôm nay, mà còn mất chứng từ của ngày hôm qua.

Nhiều người coi báo chí là nơi sản xuất tin tức. Nhưng dưới góc nhìn của một chuyên gia AI và dữ liệu, liệu báo chí có phải là một trong những hệ thống thu thập và lưu giữ dữ liệu lớn nhất của xã hội hay không?

Nếu chỉ nhìn báo chí là nơi sản xuất tin tức thì chưa đủ. Dưới góc nhìn dữ liệu, báo chí là một trong những hệ thống cảm biến xã hội quan trọng nhất. Nó thu thập, xác minh, biên tập, phân loại và lưu giữ những gì đang diễn ra trong đời sống. Nếu nhìn bằng ngôn ngữ AI, báo chí không chỉ là một kho dữ liệu, mà là một hệ thống tri nhận xã hội. Nó quan sát đời sống, chọn cái đáng chú ý, xác minh cái còn mơ hồ, đặt sự kiện vào bối cảnh, rồi lưu lại để xã hội có thể suy nghĩ về chính mình.

Bao chi tac nghiep.jpeg
Ảnh: Hoàng Hà

Tất nhiên, xét về khối lượng thô, mạng xã hội hay các nền tảng số có thể lớn hơn báo chí rất nhiều. Nhưng dữ liệu báo chí có một giá trị khác: nó là dữ liệu đã qua biên tập, có nguồn gốc, có trách nhiệm nghề nghiệp, có ngữ cảnh và có khả năng trích dẫn. Một trạng thái trên mạng xã hội có thể ghi lại cảm xúc tức thời. Một bài báo tốt phải ghi lại sự kiện, kiểm chứng nguồn tin, đặt nó trong bối cảnh và để lại dấu vết trách nhiệm.

Trong kỷ nguyên AI, sự khác biệt này rất quan trọng. AI không thiếu dữ liệu. AI thiếu dữ liệu đáng tin, có nguồn, có ngữ cảnh và có thể kiểm chứng. Reuters Institute cho thấy người dùng ngày càng tiếp cận tin tức qua mạng xã hội, video, nền tảng trung gian và gần đây là cả chatbot (Egan et al., 2026; Newman, 2026; Newman et al., 2025). Khi đó, báo chí không chỉ là “nhà máy tin tức”, mà là hạ tầng dữ liệu đáng tin của xã hội.

Tôi hay gọi báo chí là hệ thống cảm biến xã hội có biên tập. Cảm biến thì phải nhạy với đời sống. Có biên tập thì phải có trách nhiệm với sự thật.

Một tờ báo có thể đã xuất bản hàng trăm nghìn bài viết trong 20 đến 30 năm, ghi lại lịch sử doanh nghiệp, các cuộc tranh luận chính sách, những dự án đầu tư và các biến động kinh tế xã hội. Theo ông, những dữ liệu đó có nên được coi là một dạng tài sản dữ liệu quốc gia?

Tôi cho rằng nên, nhưng cần dùng khái niệm này một cách cẩn trọng. Dữ liệu báo chí nhiều thập kỷ nên được nhìn như một nguồn lực dữ liệu có giá trị quốc gia, chứ không đơn thuần là kho bài cũ của từng cơ quan báo chí.

Một tờ báo xuất bản hàng trăm nghìn bài trong 20 đến 30 năm đã ghi lại lịch sử doanh nghiệp, biến động thị trường, dự án hạ tầng, tranh luận chính sách, đời sống địa phương, giáo dục, y tế, văn hóa, đô thị, môi trường. Những dữ liệu ấy có thể phục vụ nhà nghiên cứu, nhà quản lý, doanh nghiệp, nhà báo thế hệ sau, và đặc biệt là các hệ thống AI tiếng Việt trong tương lai.

Nhưng nói dữ liệu báo chí có giá trị quốc gia không có nghĩa là xóa nhòa quyền, trách nhiệm, bản quyền hay bản sắc của từng cơ quan báo chí. Ngược lại, càng coi trọng dữ liệu báo chí thì càng phải lưu giữ đúng nguồn, đúng tác giả, đúng ngữ cảnh, đúng trạng thái pháp lý. Di sản mà mất nguồn gốc thì chỉ còn là đống tư liệu vô chủ. Dữ liệu mà mất trách nhiệm thì rất dễ trở thành nhiên liệu cho hiểu lầm.

UNESCO từ năm 2003 đã định nghĩa di sản số là các nguồn lực độc đáo của tri thức và biểu đạt con người, bao gồm văn hóa, giáo dục, khoa học, hành chính, kỹ thuật, pháp lý và nhiều loại thông tin được tạo ra dưới dạng số hoặc được số hóa (UNESCO, 2003). Dữ liệu báo chí điện tử Việt Nam, theo nghĩa đó, hoàn toàn xứng đáng được nhìn nhận như một phần của di sản số quốc gia.

AI có thay nhà báo không?

AI ngày nay được huấn luyện từ dữ liệu trên Internet. Nếu ngày càng nhiều website báo chí cũ không còn tồn tại hoặc không còn truy cập được, điều đó sẽ ảnh hưởng như thế nào đến khả năng hiểu biết của AI về Việt Nam?

AI học từ những gì nó có thể nhìn thấy. Nếu một phần lớn dữ liệu báo chí Việt Nam trong gần ba thập kỷ qua biến mất khỏi web mở, khỏi kho lưu trữ hoặc khỏi các bộ dữ liệu có thể truy cập hợp pháp, thì AI sẽ hiểu Việt Nam bằng một ký ức thủng lỗ chỗ.

Nó có thể biết nhiều về những gì còn tồn tại trên mạng hôm nay, biết nhiều hơn về nguồn tiếng Anh, biết nhiều về nội dung mạng xã hội, nhưng lại thiếu lớp dữ liệu sâu về diễn biến chính sách, lịch sử doanh nghiệp, đời sống địa phương, các cuộc tranh luận xã hội và những biến động kinh tế bằng tiếng Việt.

Bao chi và AI.png
AI có thể giúp báo chí chạy nhanh hơn, nhưng chỉ đạo đức nghề nghiệp mới giúp báo chí đi đúng hướng. Ảnh: Chinhphu.vn

Common Crawl, một trong những kho dữ liệu web mở lớn nhất thế giới, cho biết họ có hơn 300 tỷ trang web trong 15 năm và mỗi tháng bổ sung thêm 3 đến 5 tỷ trang mới (Common Crawl, n.d.). Nhiều mô hình AI lớn đã sử dụng dữ liệu web quy mô lớn như vậy để học ngôn ngữ và tri thức.

Vấn đề là: nếu báo chí Việt Nam không được lưu trữ đầy đủ, chuẩn hóa và cấp quyền khai thác phù hợp, thì AI trong tương lai sẽ thiếu một phần quan trọng của ký ức Việt Nam.

Một AI không được nuôi bằng ký ức Việt Nam sẽ khó hiểu Việt Nam một cách sâu sắc. Nó có thể nói tiếng Việt trôi chảy, nhưng chưa chắc đã nhớ đúng lịch sử Việt Nam, ngữ cảnh Việt Nam và những lớp nghĩa rất riêng của đời sống Việt Nam.

Người ta thường lo AI sẽ thay thế nhà báo. Nhưng liệu có phải báo chí mới là một trong những ngành đang cung cấp dữ liệu gốc để nuôi các hệ thống AI?

Đúng, báo chí đang cung cấp dữ liệu gốc cho AI. Nhưng tôi muốn nói thêm một tầng nữa: AI không chỉ cần dữ liệu báo chí, AI cần cả chuẩn mực báo chí.

Một mô hình AI có thể học từ hàng tỷ văn bản, nhưng nó không tự biết đâu là lợi ích công chúng, đâu là quyền riêng tư, đâu là nguồn tin cần kiểm chứng, đâu là thông tin có thể gây tổn hại nếu đưa ra sai ngữ cảnh. Những điều đó không chỉ nằm trong dữ liệu, mà nằm trong đạo đức nghề nghiệp, trong quy trình biên tập, trong trách nhiệm của con người.

Vì vậy, câu hỏi “AI có thay nhà báo không?” là một câu hỏi hơi hẹp. Câu hỏi lớn hơn là: báo chí sẽ cung cấp gì cho nền văn minh AI? Nếu báo chí chỉ cung cấp nội dung, nó sẽ bị cạnh tranh bởi máy móc. Nhưng nếu báo chí cung cấp chuẩn mực xác minh, ký ức có trách nhiệm và đạo đức thông tin, thì báo chí trở thành một phần nền móng của AI có trách nhiệm.

Báo chí cung cấp dữ liệu gốc ở nhiều lớp: tin hiện trường, phỏng vấn, điều tra, ảnh, video, dòng thời gian sự kiện, hồ sơ nhân vật, hồ sơ doanh nghiệp, dữ liệu bầu cử, giá cả, thiên tai, dịch bệnh, giáo dục, y tế, pháp luật. AI có thể tổng hợp rất nhanh, nhưng AI không tự đi hiện trường, không tự hỏi nguồn tin, không tự chịu trách nhiệm đạo đức trước xã hội.

Một nghiên cứu do European Broadcasting Union và BBC thực hiện, được Reuters đưa tin, cho thấy 45% câu trả lời của các trợ lý AI về tin tức có ít nhất một vấn đề đáng kể, 81% có một dạng vấn đề nào đó, một phần ba có lỗi nghiêm trọng về nguồn, và 20% có vấn đề về độ chính xác (Le Poidevin, 2025). Điều này không có nghĩa là AI vô dụng. Ngược lại, nó cho thấy AI càng mạnh thì càng cần báo chí tốt hơn, dữ liệu tốt hơn và cơ chế kiểm chứng tốt hơn.

Trong kỷ nguyên AI, báo chí không nên chỉ phòng thủ trước nguy cơ bị thay thế. Báo chí cần bước lên một vai trò cao hơn: người tạo dữ liệu đáng tin, người giữ nguồn gốc thông tin, người đặt chuẩn mực cho AI sử dụng tri thức xã hội.

Nguy cơ đánh mất ký ức số

Theo ông, Việt Nam có đang đối mặt với nguy cơ “mất ký ức số” khi một phần dữ liệu báo chí được tạo ra trong gần 30 năm kể từ khi Internet xuất hiện có thể không còn được lưu giữ đầy đủ?

Có nguy cơ, và cần nói thẳng như vậy. Nhưng cần hiểu đúng: không phải tất cả dữ liệu sẽ biến mất trong một ngày. Nguy cơ lớn hơn là mất dần tính đầy đủ, tính liên tục, tính xác thực và khả năng truy xuất.

Việt Nam chính thức gia nhập Internet toàn cầu ngày 19/11/1997. Như vậy, đến năm 2026, chúng ta đã có gần ba thập kỷ dữ liệu báo chí điện tử. Nhưng trong ba thập kỷ đó, các tòa soạn đã nhiều lần đổi hệ thống quản trị nội dung, đổi tên miền, đổi giao diện, đổi cơ quan chủ quản, sáp nhập, chuyển đổi mô hình hoặc dừng xuất bản. Mỗi lần như vậy là một lần dữ liệu đứng trước nguy cơ bị mất, bị thiếu, bị sai metadata hoặc không còn truy cập được.

Ký ức số không chết trong một đám cháy. Nó chết dần qua những lần đổi hệ thống, đổi tên miền, đổi tổ chức mà không có chính sách lưu trữ đi kèm. Một ngày nào đó, ta bấm vào đường link cũ và thấy lỗi 404. Một bức ảnh vẫn còn, nhưng không còn ngày chụp, tác giả, địa điểm. Một bài báo còn bản sao đâu đó, nhưng bản gốc và bản đính chính đã mất. Đó chính là mất ký ức số.

Nếu chúng ta không hành động sớm, thế hệ sau sẽ phải nghiên cứu lịch sử Việt Nam thời Internet bằng những mảnh vỡ dữ liệu.

LAD_6112.jpg
Một ngày nào đó, một bức ảnh vẫn còn, nhưng không còn ngày chụp, tác giả, địa điểm. Một bài báo còn bản sao đâu đó, nhưng bản gốc và bản đính chính đã mất. Đó chính là mất ký ức số. Ảnh: Lê Anh Dũng

Cần chương trình quốc gia về lưu chiểu và bảo tồn báo chí điện tử Việt Nam

Về mặt công nghệ, việc lưu giữ toàn bộ báo chí điện tử Việt Nam từ năm 1997 đến nay có khó và tốn kém hay không? So với chi phí đầu tư trung tâm dữ liệu và các dự án AI hiện nay, quy mô đó lớn đến mức nào?

Về công nghệ lưu trữ, tôi cho rằng không quá khó. Cái khó hơn nằm ở quản trị, pháp lý, bản quyền, chuẩn hóa, chất lượng dữ liệu, phân quyền truy cập và trách nhiệm vận hành dài hạn.

Ta có thể hình dung sơ bộ: nếu lưu bài viết, HTML, ảnh, metadata, lịch sử chỉnh sửa, bản đính chính và một phần nội dung đa phương tiện, quy mô có thể từ hàng chục terabyte đến hàng trăm terabyte. Nếu lưu cả video độ phân giải cao, nhiều phiên bản, dữ liệu tương tác và ảnh gốc, quy mô có thể lên tới mức petabyte. Nhưng trong thế giới trung tâm dữ liệu hiện nay, đó không phải là quy mô quá lớn, nhất là nếu so với chi phí xây dựng hạ tầng AI, GPU cluster hay các trung tâm dữ liệu hiện đại.

Để có một mốc tham chiếu rất thô, AWS đưa ví dụ 1 TB dữ liệu trong S3 Tables Standard có chi phí lưu trữ khoảng 27,14 USD mỗi tháng ở vùng US West Oregon, chưa tính các chi phí khác như truy xuất, xử lý, nhân sự, an toàn thông tin, sao lưu, vận hành và tuân thủ (Amazon Web Services, n.d.). Con số này không dùng để tính dự án Việt Nam, nhưng giúp thấy rằng chi phí lưu trữ thô thường không phải là phần đáng sợ nhất.

Cái đắt nhất không phải là ổ cứng. Cái đắt nhất là làm sai ngay từ đầu: lưu mà không có chuẩn, không có metadata, không có định danh bền vững, không có checksum, không có cơ chế phân quyền, không có quyền sử dụng rõ ràng, không có khả năng phục vụ nghiên cứu và AI. Lưu một đống file thì dễ. Lưu thành di sản số có giá trị thì phải có kiến trúc.

Chi phí lưu trữ dữ liệu báo chí không lớn nếu so với chi phí đầu tư các dự án AI. Nhưng cái giá của việc đánh mất ký ức số thì không thể tính bằng tiền thuê máy chủ.

Nếu được đề xuất một chính sách ngay hôm nay, ông sẽ kiến nghị điều gì để bảo đảm rằng dù các cơ quan báo chí có sáp nhập, chuyển đổi hay dừng hoạt động thì dữ liệu mà xã hội đã tạo ra trong nhiều thập kỷ vẫn được bảo tồn và tiếp tục phục vụ nghiên cứu, hoạch định chính sách cũng như phát triển AI trong tương lai?

Nếu được đề xuất một chính sách ngay hôm nay, tôi sẽ kiến nghị xây dựng một chương trình cấp quốc gia về lưu chiểu và bảo tồn báo chí điện tử Việt Nam.

Điểm cốt lõi không phải là can thiệp vào quyền vận hành của từng cơ quan báo chí, mà là bảo đảm rằng khi một cơ quan báo chí sáp nhập, chuyển đổi mô hình, đổi tên miền, đổi hệ thống quản trị nội dung hoặc dừng hoạt động, dữ liệu báo chí đã xuất bản không bị rơi vào khoảng trống. Trong bối cảnh Việt Nam đang tiếp tục sắp xếp, kiện toàn hệ thống báo chí, đây là vấn đề rất thực tế.

Quyết định số 362/QĐ TTg năm 2019 đã phê duyệt Quy hoạch phát triển và quản lý báo chí toàn quốc đến năm 2025 (Thủ tướng Chính phủ, 2019). Gần đây hơn, Quy định số 373 QĐ/TW quy định chức năng, nhiệm vụ, tổ chức bộ máy cơ quan báo và phát thanh, truyền hình của đảng bộ tỉnh, thành phố (Ban Bí thư, 2025). Trường hợp Hà Nội thành lập Cơ quan Báo và Phát thanh, Truyền hình Hà Nội trên cơ sở sáp nhập 6 cơ quan báo chí cho thấy xu hướng tích hợp, kiện toàn tổ chức đang diễn ra rất rõ (Thành ủy Hà Nội, 2026).

Vì vậy, cùng với sắp xếp tổ chức, cần có một lớp chính sách về dữ liệu. Tôi đề xuất năm việc.

Một là, thiết lập nghĩa vụ lưu chiểu số đối với báo chí điện tử. Mỗi nội dung đã xuất bản cần có bản lưu chuẩn, có metadata, có định danh, có trạng thái pháp lý và có khả năng truy xuất lâu dài.

Hai là, khi sáp nhập, chuyển đổi hoặc dừng hoạt động, phải có quy trình bàn giao dữ liệu báo chí. Bàn giao trụ sở, con dấu, nhân sự, tài sản hữu hình mà quên dữ liệu là bỏ quên một nửa lịch sử.

Ba là, xây dựng kho lưu trữ báo chí điện tử quốc gia hoặc thư viện ký ức số quốc gia. Kho này cần có nhiều tầng truy cập: công chúng, nhà nghiên cứu, cơ quan nhà nước, giáo dục, và khai thác cho AI theo giấy phép.

Bốn là, ban hành chuẩn dữ liệu báo chí điện tử: Bài viết, ảnh, video, tác giả, thời gian xuất bản, thời gian chỉnh sửa, chuyên mục, chủ đề, nguồn, đính chính, quyền sử dụng, trạng thái công khai hay hạn chế.

Dữ liệu cho AI không thể chỉ là “quét web”. AI có đạo đức cần nguồn gốc dữ liệu rõ ràng, quyền sử dụng rõ ràng và khả năng truy vết rõ ràng.

Năm là, coi dữ liệu báo chí là một phần hạ tầng cho AI tiếng Việt. Nếu Việt Nam muốn có AI hiểu văn hóa, lịch sử, chính sách, đời sống và con người Việt Nam, thì không thể chỉ dựa vào dữ liệu trôi nổi trên mạng. Phải có một kho dữ liệu báo chí được bảo tồn, làm sạch, gắn nguồn, gắn quyền và sử dụng có trách nhiệm.

British Library và các thư viện lưu chiểu của Anh có quyền sao chép tài liệu xuất bản trên Internet tại Anh để lưu trữ theo cơ chế lưu chiểu pháp định (British Library, n.d.). Việt Nam hoàn toàn có thể nghiên cứu những mô hình như vậy, nhưng thiết kế phù hợp với hệ thống chính trị, pháp luật báo chí, quyền tác giả, an toàn thông tin và điều kiện vận hành của Việt Nam.

Sắp xếp báo chí là việc của tổ chức. Bảo tồn dữ liệu báo chí là việc của ký ức quốc gia. Nhưng sâu hơn nữa, tái thiết báo chí trong kỷ nguyên AI là việc của niềm tin xã hội. Nếu báo chí chỉ chạy theo tốc độ, nó sẽ thua AI. Nếu báo chí chỉ giữ quá khứ, nó sẽ thành kho lưu trữ. Nhưng nếu báo chí biết dùng AI để tăng năng lực xác minh, mở rộng trí nhớ xã hội, phục vụ công chúng tốt hơn và giữ vững trách nhiệm nghề nghiệp, thì báo chí không bị AI thay thế. Báo chí sẽ trở thành một trong những thiết chế giúp xã hội bước qua thời đại AI mà không đánh mất phương hướng.

Cần xây dựng di sản số từ kinh nghiệm EU

Khi nói di sản, ta hay nghĩ đến đình chùa, văn bản cổ, hiện vật, ảnh tư liệu. Nhưng trong xã hội số, báo chí điện tử cũng là di sản, vì nó ghi lại đời sống đang diễn ra từng ngày.

Một bài báo về một dự án hạ tầng, một phiên chất vấn, một thay đổi trong chính sách giáo dục, một doanh nghiệp lớn, một cuộc tranh luận xã hội, một trận lũ, một cuộc di dân, một đổi thay trong đời sống đô thị, sau 20 năm có thể trở thành tư liệu lịch sử. Lúc mới xuất bản, nó là tin tức. Sau nhiều năm, nó là ký ức. Sau nhiều thập kỷ, nó có thể trở thành di sản.

Nhưng di sản số không chỉ là chuyện “lưu lại”. Nó còn là chuyện lưu thế nào, ai được dùng, dùng vào mục đích gì, và khi AI khai thác thì trách nhiệm nằm ở đâu. Trong cuốn Đạo đức AI: Nguyên tắc và thực hành, tôi nhấn mạnh một điều: AI có trách nhiệm không bắt đầu từ thuật toán, mà bắt đầu từ dữ liệu, mục đích sử dụng, quyền con người và cơ chế chịu trách nhiệm. Với báo chí, điều này càng rõ.

Một nền báo chí tốt không chỉ cung cấp dữ liệu cho AI, mà còn cung cấp một bài học đạo đức: Thông tin phải có nguồn, sự thật phải được kiểm chứng, và tự do sáng tạo phải đi cùng trách nhiệm xã hội.

Không thể xây AI có trách nhiệm trên một nền dữ liệu mù mờ. Nếu dữ liệu báo chí được dùng cho nghiên cứu, giáo dục, hoạch định chính sách hoặc huấn luyện AI, thì nó phải được gắn nguồn, gắn quyền, gắn ngữ cảnh, có phân quyền truy cập và có khả năng truy vết.

Europeana hiện cung cấp truy cập đa ngôn ngữ tới hơn 60 triệu đối tượng số hóa từ các tổ chức di sản văn hóa châu Âu, bao gồm sách, tranh, bản đồ, bản thảo, tư liệu nghe nhìn và nội dung 3D (Common European Data Space for Cultural Heritage, n.d.). EU cũng đã công bố chiến lược Không gian dữ liệu chung cho di sản văn hóa châu Âu giai đoạn 2025 đến 2030, nhấn mạnh việc tạo lập một không gian dữ liệu chất lượng cao, dễ truy cập, có khả năng liên thông và tái sử dụng (European Commission & Europeana Foundation, 2026).

Điều đáng học ở châu Âu không chỉ là lập một website tra cứu. Điều đáng học là tư duy không gian dữ liệu: có chuẩn metadata, có hạ tầng chia sẻ, có cơ chế phân quyền, có khả năng tái sử dụng cho giáo dục, nghiên cứu, sáng tạo và AI.

Việt Nam có thể bắt đầu bằng một chương trình “lưu chiểu báo chí điện tử quốc gia”, sau đó phát triển thành một thư viện ký ức số Việt Nam. Nó không nên là một nghĩa trang dữ liệu, nơi cất giữ rồi khóa lại. Nó phải là một hạ tầng sống: có chuẩn dữ liệu, có phân quyền, có API, có cơ chế trích dẫn, có kiểm soát bản quyền, có bảo vệ quyền riêng tư, và có khả năng phục vụ nghiên cứu, hoạch định chính sách, giáo dục công dân và phát triển AI tiếng Việt.