Tuy nhiên, phần mềm này đã vượt quá mọi mong đợi của họ, khi nó giỏi nhại lại cách hành văn của con người đến mức các nhà nghiên cứu quyết định nhấn nút ngừng dự án để đánh giá những thiệt hại mà nó có thể gây ra nếu được tung ra thị trường.
Elon Musk đã luôn nói rõ rằng ông tin trí tuệ nhân tạo là "mối đe dọa lớn nhất đối với sự sinh tồn của nhân loại". Musk là một trong những nhà tài trợ chính của OpenAI và dù ông chỉ giữ vai trò "kép phụ" tại đây, các nhà nghiên cứu của tổ chức dường như cũng cùng chia sẻ những quan ngại với vị tỷ phú về những vấn đề chúng ta có thể gặp phải nếu mở chiếc hộp Pandora. Tuần vừa qua, OpenAI đã chia sẻ một tài liệu về nghiên cứu gần đây nhất của họ liên quan công nghệ tạo văn bản, nhưng lần này, họ không công khai toàn bộ nghiên cứu ra công chúng như thường lệ bởi lo sợ nó có thể bị lạm dụng bởi những kẻ có ý đồ xấu xa. Thay vì tung ra mô hình đã được huấn luyện hoàn chỉnh, OpenAI sẽ tung ra một mô hình nhỏ hơn dành cho các nhà nghiên cứu muốn tự mình thử nghiệm.
Các nhà nghiên cứu đã sử dụng 40GB dữ liệu lấy từ 8 triệu trang web để huấn luyện phần mềm GPT-2. Lượng dữ liệu này lớn gấp 10 lần lượng dữ liệu họ từng dùng để huấn luyện thế hệ GPT đầu tiên. Bộ dữ liệu được thu thập bằng cách lướt mạng xã hội Reddit và chọn những liên kết đến các bài viết nhận được hơn 3 lượt upvote. Khi quá trình huấn luyện hoàn tất, họ phát hiện ra rằng phần mềm có thể nhận vào một phần văn bản và tiếp tục hoàn thành nội dung của đoạn văn bản đó theo độ dài được yêu cầu một cách đầy thuyết phục. Nó gặp một số rắc rối với "những loại nội dung nặng yếu tố kỹ thuật hoặc bí mật, ít người biết", nhưng đối với các nội dung mang tính trao đổi, phân nửa số nội dung nó tạo ra có tính hợp lý khá cao.
Ví dụ, phần mềm được giao đoạn văn bản sau:
"In a shocking finding, scientist discovered a herd of unicorns living in a remote, previously unexplored valley, in the Andes Mountains. Even more surprising to the researchers was the fact that the unicorns spoke perfect English." (Trong một phát hiện gây sốc, các nhà khoa học đã tìm ra một đàn kỳ lân sống ở một thung lũng xa xôi, chưa từng được khám phá trước đây, ở Dãy Andes. Ngạc nhiên hơn nữa với các nhà nghiên cứu là lũ kỳ lân nói tiếng Anh một cách hoàn hảo).
Dựa trên hai câu đó, GPT-2 đã có thể viết tiếp câu chuyện kỳ lạ này bằng 9 đoạn văn khác theo cách mà nếu không biết, bạn sẽ tin rằng chúng được viết bởi con người. Dưới đây là một số đoạn văn do máy viết:
"The scientist named the population, after their distinctive horn, Ovid’s Unicorn. These four-horned, silver-white unicorns were previously unknown to science.
Now, after almost two centuries, the mystery of what sparked this odd phenomenon is finally solved.
Dr. Jorge Pérez, an evolutionary biologist from the University of La Paz, and several companions, were exploring the Andes Mountains when they found a small valley, with no other animals or humans. Pérez noticed that the valley had what appeared to be a natural fountain, surrounded by two peaks of rock and silver snow."
(Các nhà khoa học đã đặt tên cho bầy này, theo cái sừng đặc trưng của chúng, là Ovid's Unicorn. Những con kỳ lân 4 sừng, màu trắng bạc này trước đây chưa từng được khoa học biết đến.
Hiện nay, sau gần 2 thế kỷ, bí ẩn tạo nên hiện tượng kỳ lạ này cuối cùng đã được giải đáp.
Tiến sỹ Jorge Perez, một nhà sinh vật học tiến hóa từ Đại học La Paz và nhiều cộng sự lúc đó đang khám phá Dãy Andes thì tìm thấy một thung lũng nhỏ, không có động vật hay con người. Perez chú ý thấy thung lũng có một suối nước tự nhiên, vây quanh bởi hai đỉnh đá và tuyết bạc).
GPT-2 đặc biệt giỏi trong việc bắt chước văn phong và nội dung của đoạn văn được cung cấp. Tờ Guardian đã có cơ hội thử qua phần mềm và cung cấp cho nó dòng đầu tiên trong cuốn Nineteen Eighty-Four của George Orwell: "It was a bright cold day in April, and the clocks were striking thirteen" (Đó là một ngày trời quang và lạnh tháng tư, và đồng hồ reo lên báo hiệu 13 giờ). Chương trình nhanh chóng nhận biết được văn phong của câu đó và tạo ra một câu chuyện khoa học viễn tưởng của chính nó:
"I was in my car on my way to a new job in Seattle. I put the gas in, put the key in, and then I let it run. I just imagined what the day would be like. A hundred years from now. In 2045, I was a teacher in some school in a poor part of rural China. I started with Chinese history and history of science." (Tôi đang trên xe đến nơi làm mới ở Seattle. Tôi nhấn ga, cắm chìa, và để xe chạy. Tôi tưởng tượng một ngày làm việc sẽ ra sao. 100 năm nữa từ lúc này. Vào năm 2045, tôi là giáo viên ở một vài ngôi trường ở vùng hẻo lánh nghèo khổ của Trung Quốc. Tôi dạy lịch sử Trung Quốc và lịch sử khoa học).
Các nhà nghiên cứu của OpenAI phát hiện ra rằng GPT-2 cực kỳ giỏi khi nó được giao những tác vụ mà nó vốn không được thiết kế để thực hiện, như biên dịch và tóm tắt. Trong báo cáo của họ, các nhà nghiên cứu viết rằng họ đơn giản chỉ cần huấn luyện mô hình theo cách phù hợp để nó thực thi những tác vụ ở một mức độ có thể sánh ngang với các mô hình chuyên dụng khác. Sau khi phân tích một câu chuyện ngắn về một cuộc đua Olympic, phần mềm đã có thể trả lời đúng những câu hỏi đơn giản như "Chiều dài cuộc đua là bao nhiêu?" và "Cuộc đua bắt đầu ở đâu?"
Những kết quả cực kỳ xuất sắc nói trên đã khiến các nhà nghiên cứu khiếp sợ. Họ quan ngại rằng công nghệ này sẽ bị lợi dụng để phục vụ cho việc viết tin tức giả. Tờ Guardian đã xuất bản một bản tin giả do phần mềm viết cùng với loạt bài họ viết về nghiên cứu này. Bản tin đó hoàn toàn có thể đọc hiểu tốt và có chứa những lời trích dẫn giả trùng khớp với chủ đề và nghe như thật. Ngữ pháp của bản tin tốt hơn rất nhiều bản tin giả khác mà bạn từng thấy. Và theo nhà báo Alex Hern của tờ The Guardian, phần mềm chỉ mất đúng 15 giây để viết ra bản tin đó.
Những quan ngại khác của các nhà nghiên cứu bao gồm: phần mềm có thể bị lạm dụng để tự động hóa các email lừa đảo, giả mạo người dùng trực tuyến, và tự tạo ra những nội dung quấy rối. Nhưng họ còn tin rằng phần mềm này có rất nhiều ứng dụng có thể mang lại lợi ích cho con người. Ví dụ, nó có thể là một công cụ mạnh mẽ để phát triển các phần mềm nhận dạng giọng nói hay các con bot trả lời khách hàng tốt hơn.
OpenAI dự định thảo luận với cộng đồng nghiên cứu AI về chiến lược tung ra phần mềm này, và họ hi vọng sẽ đưa ra được những quy chuẩn đạo đức nhằm định hướng loại hình nghiên cứu này trong tương lai. Họ cho biết sẽ thảo luận công khai nhiều hơn trong 6 tháng tới.
Tham khảo: Gizmodo