Cuộc thi Khoa học kỹ thuật cấp quốc gia học sinh trung học năm học 2022 – 2023 vừa diễn ra. Cuộc thi năm nay thu hút sự tham gia của 143 dự án của 272 học sinh, trong đó, có 48 học sinh cấp THCS và 224 học sinh cấp THPT.

Đến với cuộc thi lần này, đề tài “Cải tiến mô hình khuếch tán để tạo sinh hình ảnh” của 2 học sinh Đặng Bảo Khoa (lớp 12 chuyên Tin) và em Huỳnh Hà Giang (lớp 11 chuyên Tin) của trường THPT Chuyên Nguyễn Bỉnh Khiêm (TP Tam Kỳ, tỉnh Quảng Nam) vừa giành được giải Nhất.

Nhập dữ liệu, xuất hiện hình ảnh

Phân tích rõ hơn về đề tài, Khoa cho biết, trong năm 2022, các nhà nghiên cứu ở ĐH LMU Munich (Đức), đã cho mở mã nguồn của mô hình khuếch tán ổn định (Stable Diffusion) sau khi công bố chi tiết nghiên cứu trong hội nghị.

Mô hình này nhận nhập dữ liệu là một đoạn mô tả bằng ngôn ngữ tự nhiên, sau đó cho ra một hình ảnh thể hiện trực quan những thông tin và dữ kiện trong đoạn mô tả đó.

Ý tưởng cải tiến mô hình nhờ việc thiết kế cho các câu lạc bộ ngoại khóa trong trường

“Trong khi làm việc cho các câu lạc bộ ngoại khóa của trường, chúng em được giao những nhiệm vụ như thiết kế logo, tranh ảnh hoặc poster. 

Nguồn tư liệu hình ảnh chúng em tìm được trên Google quá ít, thậm chí còn không có hình ảnh chính xác với nhu cầu của chúng em, vì vậy chúng em đã tìm đến mô hình Stable Diffusion”, Khoa chia sẻ.

Giang tiếp lời, tuy nhiên, nhận thấy đối với những văn bản đầu vào phức tạp, có nhiều ngữ nghĩa (gồm nhiều mệnh đề mô tả các sự vật có nhiều thuộc tính về màu sắc, kích thước, phong cách, hình dáng, số lượng), hình ảnh đầu ra của mô hình này không nhất quán với các mô tả ở dữ liệu đầu vào, nhóm đã lên ý tưởng nâng cấp mô hình.

Mô hình dễ dàng cho ta thấy được kết quả khi nhập dữ liệu bằng chữ

Hà Giang giải thích: “Đối với những văn bản đầu vào phức tạp, có nhiều yếu tố ngữ nghĩa ở nhiều bối cảnh khác nhau, mô hình sau khi cải tiến của chúng em có thể cho ra hình ảnh chuẩn xác với các mô tả ở dữ liệu đầu vào”.

Mô hình này sẽ nhận dữ liệu đầu vào là một đoạn văn bản mô tả, sau đó sẽ tạo ra một hình ảnh tương ứng cho người dùng qua giao diện web.

Khoa và Giang với mô hình nhập chữ 'biến' thành hình ảnh

Ví dụ nhập một đoạn mô tả: “A dolphin in Ha Long bay with the blue sky" (nghĩa là một con cá heo ở vịnh Hạ Long cùng bầu trời màu xanh), mã nguồn gốc của các nhà nghiên cứu ở đại học LMU Munich sẽ cho ra hình ảnh khó nhìn, chưa thực tế. Những hình ảnh sau khi được nâng cấp sẽ rõ ràng và chuẩn chỉ hơn.

“Trong quá trình làm phần mềm, hạ tầng là một điều rất khó khăn vì mô hình yêu cầu một lượng lớn bộ nhớ để xử lý”, Giang nêu lên khó khăn.

Hình ảnh được tạo lập khi nhập dữ liệu, hình ảnh bên trái là mô hình gốc, hai hình bên phải là mô hình được 2 học sinh cải tiến.

Phát triển những kết quả tinh xảo

Nói đến các dự định tiếp theo, Khoa cho rằng, mô hình khuếch tán (Diffusion) đạt được bước tiến mang tính cách mạng trong bài toán tổng hợp hình ảnh. Tuy nhiên, việc tạo sinh ra một kết quả tinh xảo vẫn là một thách thức rất lớn. 

Các mô hình khuếch tán không thể học được cách "vẽ" hoàn mỹ một chi tiết nhỏ, như năm ngón tay người. Để khắc phục được nhược điểm này, cần có những nghiên cứu chuyên sâu hơn, đồng thời bổ sung thêm nhiều dữ liệu rõ ràng và cụ thể. 

Các chi tiết cụ thể như ngón tay người mô hình chưa thực hiện chuẩn chỉ

“Chúng em đang thử nghiệm các nghiên cứu mới như DreamBooth, hỗ trợ học chuyển tiếp các mô hình tiền huấn luyện chỉ với số lượng rất ít các vật mẫu mới (few-shot learning), với mục tiêu tạo ra được kết quả chất lượng cao. Cùng với đó, sẽ cố gắng nâng cấp mô hình chạy bằng tiếng Việt”, nam sinh định hướng.

Thầy Phan Văn Lĩnh - Phó Hiệu trưởng Trường THPT Chuyên Nguyễn Bỉnh Khiêm (cũng là giáo viên cố vấn), cho biết lần đầu nghe các em trình bày về ý tưởng đã rất ấn tượng và muốn hỗ trợ các em thực hiện đến cùng bài toán thiết thực này.

Thầy Phan Văn Lĩnh - Phó Hiệu trưởng Trường THPT Chuyên Nguyễn Bỉnh Khiêm

“Ban đầu, Khoa và Giang đề xuất ý tưởng cải tiến công cụ tạo sinh hình ảnh, chỉ bởi vì các em nghĩ rằng nó có thể giúp ích cho công việc thiết kế đồ họa ở câu lạc bộ ngoại khoá trong trường. 

Tuy nhiên, tôi đã nhận ra ngay tiềm năng vô hạn của đề tài trong rất nhiều lĩnh vực: giáo dục, truyền thông, điều tra phá án, thiết kế nội thất. Bất cứ công việc gì cần phải sử dụng tranh ảnh, ta có thể ứng dụng công cụ này để tự động hoá hoàn toàn, giải phóng sức lao động của con người”, thầy Lĩnh giải thích.

Ví dụ, chỉ một tác dụng nhỏ như tạo tranh minh hoạ cho bài học trên lớp hoặc hỗ trợ các đồng chí điều tra viên phác thảo chân dung tội phạm qua lời mô tả bằng ngôn ngữ tự nhiên, cũng có thể phát huy được tác dụng của công cụ tạo sinh ảnh để tạo ra một tác động rất lớn đến xã hội quanh ta.

Thầy đánh giá lợi thế của phần mềm này là có tiềm năng tự động hóa rất lớn, giúp giải phóng sức lao động của con người và giảm tối đa kinh phí.