Không chỉ gói gọn ở những bản phác thảo, công nghệ đã có những ứng dụng rõ nét trong đời sống, thậm chí nghệ thuật. Đơn cử, nhạc sĩ, kỹ sư Nguyễn Hoàng Bảo Đại sinh năm 1994 và là một trong những kỹ sư đặc biệt trong cộng đồng AI Việt Nam. Anh vừa có thể lập trình, lại có thể sáng tác và biểu diễn âm nhạc.
Sau hai năm xây dựng, mô hình AI này đã có thể viết được 10 bài hát trong vòng một giây dựa trên 30.000 bài hát tiếng Việt.
AI sáng tác nhạc của Đại hoạt động theo mô hình: Nhạc sĩ "mớm" cho máy 3 - 5 nốt nhạc, sau đó, AI sẽ tự hoàn thiện, đưa ra một bài hát hoàn chỉnh.
Với mô hình AI này là người dùng chỉ cần chọn một giai điệu ngắn muốn viết, sau đó bấm nút. Máy sẽ cho ra các lựa chọn khác nhau, bạn sẽ chỉ cần nghe và chọn giai điệu mình thích. Trong từng giai điệu cũng có thể tiếp tục điều chỉnh theo ý mình. Nếu AI chưa đưa ra được kết quả như ý, có thể bắt "nó" viết tiếp đến khi nào ưng ý thì thôi. Thuật toán ngẫu nhiên trong AI cho phép tạo ra các bản nhạc không trùng nhau. Vì vậy, nỗi lo về bản quyền cũng có thể được kiểm soát bằng chính AI.
Mô hình Đại dùng để huấn luyện AI là Encoder - Decoder kết hợp thuật toán Attention và một vài công cụ cho nhạc pop Việt Nam. Để máy đọc được các giai điệu, dữ liệu đầu vào phải là file ở định dạng Midi. Anh giải thích: "Có thể hiểu nôm na rằng một bài hát hoàn chỉnh cũng như một món ăn. Mình ăn thấy ngon nhưng rất khó để biết được trong đó có những nguyên liệu, gia vị nào, liều lượng ra sao. Máy móc nghe nhạc ở định dạng Wav, Mp3... sẽ không thể tự tách hoà âm, phối khí ra để lấy giai điệu nên phải dùng nhạc định dạng Midi".
Tại sự kiện Tech Awards 2022 vừa qua, kỹ sư Nguyễn Hoàng Bảo Đại đã mang đến phần trình diễn kết hợp sức mạnh các mô hình AI trong bài toán sáng tạo nghệ thuật.
Theo Nguyễn Hoàng Bảo Đại, năm nay mô hình đã nâng cấp lên 2.0, có thể viết hòa âm song song giai điệu. Kỹ sư sinh năm 1994 cũng trình diễn hai phiên bản giai điệu: 1.0 vào năm 2020 và 2.0. Đại lý giải, mô hình năm nay có thể viết được cấu trúc hòa âm 2-5-1. Số 2 là Rê thứ, 5 là Sol 7, 1 là đô trưởng. Đây là cấu trúc cơ bản trong nhạc lý và mô hình năm nay có thể này bắt được, tạo ra bản hòa âm ấn tượng hơn.
Ngoài ra, nhạc sỹ, kỹ sư này cũng đề cập đến mô hình AI vẽ tranh hiện là xu thế được các họa sĩ ưa chuộng. Anh đưa ra bốn ví dụ: đầu vào là một đoạn văn bản ngắn mô tả (text) đầu ra là bức tranh tương ứng. Mô hình gốc là Diffusion Model (mô hình khuếch tán), hoạt động từ ý tưởng của lĩnh vực nhiệt động lực học không cân bằng. Nhờ AI, chúng ta có thể tính toán bằng phân phối xác xuất để mô hình này hoạt động hiệu quả hơn, học các yếu tố gây nhiễu để đầu ra là bức tranh đẹp.
Đồng thời Bảo Đại cũng chia sẻ một ý tưởng thú vị: kết hợp hai mô hình nhạc và vẽ tranh. Bước một là viết giai điệu và hòa âm, thứ hai là viết lời - sử dụng lời như một đầu vào cho mô hình Diffusion, nghĩa là đầu ra sẽ là bức tranh của phần lời mà mình đã viết.
"Nhưng sẽ tầm thường nếu chỉ một bức tranh đúng không ạ? Vậy nên mô hình này sẽ tạo ra 60 bức tranh trong một giây, ghép lại với nhau, nghĩa là tạo ra một video âm nhạc. Tôi đặt tên nó là mô hình vẽ MV thay vì mô hình vẽ tranh", Bảo Đại nói.
Ngay sau đó, nhạc sỹ, kỹ sư này đã trình diễn thực tế quá trình tạo ra video âm nhạc bằng AI. Sau khi biểu diễn, anh phân tích những bức tranh trong đoạn video mang tên "Hướng nội". Những biểu tượng ngôi sao, ánh sáng ngày đêm, ánh mắt... đều được AI sử dụng để vẽ thành bức tranh ấn tượng. AI còn giúp tối ưu hình ảnh đạt chất lượng 5K, tăng tần số quét lên 60 fps.
Nhạc sĩ tóm tắt lại quá trình sáng tạo nghệ thuật. Trong đó, AI được dùng để viết ca khúc, hòa âm và ý tưởng cho MV. Còn những công đoạn như phối khí, thu hát, mixing, mastering vẫn cần bàn tay con người.