Tổng quan về các mô hình tạo sinh trong AI
Mô hình xác suất tường minh (explicit likelihood-based models) vs Mô hình ngầm định (implicit generative models)
I. Giới
thiệu
Mô hình tạo sinh (generative model) là hệ thống AI học từ các
ví dụ dữ liệu (ví dụ: hình ảnh, văn bản) và có khả năng tạo ra dữ liệu mới
tương tự. Nói cách khác, mô hình tạo sinh học phân phối xác suất của dữ liệu huấn
luyện, rồi sinh ra các mẫu mới từ phân phối đó[1]. Các mô hình tạo sinh sâu hiện nay chủ
yếu chia thành hai nhóm chính dựa trên cách chúng biểu diễn phân phối
xác suất của dữ liệu[2]:
· Nhóm mô hình
xác suất tường minh (explicit likelihood-based models): trực tiếp biểu diễn và ước lượng hàm mật độ
xác suất của dữ liệu. Nhóm này học phân phối bằng cách tối đa hóa likelihood
(xác suất) trên dữ liệu (thường là tối đa hóa hàm log-likelihood hoặc xấp xỉ bằng
các mục tiêu phụ)[2][3]. Ví dụ tiêu biểu gồm mô hình tự hồi quy,
mô hình dòng chuẩn hóa (normalizing flow), mô hình dựa trên năng lượng
(EBM) và bộ mã hóa tự động biến phân (VAE)[4].
· Nhóm mô hình tạo
sinh ngầm định (implicit generative models): không biểu diễn tường minh hàm mật độ, mà biểu
diễn phân phối một cách ngầm thông qua quy trình sinh mẫu. Thay vì tính xác
suất cụ thể cho từng điểm dữ liệu, nhóm này tập trung vào việc tạo ra các mẫu mới
sao cho phân biệt không được với dữ liệu thật[5]. Ví dụ nổi bật nhất là mạng đối kháng tạo
sinh (GAN)[5], trong đó một mạng sinh (generator) biến đổi một
vector nhiễu ngẫu nhiên thành dữ liệu giả, còn một mạng phân biệt
(discriminator) cố gắng phân biệt dữ liệu giả so với dữ liệu thật.
II. Mô hình tạo sinh xác suất tường minh
(Explicit Likelihood-Based Models)
Mô hình tạo sinh dựa
trên xác suất tường minh biểu diễn trực tiếp
phân phối xác suất p(x) của dữ liệu và có thể tính được xác suất (hoặc mật độ)
cho mỗi mẫu. Nôm na, mô hình loại này không chỉ tạo dữ liệu mới mà còn
biết xác suất của dữ liệu đó theo phân phối đã học[6]. Chúng thường được huấn
luyện bằng cách tối đa hóa likelihood của dữ liệu huấn luyện, tức điều
chỉnh tham số theta để p_|theta(x) khớp nhất với
phân phối dữ liệu gốc[7]. Ưu điểm của cách tiếp
cận này là mô hình cung cấp được thước đo định lượng về mức độ “giống” dữ liệu
thật của mẫu sinh ra (giá trị xác suất hay xác suất hậu nghiệm). Tuy nhiên, để
làm được điều đó, mô hình thường phải giản ước cấu trúc hoặc chấp nhận xấp
xỉ trong tính toán, nhằm đảm bảo việc tính toán hàm phân phối p(x) khả thi[3].
Hình 1: Các kiến trúc tiêu biểu của mô hình xác suất tường minh. Từ trái
sang phải: Mạng Bayes (ví dụ VAE) biểu diễn quan hệ giữa biến tiềm
ẩn z và quan sát x; Trường ngẫu nhiên Markov (MRF) biểu diễn phân
phối qua đồ thị không hướng; Mô hình tự hồi quy biểu diễn p(x) dưới
dạng tích các xác suất có điều kiện (mỗi nút màu phụ thuộc các nút trước nó);
Mô hình dòng chuẩn hóa biến đổi phân phối dữ liệu (xoắn màu xanh) về
phân phối tiềm ẩn đơn giản (điểm xanh) thông qua hàm biến đổi khả nghịch. Tất cả
đều biểu diễn tường minh phân phối xác suất của dữ liệu[2][8].
Các mô hình xác
suất tường minh gồm hai nhóm con chính: mật độ khả tích và mật
độ xấp xỉ[9][10]:
· Mô hình mật độ
khả tích (Tractable density models): Là các mô hình mà hàm
xác suất có thể tính chính xác và nhanh. Điều này thường đạt được bằng cách
thiết kế kiến trúc đặc biệt để việc tính toán phân phối không quá phức tạp[11]. Mô hình tự hồi quy
(autoregessive) là một ví dụ tiêu biểu: mô hình ước lượng phân phối bằng cách
nhân các xác suất có điều kiện của từng phần tử (ví dụ: xác suất chuỗi ký tự được
tách thành tích xác suất của từng từ/token dựa trên các từ trước đó)[12]. Nhờ kiến trúc chuỗi
nhân quả (ví dụ Transformer dự đoán từ tiếp theo), mô hình tự hồi quy đảm bảo
tính toán đúng xác suất cho toàn bộ chuỗi. Một ví dụ nổi bật là PixelCNN/PixelRNN
trong sinh ảnh (dự đoán từng pixel theo pixel trước) và các mô hình Transformer
như GPT-4 trong sinh văn bản (dự đoán từng từ dựa trên từ trước)[12][13]. Ngoài ra, mô hình
dòng chuẩn hóa (normalizing flow) cũng thuộc loại khả tích: chúng biến đổi
dữ liệu qua một chuỗi hàm khả nghịch để tạo thành phân phối đơn giản
(như Gaussian) ở không gian tiềm ẩn; nhờ tính khả nghịch, ta áp dụng được công
thức biến đổi xác suất để tính mật độ một cách chính xác[14]. Ví dụ, mô hình RealNVP
và Glow sử dụng kiến trúc mạng khả nghịch để sinh ảnh có xác suất tính
được chính xác. Một số mô hình xác suất cổ điển như Naive Bayes hay Gaussian
Mixture cũng thuộc nhóm này, vì có công thức tính xác suất tường minh[15].
· Mô hình mật độ
xấp xỉ (Approximate density models): Nhóm này cho phép xác
suất tính toán được một cách xấp xỉ, không đóng dạng hoặc không khả
thi tính đúng. Thay vì cho đáp số xác suất chính xác, mô hình dùng các kỹ thuật
xấp xỉ/thay thế để ước lượng phân phối[10]. Tiêu biểu là bộ mã
hóa tự động biến phân (VAE): mô hình VAE gồm một bộ mã hóa (encoder) nén dữ
liệu về phân phối tiềm ẩn và một bộ giải mã (decoder) tái tạo dữ liệu từ phân
phối đó. Vì không tính được chính xác xác suất dữ liệu tái tạo, VAE sử dụng một
cận dưới gọi là ELBO để làm hàm mục tiêu huấn luyện – về bản chất, tối
đa hóa ELBO sẽ xấp xỉ tối đa hóa likelihood[16]. Nhờ đó, VAE học được
phân phối tiềm ẩn liên tục của dữ liệu và sinh mẫu mới bằng cách lấy mẫu từ
phân phối tiềm ẩn rồi giải mã. Các biến thể VAE gần đây như β-VAE, VQ-VAE
và NVAE đã cải thiện chất lượng mẫu sinh và khả năng biểu diễn của không
gian tiềm ẩn. Một loại khác là mô hình dựa trên năng lượng (Energy-Based
Model, EBM): thay vì cho hàm mật độ chuẩn hóa, EBM định nghĩa một hàm năng
lượng E(x) sao cho những x có năng lượng thấp sẽ có xác suất cao (theo công thức
Boltzmann p(x) | propto e^{-E(x)})[17]. Nhược điểm là hằng số
normal Z_\theta thường không tính được, nên EBM phải dựa vào các thủ thuật như
chuỗi Markov (MCMC) và huấn luyện thông qua score matching hoặc contrastive
divergence thay vì trực tiếp tối đa likelihood[18][19]. Mặc dù huấn luyện khó
khăn, một số EBM sâu gần đây (như IGEBM 2019 hay JEM 2020) đã cho
kết quả khả quan, nhưng nhìn chung EBMs chưa đạt chất lượng ảnh cao như GAN hay
diffusion. Cuối cùng, mô hình khuếch tán (diffusion models) cũng có thể
xếp vào nhóm này. Mô hình khuếch tán (ví dụ DDPM – Denoising Diffusion
Probabilistic Models) khởi đầu sinh dữ liệu từ nhiễu trắng rồi dần dần loại
bỏ nhiễu qua nhiều bước để thu được mẫu dữ liệu[20]. Việc tính xác suất
cho mẫu sinh ra rất phức tạp do chuỗi nhiều bước khuếch tán, nhưng ta có thể xấp
xỉ likelihood của mô hình diffusion bằng cách tối đa hóa một biến thể ELBO
tương tự VAE[20]. Nhờ kết hợp huấn luyện
theo hướng xác suất với quá trình sinh mẫu nhiều bước, mô hình khuếch tán hiện
nay tạo ra ảnh rất chân thực. Thực tế, diffusion models đã vươn lên trở
thành phương pháp sinh ảnh SOTA (state-of-the-art) trong vài năm gần
đây, vượt qua cả GAN về chất lượng mẫu ở nhiều nhiệm vụ[21]. Ví dụ, các hệ thống nổi
tiếng như DALL∙E 2, Stable Diffusion hay Midjourney đều dựa
trên biến thể của mô hình khuếch tán để tạo ảnh có độ phân giải và chi tiết
cao. Song song đó, trong lĩnh vực ngôn ngữ, mô hình Transformer tự hồi quy cỡ
lớn (LLM như GPT-3, GPT-4) đã chứng tỏ sức mạnh vượt trội – ChatGPT thực chất
là một mô hình tạo sinh xác suất dạng tự hồi quy, dự đoán từng từ dựa trên phân
phối xác suất đã học[13]. Những thành công này
cho thấy cách tiếp cận xác suất tường minh (đặc biệt là mô hình tự hồi quy và
mô hình khuếch tán) có thể mở rộng hiệu quả, vừa sinh dữ liệu chân thực vừa
cung cấp được phép đánh giá định lượng xác suất mẫu[13][22].
Mô hình tạo sinh ngầm định (Implicit
Generative Models)
Khác với mô hình tường
minh, mô hình tạo sinh ngầm định tập trung vào việc tạo dữ liệu có
tính chân thực mà không cần tính toán hay ước lượng trực tiếp xác suất của
dữ liệu đó[23]. Mô hình ngầm định chỉ
định nghĩa một quy trình sinh sao cho đầu ra phân phối giống dữ liệu huấn
luyện, nhưng không thể trả lời “xác suất của mẫu X là bao nhiêu” cho một
mẫu cụ thể[24][25]. Có thể hình dung nhóm
mô hình này như một “đầu bếp sáng tạo” chỉ quan tâm nấu món ăn ngon miệng như
món thật, chứ không quan tâm ghi lại công thức xác suất của từng món[26]. Mục tiêu huấn luyện
thường là làm sao cho mô hình sinh ra dữ liệu đánh lừa được một phép thử
hoặc bộ phân biệt nào đó tin rằng dữ liệu đó là thật[27]. Mô hình ngầm định
tránh được việc phải tính hằng số chuẩn hóa phân phối, nhưng đổi lại thường phải
giải các bài toán tối ưu khó (ví dụ huấn luyện đối kháng) và quy trình sinh mẫu
có thể phức tạp, khó kiểm soát hơn.
Hình 2: Minh họa nguyên lý mô hình tạo sinh ngầm định. Một vector nhiễu ngẫu nhiên (bên trái) được đưa qua một mạng sinh (các tầng màu lục và lam) để tạo ra mẫu dữ liệu đầu ra (bên phải, ví dụ hình ảnh chú chó). Mạng không biểu diễn xác suất tường minh, mà học cách biến đổi phân phối nhiễu thành phân phối dữ liệu thông qua quá trình huấn luyện. Mạng đối kháng tạo sinh (GAN) là ví dụ tiêu biểu thuộc nhóm này[5][27].
Hai phương pháp
nổi bật trong nhóm ngầm định là mạng đối kháng tạo sinh (GAN) và mô
hình tạo sinh dựa trên hàm điểm (score-based generative model):
· Mạng đối kháng
tạo sinh (Generative Adversarial Network – GAN): Đây là phương pháp do
Ian Goodfellow và cộng sự đề xuất năm 2014, gồm hai mạng nơ-ron đối nghịch
nhau trong quá trình huấn luyện[28][29]. Mạng sinh (generator)
nhận đầu vào là một vector nhiễu ngẫu nhiên epsilon (thường lấy từ phân phối
đơn giản như Gaussian) và học hàm biến đổi g_\theta(epsilon) để tạo ra dữ liệu
giả x = g(\epsilon) sao cho giống dữ liệu thật[5][30]. Mạng phân biệt
(discriminator) nhận cả dữ liệu thật và dữ liệu giả, học hàm D_\phi(x) để phân
loại xem x là thật hay giả. Hai mạng này chơi trò chơi minimax: generator
cố gắng tạo mẫu ngày càng giống thật để đánh lừa discriminator,
còn discriminator cố học để phân biệt chính xác[30]. Quá trình này tiếp diễn
đến khi discriminator không còn phân biệt được nữa – tức generator
đã sinh mẫu rất realist. Ưu điểm của GAN là cho chất lượng mẫu rất cao,
sắc nét và chi tiết, vì mạng sinh được hướng dẫn trực tiếp bởi phản hồi của mạng
phân biệt. Tuy nhiên, nhược điểm của GAN là khó huấn luyện ổn định – hai
mạng có thể không cân bằng dẫn đến hiện tượng mode collapse (mạng sinh
chỉ tạo ra vài kiểu mẫu lặp lại) hoặc không hội tụ[31]. Trong thập kỷ qua đã
có rất nhiều biến thể GAN nhằm cải thiện tính ổn định và đa dạng của mẫu sinh.
Ví dụ, Conditional GAN thêm điều kiện (nhãn lớp hoặc thông tin phụ) vào
cả generator và discriminator, cho phép điều khiển đầu ra theo ý muốn (ví dụ
sinh ảnh thuộc một lớp nhất định)[32]. CycleGAN
(2017) sử dụng hai cặp generator-discriminator để thực hiện hoán đổi domain
giữa hai miền dữ liệu mà không cần dữ liệu ghép cặp – nổi tiếng với khả năng biến
ảnh ngựa thành ngựa vằn, ảnh mùa hè thành mùa đông
và ngược lại[33]. CycleGAN mở ra hướng ứng
dụng style transfer và biến đổi hình ảnh không cần dữ liệu song song. Về chất
lượng ảnh, các mô hình GAN ngày càng cải thiện: StyleGAN (2018–2019) giới
thiệu kiến trúc generator dựa trên không gian style, cho phép điều khiển
linh hoạt các thuộc tính ảnh (từ đặc điểm thô như bố cục đến chi tiết như tàn
nhang trên khuôn mặt) bằng cách chỉnh vector trong không gian tiềm ẩn[34]. StyleGAN và StyleGAN2
đã tạo ra những khuôn mặt tổng hợp có độ chân thực đáng kinh ngạc, khó phân biệt
với ảnh người thật. BigGAN (2018) mở rộng GAN lên quy mô lớn hơn (mạng lớn
hơn, dữ liệu ImageNet), cho kết quả ảnh có độ phân giải cao và đa dạng hơn hẳn
so với các GAN trước đó[35]. Nhìn chung, GAN và
các biến thể của nó vẫn là một trong những phương pháp tạo sinh mạnh mẽ cho đến
nay, đặc biệt trong các ứng dụng cần ảnh chất lượng cao và điều khiển được đặc
trưng ảnh (như sinh chân dung giả, ảnh nghệ thuật, v.v.).
· Mô hình tạo sinh dựa trên hàm điểm (Score-Based Generative Model): Đây là hướng tiếp cận mới đầy hứa hẹn, do Yang Song và đồng nghiệp khởi xướng khoảng năm 2019[36]. Thay vì trực tiếp học hàm xác suất hay học cách tạo ảnh qua đối kháng, mô hình này học hàm điểm (score function) – chính là gradient của log xác suất[37].
Trực giác ở đây: hàm điểm cho biết hướng tăng xác suất mạnh nhất tại mỗi điểm dữ liệu, nên nếu ta biết hàm điểm, ta có thể thực hiện một quy trình sinh mẫu bằng cách bắt đầu từ nhiễu và lần theo hướng tăng mật độ để đi dần đến vùng dữ liệu thật[38][39]. Cụ thể, mô hình học s_\theta(x) thông qua kỹ thuật score matching trên các dữ liệu bị nhiễu hóa (để tránh phân bố phức tạp).
Sau khi học xong score network, ta sinh dữ liệu bằng cách áp dụng giải thuật Langevin Dynamics: khởi đầu từ một điểm nhiễu x (phân phối noise), rồi lặp đi lặp lại nhiều bước nhỏ[40]:
Thành phần gradient tăng mật độ dẫn dắt mẫu đi về vùng xác suất cao hơn, còn thành phần
nhiễu \xi_t giúp khám phá không gian và tránh rơi vào cực trị nội. Quá trình
Langevin lặp đến khi t=0 sẽ thu được mẫu dữ liệu từ phân phối đã học[40]. Các mô hình khuếch
tán phổ biến hiện nay thực chất là một dạng score-based model: thay
vì chạy Langevin ngẫu nhiên, chúng thiết kế một quá trình khuếch tán/khử nhiễu
theo thời gian liên tục hoặc rời rạc và huấn luyện mạng để dự đoán nhiễu hoặc
tính hàm điểm tương ứng ở mỗi bước. Nhờ tránh được huấn luyện đối kháng và
không cần tính hàm normalizing, mô hình dựa trên điểm ổn định trong huấn luyện
và cho chất lượng mẫu cạnh tranh với GAN[41]. Thậm chí, các mô hình
score-based/khuếch tán hiện đại còn hỗ trợ tính likelihood chính xác (hoặc
xấp xỉ rất tốt) nhờ kết nối với mô hình flow liên tục[42][43], tức là vừa sinh ảnh đẹp
vừa có khả năng đánh giá xác suất như mô hình tường minh. Thực tế đã chứng minh
hiệu quả vượt trội của hướng tiếp cận này: các mô hình Score-based SDE
(Song et al. 2021), DDPM và biến thể cải tiến (IDDPM, DDIM), cũng như Latent
Diffusion (Stable Diffusion) đã đạt state-of-the-art trên nhiều nhiệm
vụ như sinh ảnh (hơn cả GAN), tổng hợp âm thanh, sinh hình 3D, v.v.[21]. Điểm độc đáo nữa là
mô hình dựa trên điểm có thể ứng dụng tự nhiên vào bài toán nghịch đảo:
bởi vì đã học \nabla \log p(x), ta có thể dùng nó để giải mã thông tin
còn thiếu (như phục hồi ảnh nhiễu, màu hóa ảnh đen trắng, dựng ảnh từ dữ liệu y
tế thiếu), mà không cần huấn luyện lại mô hình[44]. Nhờ những ưu điểm
này, mô hình tạo sinh dựa trên hàm điểm (kết hợp khuếch tán) đang ngày càng được
quan tâm và có thể coi là cầu nối thu hẹp khoảng cách giữa mô hình xác suất tường
minh và mô hình ngầm định.
Bảng so sánh mô hình xác suất tường minh
và mô hình ngầm định
Để tóm tắt sự khác biệt
giữa hai nhóm mô hình tạo sinh chính, bảng dưới đây liệt kê một số khía cạnh so
sánh:
|
Đặc điểm |
Mô hình xác
suất tường minh (Explicit) |
Mô hình tạo
sinh ngầm định (Implicit) |
|
Biểu diễn
phân phối |
Biểu diễn tường
minh hàm mật độ/xác suất p(x). Có công thức xác định (hoặc cận dưới) cho
xác suất của mọi mẫu[2][3]. |
Biểu diễn ngầm
định thông qua quá trình sinh mẫu. Không định nghĩa trực tiếp hàm
mật độ, không tính được xác suất của mẫu cụ thể[24][25]. |
|
Huấn luyện |
Thường dùng tối
đa hóa likelihood (hoặc xấp xỉ như ELBO) trên dữ liệu huấn luyện. Đòi
hỏi mô hình phải đơn giản hóa để tính được p(x) hoặc dùng mục tiêu biến đổi để
xấp xỉ[7][3]. |
Thường dùng tối
ưu phân biệt hoặc đối kháng: điều chỉnh quá trình sinh để mẫu
giả không phân biệt được với mẫu thật, hoặc tối thiểu khoảng cách phân phối
theo một tiêu chí cho trước (ví dụ minmax GAN)[27][30]. |
|
Ví dụ phương
pháp |
- Tự hồi
quy: Mô hình chuỗi (PixelCNN, GPT) tính xác suất mẫu bằng tích các xác suất
có điều kiện[12]. - Flow chuẩn
hóa: Biến đổi khả nghịch (RealNVP, Glow) cho phép tính mật độ chính xác bằng
công thức biến đổi[14]. - Biến
phân (VAE): Mã hóa phân phối tiềm ẩn, dùng ELBO làm mục tiêu để xấp xỉ
phân phối dữ liệu[16]. - Năng lượng
(EBM): Định nghĩa phân phối qua hàm năng lượng (ví dụ Boltzmann), huấn
luyện bằng sampling/contrastive (ví dụ RBM, IGEBM) do không có mật độ chuẩn
hóa tường minh[18][19]. - Khuếch
tán: Khuếch tán và khử nhiễu dần (DDPM, Stable Diffusion), tối đa hóa cận
likelihood, sinh mẫu qua chuỗi nhiều bước[20]. |
- GANs:
Hai mạng đối kháng (generator & discriminator) huấn luyện qua game minmax
(ví dụ DCGAN, StyleGAN, BigGAN)[30][34]. - Nhúng điều
kiện: Điều kiện hóa đầu ra bằng nhãn hoặc thông tin phụ (Conditional GAN,
CycleGAN) để điều khiển mẫu sinh hoặc chuyển đổi domain[32][33]. - Score-based/Diffusion:
Mạng ước lượng score (nabla log p) và quy trình sinh mẫu qua Langevin
hoặc khuếch tán ngược (NCSN, DDPM, Score SDE) – mặc dù có thể xem là nối giữa
implicit và explicit, nhiều biến thể khuếch tán hiện nay không yêu cầu tính
xác suất tường minh cho mỗi mẫu[45][40]. |
|
Ưu điểm |
- Có xác
suất: Đánh giá được độ “tin cậy” của mẫu sinh thông qua likelihood hoặc
ELBO. - Ổn định:
Huấn luyện quy về tối ưu likelihood (convex hơn đối kháng), ít gặp vấn đề hội
tụ hơn GAN. - Đa dạng:
Bao quát được phân phối dữ liệu tốt, ít nguy cơ mode collapse (đặc biệt
VAEs, diffusion)[46]. |
- Chân thực
cao: Tạo mẫu sắc nét, chi tiết (đặc biệt GAN thường cho ảnh rất thật)[28][47]. - Linh hoạt:
Quy trình sinh có thể điều chỉnh (như thêm điều kiện vào GAN) để tạo ra đầu
ra theo ý muốn (ảnh theo lớp, chuyển style, v.v.)[32][33]. - Không cần
chuẩn hóa: Né được bài toán tính Z_\theta phức tạp; ví dụ GAN,
score-based chỉ cần sinh mẫu sao cho phân phối gần đúng dữ liệu, không cần trị
xác suất tuyệt đối[3][48]. |
|
Hạn chế |
- Giả định/giản
lược: Mô hình phải đơn giản hóa cấu trúc (như AR phải tuần tự, flow phải
khả nghịch) hoặc chấp nhận xấp xỉ (VAE, EBM) để tính được likelihood[3]. - Chất lượng
mẫu: Mẫu từ VAE có thể mờ hơn (do tối ưu ELBO thay vì dữ liệu thật trực
tiếp), autoregressive cho ảnh thường bị giới hạn độ phân giải (do phải sinh
tuần tự). - Tốc độ
sinh: Autoregressive sinh mẫu chậm (phải lấy mẫu từng bước), diffusion
cũng chậm (nhiều bước khuếch tán). |
- Khó huấn
luyện: Điển hình GAN rất nhạy cảm, dễ mất ổn định, đòi hỏi nhiều
kinh nghiệm để điều chỉnh (mode collapse, vanishing gradient)[31]. - Không có
likelihood: Không đánh giá định lượng được mẫu – mô hình chỉ biết tạo ra
dữ liệu, không biết xác suất của nó (khó tích hợp vào các hệ thống yêu cầu
xác suất, ví dụ mô hình sinh kết hợp suy luận Bayes)[24][25]. - Điều khiển
gián tiếp: Với mô hình chỉ có quy trình sinh (như GAN), việc điều khiển
chi tiết đầu ra cần trick (như thêm điều kiện, hoặc chỉnh latent thủ công),
không trực tiếp như mô hình có xác suất (có thể sửa mẫu bằng xác suất hậu
nghiệm). |
Những tiến bộ này cho thấy sự phong phú của
phương pháp tiếp cận trong GenAI, mỗi loại mô hình đều có vị trí thích hợp tùy
bài toán: khi cần độ tin cậy và đo lường xác suất, ta ưu tiên mô hình
xác suất tường minh; khi cần chất lượng mẫu cực cao hoặc linh hoạt trong
sáng tạo, mô hình ngầm định (đặc biệt là GAN, khuếch tán) là lựa chọn hàng
đầu[13][22].
[1]
[6]
[7]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[20]
[23]
[24]
[25]
[26]
[27]
[30]
[32]
[33]
[34]
[35]
[37]
[38]
[39]
[40]
[45]
[51]
The Generative AI Model Map. Understanding Explicit and Implicit… | by Ayo
Akinkugbe | Towards AI
https://pub.towardsai.net/the-generative-ai-model-map-fff0b6490f77?gi=fd43321440d1
[2]
[3]
[4]
[5]
[8]
[17]
[18]
[19]
[21]
[31]
[36]
[41]
[42]
[43]
[44]
[48]
[49]
[50]
Generative Modeling by Estimating Gradients of the Data Distribution | Yang
Song
https://yang-song.net/blog/2021/score/
[22]
[2307.16680] On the Trustworthiness Landscape of State-of-the-art Generative
Models: A Survey and Outlook
https://arxiv.org/abs/2307.16680
[28]
[29]
[46]
[47]
Generative Models in AI: A Comprehensive Comparison of GANs and VAEs -
GeeksforGeeks
Nhận xét
Đăng nhận xét