Tổng quan về các mô hình tạo sinh trong AI

Mô hình xác suất tường minh (explicit likelihood-based models) vs Mô hình ngầm định (implicit generative models)

I. Giới thiệu

Mô hình tạo sinh (generative model) là hệ thống AI học từ các ví dụ dữ liệu (ví dụ: hình ảnh, văn bản) và có khả năng tạo ra dữ liệu mới tương tự. Nói cách khác, mô hình tạo sinh học phân phối xác suất của dữ liệu huấn luyện, rồi sinh ra các mẫu mới từ phân phối đó[1]. Các mô hình tạo sinh sâu hiện nay chủ yếu chia thành hai nhóm chính dựa trên cách chúng biểu diễn phân phối xác suất của dữ liệu[2]:

·       Nhóm mô hình xác suất tường minh (explicit likelihood-based models): trực tiếp biểu diễn và ước lượng hàm mật độ xác suất của dữ liệu. Nhóm này học phân phối bằng cách tối đa hóa likelihood (xác suất) trên dữ liệu (thường là tối đa hóa hàm log-likelihood hoặc xấp xỉ bằng các mục tiêu phụ)[2][3]. Ví dụ tiêu biểu gồm mô hình tự hồi quy, mô hình dòng chuẩn hóa (normalizing flow), mô hình dựa trên năng lượng (EBM) và bộ mã hóa tự động biến phân (VAE)[4].

·       Nhóm mô hình tạo sinh ngầm định (implicit generative models): không biểu diễn tường minh hàm mật độ, mà biểu diễn phân phối một cách ngầm thông qua quy trình sinh mẫu. Thay vì tính xác suất cụ thể cho từng điểm dữ liệu, nhóm này tập trung vào việc tạo ra các mẫu mới sao cho phân biệt không được với dữ liệu thật[5]. Ví dụ nổi bật nhất là mạng đối kháng tạo sinh (GAN)[5], trong đó một mạng sinh (generator) biến đổi một vector nhiễu ngẫu nhiên thành dữ liệu giả, còn một mạng phân biệt (discriminator) cố gắng phân biệt dữ liệu giả so với dữ liệu thật.

II. Mô hình tạo sinh xác suất tường minh (Explicit Likelihood-Based Models)

Mô hình tạo sinh dựa trên xác suất tường minh biểu diễn trực tiếp phân phối xác suất p(x) của dữ liệu và có thể tính được xác suất (hoặc mật độ) cho mỗi mẫu. Nôm na, mô hình loại này không chỉ tạo dữ liệu mới mà còn biết xác suất của dữ liệu đó theo phân phối đã học[6]. Chúng thường được huấn luyện bằng cách tối đa hóa likelihood của dữ liệu huấn luyện, tức điều chỉnh tham số theta để p_|theta(x) khớp nhất với phân phối dữ liệu gốc[7]. Ưu điểm của cách tiếp cận này là mô hình cung cấp được thước đo định lượng về mức độ “giống” dữ liệu thật của mẫu sinh ra (giá trị xác suất hay xác suất hậu nghiệm). Tuy nhiên, để làm được điều đó, mô hình thường phải giản ước cấu trúc hoặc chấp nhận xấp xỉ trong tính toán, nhằm đảm bảo việc tính toán hàm phân phối p(x) khả thi[3].



Hình 1: Các kiến trúc tiêu biểu của mô hình xác suất tường minh. Từ trái sang phải: Mạng Bayes (ví dụ VAE) biểu diễn quan hệ giữa biến tiềm ẩn z và quan sát x; Trường ngẫu nhiên Markov (MRF) biểu diễn phân phối qua đồ thị không hướng; Mô hình tự hồi quy biểu diễn p(x) dưới dạng tích các xác suất có điều kiện (mỗi nút màu phụ thuộc các nút trước nó); Mô hình dòng chuẩn hóa biến đổi phân phối dữ liệu (xoắn màu xanh) về phân phối tiềm ẩn đơn giản (điểm xanh) thông qua hàm biến đổi khả nghịch. Tất cả đều biểu diễn tường minh phân phối xác suất của dữ liệu[2][8].

Các mô hình xác suất tường minh gồm hai nhóm con chính: mật độ khả tíchmật độ xấp xỉ[9][10]:

·       Mô hình mật độ khả tích (Tractable density models): Là các mô hình mà hàm xác suất có thể tính chính xác và nhanh. Điều này thường đạt được bằng cách thiết kế kiến trúc đặc biệt để việc tính toán phân phối không quá phức tạp[11]. Mô hình tự hồi quy (autoregessive) là một ví dụ tiêu biểu: mô hình ước lượng phân phối bằng cách nhân các xác suất có điều kiện của từng phần tử (ví dụ: xác suất chuỗi ký tự được tách thành tích xác suất của từng từ/token dựa trên các từ trước đó)[12]. Nhờ kiến trúc chuỗi nhân quả (ví dụ Transformer dự đoán từ tiếp theo), mô hình tự hồi quy đảm bảo tính toán đúng xác suất cho toàn bộ chuỗi. Một ví dụ nổi bật là PixelCNN/PixelRNN trong sinh ảnh (dự đoán từng pixel theo pixel trước) và các mô hình Transformer như GPT-4 trong sinh văn bản (dự đoán từng từ dựa trên từ trước)[12][13]. Ngoài ra, mô hình dòng chuẩn hóa (normalizing flow) cũng thuộc loại khả tích: chúng biến đổi dữ liệu qua một chuỗi hàm khả nghịch để tạo thành phân phối đơn giản (như Gaussian) ở không gian tiềm ẩn; nhờ tính khả nghịch, ta áp dụng được công thức biến đổi xác suất để tính mật độ một cách chính xác[14]. Ví dụ, mô hình RealNVPGlow sử dụng kiến trúc mạng khả nghịch để sinh ảnh có xác suất tính được chính xác. Một số mô hình xác suất cổ điển như Naive Bayes hay Gaussian Mixture cũng thuộc nhóm này, vì có công thức tính xác suất tường minh[15].

·       Mô hình mật độ xấp xỉ (Approximate density models): Nhóm này cho phép xác suất tính toán được một cách xấp xỉ, không đóng dạng hoặc không khả thi tính đúng. Thay vì cho đáp số xác suất chính xác, mô hình dùng các kỹ thuật xấp xỉ/thay thế để ước lượng phân phối[10]. Tiêu biểu là bộ mã hóa tự động biến phân (VAE): mô hình VAE gồm một bộ mã hóa (encoder) nén dữ liệu về phân phối tiềm ẩn và một bộ giải mã (decoder) tái tạo dữ liệu từ phân phối đó. Vì không tính được chính xác xác suất dữ liệu tái tạo, VAE sử dụng một cận dưới gọi là ELBO để làm hàm mục tiêu huấn luyện – về bản chất, tối đa hóa ELBO sẽ xấp xỉ tối đa hóa likelihood[16]. Nhờ đó, VAE học được phân phối tiềm ẩn liên tục của dữ liệu và sinh mẫu mới bằng cách lấy mẫu từ phân phối tiềm ẩn rồi giải mã. Các biến thể VAE gần đây như β-VAE, VQ-VAENVAE đã cải thiện chất lượng mẫu sinh và khả năng biểu diễn của không gian tiềm ẩn. Một loại khác là mô hình dựa trên năng lượng (Energy-Based Model, EBM): thay vì cho hàm mật độ chuẩn hóa, EBM định nghĩa một hàm năng lượng E(x) sao cho những x có năng lượng thấp sẽ có xác suất cao (theo công thức Boltzmann p(x) | propto e^{-E(x)})[17]. Nhược điểm là hằng số normal Z_\theta thường không tính được, nên EBM phải dựa vào các thủ thuật như chuỗi Markov (MCMC) và huấn luyện thông qua score matching hoặc contrastive divergence thay vì trực tiếp tối đa likelihood[18][19]. Mặc dù huấn luyện khó khăn, một số EBM sâu gần đây (như IGEBM 2019 hay JEM 2020) đã cho kết quả khả quan, nhưng nhìn chung EBMs chưa đạt chất lượng ảnh cao như GAN hay diffusion. Cuối cùng, mô hình khuếch tán (diffusion models) cũng có thể xếp vào nhóm này. Mô hình khuếch tán (ví dụ DDPM – Denoising Diffusion Probabilistic Models) khởi đầu sinh dữ liệu từ nhiễu trắng rồi dần dần loại bỏ nhiễu qua nhiều bước để thu được mẫu dữ liệu[20]. Việc tính xác suất cho mẫu sinh ra rất phức tạp do chuỗi nhiều bước khuếch tán, nhưng ta có thể xấp xỉ likelihood của mô hình diffusion bằng cách tối đa hóa một biến thể ELBO tương tự VAE[20]. Nhờ kết hợp huấn luyện theo hướng xác suất với quá trình sinh mẫu nhiều bước, mô hình khuếch tán hiện nay tạo ra ảnh rất chân thực. Thực tế, diffusion models đã vươn lên trở thành phương pháp sinh ảnh SOTA (state-of-the-art) trong vài năm gần đây, vượt qua cả GAN về chất lượng mẫu ở nhiều nhiệm vụ[21]. Ví dụ, các hệ thống nổi tiếng như DALL∙E 2, Stable Diffusion hay Midjourney đều dựa trên biến thể của mô hình khuếch tán để tạo ảnh có độ phân giải và chi tiết cao. Song song đó, trong lĩnh vực ngôn ngữ, mô hình Transformer tự hồi quy cỡ lớn (LLM như GPT-3, GPT-4) đã chứng tỏ sức mạnh vượt trội – ChatGPT thực chất là một mô hình tạo sinh xác suất dạng tự hồi quy, dự đoán từng từ dựa trên phân phối xác suất đã học[13]. Những thành công này cho thấy cách tiếp cận xác suất tường minh (đặc biệt là mô hình tự hồi quy và mô hình khuếch tán) có thể mở rộng hiệu quả, vừa sinh dữ liệu chân thực vừa cung cấp được phép đánh giá định lượng xác suất mẫu[13][22].

Mô hình tạo sinh ngầm định (Implicit Generative Models)

Khác với mô hình tường minh, mô hình tạo sinh ngầm định tập trung vào việc tạo dữ liệu có tính chân thực mà không cần tính toán hay ước lượng trực tiếp xác suất của dữ liệu đó[23]. Mô hình ngầm định chỉ định nghĩa một quy trình sinh sao cho đầu ra phân phối giống dữ liệu huấn luyện, nhưng không thể trả lời “xác suất của mẫu X là bao nhiêu” cho một mẫu cụ thể[24][25]. Có thể hình dung nhóm mô hình này như một “đầu bếp sáng tạo” chỉ quan tâm nấu món ăn ngon miệng như món thật, chứ không quan tâm ghi lại công thức xác suất của từng món[26]. Mục tiêu huấn luyện thường là làm sao cho mô hình sinh ra dữ liệu đánh lừa được một phép thử hoặc bộ phân biệt nào đó tin rằng dữ liệu đó là thật[27]. Mô hình ngầm định tránh được việc phải tính hằng số chuẩn hóa phân phối, nhưng đổi lại thường phải giải các bài toán tối ưu khó (ví dụ huấn luyện đối kháng) và quy trình sinh mẫu có thể phức tạp, khó kiểm soát hơn.



Hình 2: Minh họa nguyên lý mô hình tạo sinh ngầm định. Một vector nhiễu ngẫu nhiên (bên trái) được đưa qua một mạng sinh (các tầng màu lục và lam) để tạo ra mẫu dữ liệu đầu ra (bên phải, ví dụ hình ảnh chú chó). Mạng không biểu diễn xác suất tường minh, mà học cách biến đổi phân phối nhiễu thành phân phối dữ liệu thông qua quá trình huấn luyện. Mạng đối kháng tạo sinh (GAN) là ví dụ tiêu biểu thuộc nhóm này[5][27].

Hai phương pháp nổi bật trong nhóm ngầm định là mạng đối kháng tạo sinh (GAN)mô hình tạo sinh dựa trên hàm điểm (score-based generative model):

·       Mạng đối kháng tạo sinh (Generative Adversarial Network – GAN): Đây là phương pháp do Ian Goodfellow và cộng sự đề xuất năm 2014, gồm hai mạng nơ-ron đối nghịch nhau trong quá trình huấn luyện[28][29]. Mạng sinh (generator) nhận đầu vào là một vector nhiễu ngẫu nhiên epsilon (thường lấy từ phân phối đơn giản như Gaussian) và học hàm biến đổi g_\theta(epsilon) để tạo ra dữ liệu giả x = g(\epsilon) sao cho giống dữ liệu thật[5][30]. Mạng phân biệt (discriminator) nhận cả dữ liệu thật và dữ liệu giả, học hàm D_\phi(x) để phân loại xem x là thật hay giả. Hai mạng này chơi trò chơi minimax: generator cố gắng tạo mẫu ngày càng giống thật để đánh lừa discriminator, còn discriminator cố học để phân biệt chính xác[30]. Quá trình này tiếp diễn đến khi discriminator không còn phân biệt được nữa – tức generator đã sinh mẫu rất realist. Ưu điểm của GAN là cho chất lượng mẫu rất cao, sắc nét và chi tiết, vì mạng sinh được hướng dẫn trực tiếp bởi phản hồi của mạng phân biệt. Tuy nhiên, nhược điểm của GAN là khó huấn luyện ổn định – hai mạng có thể không cân bằng dẫn đến hiện tượng mode collapse (mạng sinh chỉ tạo ra vài kiểu mẫu lặp lại) hoặc không hội tụ[31]. Trong thập kỷ qua đã có rất nhiều biến thể GAN nhằm cải thiện tính ổn định và đa dạng của mẫu sinh. Ví dụ, Conditional GAN thêm điều kiện (nhãn lớp hoặc thông tin phụ) vào cả generator và discriminator, cho phép điều khiển đầu ra theo ý muốn (ví dụ sinh ảnh thuộc một lớp nhất định)[32]. CycleGAN (2017) sử dụng hai cặp generator-discriminator để thực hiện hoán đổi domain giữa hai miền dữ liệu mà không cần dữ liệu ghép cặp – nổi tiếng với khả năng biến ảnh ngựa thành ngựa vằn, ảnh mùa hè thành mùa đông và ngược lại[33]. CycleGAN mở ra hướng ứng dụng style transfer và biến đổi hình ảnh không cần dữ liệu song song. Về chất lượng ảnh, các mô hình GAN ngày càng cải thiện: StyleGAN (2018–2019) giới thiệu kiến trúc generator dựa trên không gian style, cho phép điều khiển linh hoạt các thuộc tính ảnh (từ đặc điểm thô như bố cục đến chi tiết như tàn nhang trên khuôn mặt) bằng cách chỉnh vector trong không gian tiềm ẩn[34]. StyleGAN và StyleGAN2 đã tạo ra những khuôn mặt tổng hợp có độ chân thực đáng kinh ngạc, khó phân biệt với ảnh người thật. BigGAN (2018) mở rộng GAN lên quy mô lớn hơn (mạng lớn hơn, dữ liệu ImageNet), cho kết quả ảnh có độ phân giải cao và đa dạng hơn hẳn so với các GAN trước đó[35]. Nhìn chung, GAN và các biến thể của nó vẫn là một trong những phương pháp tạo sinh mạnh mẽ cho đến nay, đặc biệt trong các ứng dụng cần ảnh chất lượng cao và điều khiển được đặc trưng ảnh (như sinh chân dung giả, ảnh nghệ thuật, v.v.).

·       Mô hình tạo sinh dựa trên hàm điểm (Score-Based Generative Model): Đây là hướng tiếp cận mới đầy hứa hẹn, do Yang Song và đồng nghiệp khởi xướng khoảng năm 2019[36]. Thay vì trực tiếp học hàm xác suất hay học cách tạo ảnh qua đối kháng, mô hình này học hàm điểm (score function) – chính là gradient của log xác suất[37]

     Trực giác ở đây: hàm điểm cho biết hướng tăng xác suất mạnh nhất tại mỗi điểm dữ liệu, nên nếu ta biết hàm điểm, ta có thể thực hiện một quy trình sinh mẫu bằng cách bắt đầu từ nhiễu và lần theo hướng tăng mật độ để đi dần đến vùng dữ liệu thật[38][39]. Cụ thể, mô hình học s_\theta(x)  thông qua kỹ thuật score matching trên các dữ liệu bị nhiễu hóa (để tránh phân bố phức tạp).

    Sau khi học xong score network, ta sinh dữ liệu bằng cách áp dụng giải thuật Langevin Dynamics: khởi đầu từ một điểm nhiễu x (phân phối noise), rồi lặp đi lặp lại nhiều bước nhỏ[40]:

    Thành phần gradient tăng mật độ dẫn dắt mẫu đi về vùng xác suất cao hơn, còn thành phần nhiễu \xi_t giúp khám phá không gian và tránh rơi vào cực trị nội. Quá trình Langevin lặp đến khi t=0 sẽ thu được mẫu dữ liệu từ phân phối đã học[40]. Các mô hình khuếch tán phổ biến hiện nay thực chất là một dạng score-based model: thay vì chạy Langevin ngẫu nhiên, chúng thiết kế một quá trình khuếch tán/khử nhiễu theo thời gian liên tục hoặc rời rạc và huấn luyện mạng để dự đoán nhiễu hoặc tính hàm điểm tương ứng ở mỗi bước. Nhờ tránh được huấn luyện đối kháng và không cần tính hàm normalizing, mô hình dựa trên điểm ổn định trong huấn luyện và cho chất lượng mẫu cạnh tranh với GAN[41]. Thậm chí, các mô hình score-based/khuếch tán hiện đại còn hỗ trợ tính likelihood chính xác (hoặc xấp xỉ rất tốt) nhờ kết nối với mô hình flow liên tục[42][43], tức là vừa sinh ảnh đẹp vừa có khả năng đánh giá xác suất như mô hình tường minh. Thực tế đã chứng minh hiệu quả vượt trội của hướng tiếp cận này: các mô hình Score-based SDE (Song et al. 2021), DDPM và biến thể cải tiến (IDDPM, DDIM), cũng như Latent Diffusion (Stable Diffusion) đã đạt state-of-the-art trên nhiều nhiệm vụ như sinh ảnh (hơn cả GAN), tổng hợp âm thanh, sinh hình 3D, v.v.[21]. Điểm độc đáo nữa là mô hình dựa trên điểm có thể ứng dụng tự nhiên vào bài toán nghịch đảo: bởi vì đã học \nabla \log p(x), ta có thể dùng nó để giải mã thông tin còn thiếu (như phục hồi ảnh nhiễu, màu hóa ảnh đen trắng, dựng ảnh từ dữ liệu y tế thiếu), mà không cần huấn luyện lại mô hình[44]. Nhờ những ưu điểm này, mô hình tạo sinh dựa trên hàm điểm (kết hợp khuếch tán) đang ngày càng được quan tâm và có thể coi là cầu nối thu hẹp khoảng cách giữa mô hình xác suất tường minh và mô hình ngầm định.

Bảng so sánh mô hình xác suất tường minh và mô hình ngầm định

Để tóm tắt sự khác biệt giữa hai nhóm mô hình tạo sinh chính, bảng dưới đây liệt kê một số khía cạnh so sánh:

Đặc điểm

Mô hình xác suất tường minh (Explicit)

Mô hình tạo sinh ngầm định (Implicit)

Biểu diễn phân phối

Biểu diễn tường minh hàm mật độ/xác suất p(x). Có công thức xác định (hoặc cận dưới) cho xác suất của mọi mẫu[2][3].

Biểu diễn ngầm định thông qua quá trình sinh mẫu. Không định nghĩa trực tiếp hàm mật độ, không tính được xác suất của mẫu cụ thể[24][25].

Huấn luyện

Thường dùng tối đa hóa likelihood (hoặc xấp xỉ như ELBO) trên dữ liệu huấn luyện. Đòi hỏi mô hình phải đơn giản hóa để tính được p(x) hoặc dùng mục tiêu biến đổi để xấp xỉ[7][3].

Thường dùng tối ưu phân biệt hoặc đối kháng: điều chỉnh quá trình sinh để mẫu giả không phân biệt được với mẫu thật, hoặc tối thiểu khoảng cách phân phối theo một tiêu chí cho trước (ví dụ minmax GAN)[27][30].

Ví dụ phương pháp

- Tự hồi quy: Mô hình chuỗi (PixelCNN, GPT) tính xác suất mẫu bằng tích các xác suất có điều kiện[12].

- Flow chuẩn hóa: Biến đổi khả nghịch (RealNVP, Glow) cho phép tính mật độ chính xác bằng công thức biến đổi[14].

- Biến phân (VAE): Mã hóa phân phối tiềm ẩn, dùng ELBO làm mục tiêu để xấp xỉ phân phối dữ liệu[16].

- Năng lượng (EBM): Định nghĩa phân phối qua hàm năng lượng (ví dụ Boltzmann), huấn luyện bằng sampling/contrastive (ví dụ RBM, IGEBM) do không có mật độ chuẩn hóa tường minh[18][19].

- Khuếch tán: Khuếch tán và khử nhiễu dần (DDPM, Stable Diffusion), tối đa hóa cận likelihood, sinh mẫu qua chuỗi nhiều bước[20].

- GANs: Hai mạng đối kháng (generator & discriminator) huấn luyện qua game minmax (ví dụ DCGAN, StyleGAN, BigGAN)[30][34].

- Nhúng điều kiện: Điều kiện hóa đầu ra bằng nhãn hoặc thông tin phụ (Conditional GAN, CycleGAN) để điều khiển mẫu sinh hoặc chuyển đổi domain[32][33].

- Score-based/Diffusion: Mạng ước lượng score (nabla log p) và quy trình sinh mẫu qua Langevin hoặc khuếch tán ngược (NCSN, DDPM, Score SDE) – mặc dù có thể xem là nối giữa implicit và explicit, nhiều biến thể khuếch tán hiện nay không yêu cầu tính xác suất tường minh cho mỗi mẫu[45][40].

Ưu điểm

- Có xác suất: Đánh giá được độ “tin cậy” của mẫu sinh thông qua likelihood hoặc ELBO.

- Ổn định: Huấn luyện quy về tối ưu likelihood (convex hơn đối kháng), ít gặp vấn đề hội tụ hơn GAN.

- Đa dạng: Bao quát được phân phối dữ liệu tốt, ít nguy cơ mode collapse (đặc biệt VAEs, diffusion)[46].

- Chân thực cao: Tạo mẫu sắc nét, chi tiết (đặc biệt GAN thường cho ảnh rất thật)[28][47].

- Linh hoạt: Quy trình sinh có thể điều chỉnh (như thêm điều kiện vào GAN) để tạo ra đầu ra theo ý muốn (ảnh theo lớp, chuyển style, v.v.)[32][33].

- Không cần chuẩn hóa: Né được bài toán tính Z_\theta phức tạp; ví dụ GAN, score-based chỉ cần sinh mẫu sao cho phân phối gần đúng dữ liệu, không cần trị xác suất tuyệt đối[3][48].

Hạn chế

- Giả định/giản lược: Mô hình phải đơn giản hóa cấu trúc (như AR phải tuần tự, flow phải khả nghịch) hoặc chấp nhận xấp xỉ (VAE, EBM) để tính được likelihood[3].

- Chất lượng mẫu: Mẫu từ VAE có thể mờ hơn (do tối ưu ELBO thay vì dữ liệu thật trực tiếp), autoregressive cho ảnh thường bị giới hạn độ phân giải (do phải sinh tuần tự).

- Tốc độ sinh: Autoregressive sinh mẫu chậm (phải lấy mẫu từng bước), diffusion cũng chậm (nhiều bước khuếch tán).

- Khó huấn luyện: Điển hình GAN rất nhạy cảm, dễ mất ổn định, đòi hỏi nhiều kinh nghiệm để điều chỉnh (mode collapse, vanishing gradient)[31].

- Không có likelihood: Không đánh giá định lượng được mẫu – mô hình chỉ biết tạo ra dữ liệu, không biết xác suất của nó (khó tích hợp vào các hệ thống yêu cầu xác suất, ví dụ mô hình sinh kết hợp suy luận Bayes)[24][25].

- Điều khiển gián tiếp: Với mô hình chỉ có quy trình sinh (như GAN), việc điều khiển chi tiết đầu ra cần trick (như thêm điều kiện, hoặc chỉnh latent thủ công), không trực tiếp như mô hình có xác suất (có thể sửa mẫu bằng xác suất hậu nghiệm).

Những tiến bộ này cho thấy sự phong phú của phương pháp tiếp cận trong GenAI, mỗi loại mô hình đều có vị trí thích hợp tùy bài toán: khi cần độ tin cậy và đo lường xác suất, ta ưu tiên mô hình xác suất tường minh; khi cần chất lượng mẫu cực cao hoặc linh hoạt trong sáng tạo, mô hình ngầm định (đặc biệt là GAN, khuếch tán) là lựa chọn hàng đầu[13][22].


[1] [6] [7] [9] [10] [11] [12] [13] [14] [15] [16] [20] [23] [24] [25] [26] [27] [30] [32] [33] [34] [35] [37] [38] [39] [40] [45] [51] The Generative AI Model Map. Understanding Explicit and Implicit… | by Ayo Akinkugbe | Towards AI

https://pub.towardsai.net/the-generative-ai-model-map-fff0b6490f77?gi=fd43321440d1

[2] [3] [4] [5] [8] [17] [18] [19] [21] [31] [36] [41] [42] [43] [44] [48] [49] [50] Generative Modeling by Estimating Gradients of the Data Distribution | Yang Song

https://yang-song.net/blog/2021/score/

[22] [2307.16680] On the Trustworthiness Landscape of State-of-the-art Generative Models: A Survey and Outlook

https://arxiv.org/abs/2307.16680

[28] [29] [46] [47] Generative Models in AI: A Comprehensive Comparison of GANs and VAEs - GeeksforGeeks

https://www.geeksforgeeks.org/deep-learning/generative-models-in-ai-a-comprehensive-comparison-of-gans-and-vaes/


Nhận xét

Bài đăng phổ biến từ blog này

Tổng hợp bài báo: "Multimodal Large Language Models: A Survey"

Tổng quan về Cell Tracking Challenge sau 10 năm

Score-Based Generative Models và những tiến bộ mới