Tổng hợp bài báo: "Multimodal Large Language Models: A Survey"

Tổng quan và luận điểm chính của bài viết

Bài khảo sát "Multimodal Large Language Models" (2023) cung cấp cái nhìn tổng quan và hệ thống về sự phát triển của các mô hình ngôn ngữ lớn đa phương thức (Multimodal Large Language Models – MLLMs). Tác giả nhấn mạnh rằng các mô hình ngôn ngữ lớn truyền thống (LLM) chủ yếu chỉ xử lý văn bản, do đó bị hạn chế khi gặp dữ liệu dạng khác (hình ảnh, âm thanh, video). Các LLM thuần văn bản như GPT-3, BERT, RoBERTa đạt kết quả tốt trong sinh và hiểu ngôn ngữ, nhưng thiếu khả năng nhận thức các loại dữ liệu phi văn bản[1]. Để khắc phục, các LLM đa phương thức tích hợp nhiều dạng dữ liệu (ví dụ kết hợp hình ảnh + văn bản), vượt qua giới hạn của mô hình thuần văn bản và mở ra khả năng xử lý nhiều dạng thông tin phong phú hơn[2]. GPT-4 được nêu làm ví dụ điển hình về MLLM: mô hình này có thể nhận cả ảnh và văn bản làm đầu vào, đạt chất lượng gần mức con người trên nhiều bài kiểm tra, cho thấy sức mạnh của việc tích hợp đa phương thức[3]. Theo bài khảo sát, nhận thức đa phương thức là thành phần nền tảng để hướng tới trí tuệ nhân tạo tổng quát (AGI) vì nó đóng vai trò quan trọng trong thu nhận tri thức và tương tác với thế giới thực[4]. Việc đưa thêm các nguồn thông tin như hình ảnh, âm thanh vào mô hình ngôn ngữ cũng mở rộng đáng kể tiềm năng ứng dụng của LLM, ví dụ trong robot đa phương thức, phân tích tài liệu, hệ thống tương tác người-máy, v.v[5]. Các thí nghiệm cho thấy MLLM có khả năng suy luận thường thức tốt hơn các mô hình đơn modal, nhờ vào việc chuyển giao tri thức qua lại giữa các modal (cross-modal transfer)[6]. Những tiến bộ này thúc đẩy ứng dụng MLLM vào nhiều lĩnh vực như giao tiếp người-máy tự nhiên, điều khiển robot, tìm kiếm bằng hình ảnh, tổng hợp giọng nói,...[7].

Mặc dù đã có một số khảo sát trước về mô hình đa phương thức, mỗi bài tập trung một khía cạnh riêng: có bài phân loại ứng dụng theo từng dạng modal[8], có bài tổng hợp thuật toán và bộ dữ liệu mới nhất[9], hoặc phân loại các phương pháp đa modal gần đây[10]. Tuy nhiên, theo tác giả, các khảo sát trước chưa cung cấp cái nhìn xuyên suốt về quá trình phát triển lịch sử và ứng dụng thực tiễn của mô hình đa phương thức[11]. Bài khảo sát này nhằm lấp đầy khoảng trống đó bằng cách:

· Định nghĩa rõ khái niệm đa phương thức và điểm qua lịch sử phát triển các thuật toán đa modal[12][13].

· Hướng dẫn thực tiễn các khía cạnh kỹ thuật cốt lõi trong xây dựng MLLM, bao gồm: biểu diễn tri thức, lựa chọn mục tiêu học, cấu trúc mô hình, phương pháp kết hợp thông tin và cách sử dụng prompt[14].

· Tổng quan các thuật toán đa phương thức tiêu biểu mới nhất (foundation models và các mô hình tiền huấn luyện quy mô lớn đa modal), kèm theo những bộ dữ liệu phổ biến dùng để huấn luyện và đánh giá, cung cấp tài nguyên tham khảo cho nghiên cứu trong tương lai[15].

· Thảo luận các ứng dụng nổi bật của mô hình đa phương thức và những thách thức chính còn tồn tại, từ đó gợi ý các hướng nghiên cứu trong tương lai[16].

Nhờ phạm vi bao quát như trên, bài viết giúp người đọc hiểu sâu hơn về MLLM và tiềm năng ứng dụng của chúng trong nhiều lĩnh vực[4], đồng thời nhận diện các vấn đề mở cần giải quyết để tiến gần hơn tới các hệ thống AI đa phương thức hoàn thiện.

Cấu trúc bài khảo sát và nội dung chính các phần

Bài khảo sát được tổ chức thành 7 phần chính. Dưới đây là tóm tắt cấu trúc và nội dung từng phần, qua đó làm rõ cách bài viết đề cập đến kiến trúc mô hình, phương pháp huấn luyện, cách đánh giá và các ứng dụng:

Phần I: Giới thiệu. Trình bày bối cảnh, động cơ nghiên cứu và đóng góp của bài khảo sát. Nêu vấn đề hạn chế của LLM chỉ xử lý văn bản, lợi ích của việc mở rộng sang đa phương thức, ví dụ thành công (GPT-4) và tầm quan trọng của đa modal cho tương lai AI như đã đề cập ở trên[3][4].
Phần II: Các khái niệm liên quan (Related Concepts). Định nghĩa chi tiết đa phương thức (multimodal) và phân loại các loại modal. Bài viết giải thích multimodal là biểu đạt hoặc cảm nhận sự vật bằng nhiều dạng thức thông tin (ví dụ kết hợp thị giác, âm thanh, văn bản, v.v.)[17]. Có thể phân chia đa modal đồng nhất (ví dụ 2 ảnh từ 2 camera khác nhau, cùng là hình ảnh) và đa modal dị thể (ví dụ quan hệ giữa ảnh và ngôn ngữ)[18]. Về dữ liệu, đa modal nghĩa là tích hợp thông tin từ nhiều kênh cảm giác khác nhau (thị giác, thính giác, xúc giác, khứu giác...) tạo thành biểu diễn thống nhất và có ý nghĩa về môi trường[19]. Sử dụng dữ liệu đa modal cho phép mô hình đại diện sự vật toàn diện và trực quan hơn, giúp đạt đột phá trong nhiều bài toán như phân tích cảm xúc, dịch máy, NLP, y sinh...[20]. Phần này cũng tóm lược bốn giai đoạn phát triển lịch sử của nghiên cứu đa phương thức:

· Thời kỳ đơn modal (1980–2000): Các kỹ thuật xử lý từng modal riêng rẽ ra đời, ví dụ nhận dạng khuôn mặt bằng PCA[21], nhận dạng giọng nói bằng HMM[22].

· Chuyển đổi modal (2000–2010): Tích hợp máy tính mô phỏng hành vi con người, các dự án nổi bật như AMI (2001) ghi lại/xử lý dữ liệu họp (âm thanh, video, văn bản)[23], CALO (2003) – trợ lý ảo (tiền thân Siri) học và tổ chức tri thức[24], SSP (2008) – phân tích tín hiệu xã hội phi ngôn ngữ (cử chỉ, biểu cảm)[25].

· Hợp nhất modal (2010–2020): Thời kỳ bùng nổ deep learning, các mô hình đa modal dựa trên mạng nơ-ron ra đời. Ví dụ, Ngiam et al. (2011) đề xuất thuật toán deep learning phối hợp fusion nhiều modal (hình ảnh + tiếng) giúp học đặc trưng chung hiệu quả hơn[26]; Deep Boltzmann Machines đa modal (2012) để mô hình hóa quan hệ phụ thuộc giữa các modal[27]; Image Captioning dùng attention ngữ nghĩa (2016) – hệ thống tạo mô tả ảnh tự động bằng mạng neural chú ý, cải thiện khả năng hiểu nội dung hình ảnh[28]. Những tiến bộ này đặt nền móng cho việc kết hợp và phân tích nhiều modal đồng thời.

Mô hình đa modal quy mô lớn (2020–nay): Sự phát triển của các mô hình lớn mở ra cơ hội mới. Các mô hình tiên phong gồm CLIP (2021) – mô hình huấn luyện trên cặp ảnh-văn bản khổng lồ bằng học đối sánh tương phản ảnh-văn bản thay vì gắn nhãn lớp cố định[29]; DALL-E 2 (2022) – mô hình khuếch tán tạo ảnh từ văn bản dựa trên embedding CLIP[30]; BEiT-3 (2022) – mô hình Transformers thị giác dùng kiến trúc multi-way chung cho nhiều modal và học sinh mặt nạ (masked modeling) trên cả ảnh và text[31]; KOSMOS-1 (2023) – mô hình LLM đa modal của Microsoft có khả năng tích hợp ngôn ngữ và cảm nhận thị giác để “nhìn và nói”, làm được đối thoại hình ảnh, mô tả ảnh, phân loại ảnh zero-shot, tuân thủ chỉ dẫn và học trong ngữ cảnh (in-context learning)[32]; PaLM-E (2023) – kết hợp mô hình ngôn ngữ PaLM với mô hình thị giác ViT-22B, đạt kỷ lục mới về hiệu năng ngôn ngữ-thị giác trên nhiều nhiệm vụ (phát hiện vật thể, phân loại cảnh) mà không cần tinh chỉnh chuyên biệt cho từng tác vụ[33]. Những tiến bộ từ 2020 trở lại đây cho thấy các mô hình đa modal lớn đang tiệm cận khả năng xử lý linh hoạt nhiều dạng dữ liệu và nhiệm vụ khác nhau.
Phần III: Hướng dẫn kỹ thuật cho các điểm mấu chốt (Practical Guide for Technical Points). Phần này đóng vai trò như cẩm nang kỹ thuật khi xây dựng mô hình đa modal lớn, đề cập năm khía cạnh chính: biểu diễn tri thức, mục tiêu học, cấu trúc mô hình, phối hợp thông tin, và sử dụng prompt[14] (xem lược đồ trong Hình 3 của bài báo). Cụ thể:

· Biểu diễn tri thức (Knowledge representation): Cả văn bản và hình ảnh đầu vào cần được mã hóa thành vector embedding. Với văn bản, ban đầu các phương pháp như Word2Vec (CBOW, Skip-gram) được dùng để nhúng từ, nhưng hạn chế về từ vựng khiến các mô hình hiện đại chuyển sang token hóa theo subword như Byte-Pair Encoding (BPE)[34]. Với hình ảnh, việc token hóa phức tạp hơn: có thể dùng phương pháp theo vùng (region) – trích đặc trưng vùng ảnh bằng detector, theo lưới (grid) – dùng CNN trích đặc trưng trên lưới điểm ảnh, hoặc theo patch – chia ảnh thành các ô nhỏ rồi chiếu qua tầng tuyến tính[35]. Theo kết quả từ mô hình METER, việc tối ưu hóa phía đặc trưng thị giác ảnh hưởng lớn hơn nhiều so với tối ưu đặc trưng văn bản[36]. Trong các mô hình đa modal tiền huấn luyện, tầng embedding và bộ mã hóa cho ảnh thường phức tạp và giàu tham số hơn hẳn phần văn bản, cho thấy tầm quan trọng của thông tin thị giác – mô hình có thể học được nhiều tri thức từ đặc trưng hình ảnh hơn[37].

· Lựa chọn mục tiêu học (Learning objectives selection): Đây là yếu tố then chốt khi tiền huấn luyện mô hình đa modal. Các nhiệm vụ phổ biến gồm: Image-Text Contrastive (ITC) – học tương phản ảnh/văn bản bằng cách phân biệt cặp đúng-sai để căn chỉnh không gian ảnh và chữ; Masked Language Modeling (MLM) – che một số token chữ và yêu cầu mô hình đoán lại; Masked Visual Modeling (MVM) – che một phần thông tin hình ảnh (ví dụ vùng ảnh) và bắt mô hình phục hồi; Image-Text Matching (ITM) – phân loại một cặp ảnh-chú thích có khớp nội dung không[38][39]. Việc kết hợp đa dạng mục tiêu học thường nâng cao hiệu quả – ví dụ mô hình UNITER dùng đồng thời MLM, ITC, MVM, ITM đạt kết quả tốt trên nhiều tác vụ[40]. Tuy nhiên, dùng quá nhiều mục tiêu một lúc có thể gây tác dụng ngược (như thí nghiệm trên METER cho thấy hiệu quả không tăng khi bổ sung quá nhiều mục tiêu)[41].

· Xây dựng cấu trúc mô hình (Model structure construction): Các mô hình đa modal lớn có thể có kiến trúc encoder-only, encoder–decoder, hoặc decoder-only (tương tự như mô hình ngôn ngữ thông thường)[42]. Để kết hợp nhiều modal, có hai chiến lược chính: (1) Mô hình hợp nhất (fusion encoder) – nối chuỗi đầu vào từ các modal rồi đưa qua một mô hình chung (thường là Transformer) để học biểu diễn hợp nhất; (2) Mô hình hai luồng (dual encoder) – mỗi modal được mã hóa riêng bởi một mạng chuyên biệt, sau đó mới kết hợp hoặc so sánh embeddings (ví dụ qua học tương phản hoặc qua lớp ghép muộn)[43]. Cách (1) giả định có sự tương quan/căn chỉnh đơn giản giữa các modal và áp dụng self-attention trực tiếp trên chuỗi kết hợp các modal[44]. Cách (2) giả định tương tác nội modal và giữa các modal cần xử lý tách biệt, do đó dùng hai mạng riêng (ví dụ một mạng xử lý ảnh, một mạng xử lý văn bản) rồi mới kết hợp thông tin ở tầng cao[44]. Mỗi kiến trúc có ưu nhược: mô hình hợp nhất có thể học biểu diễn chung tinh tế nhưng đòi hỏi dữ liệu huấn luyện rất lớn để học được alignment; mô hình hai luồng tận dụng được sức mạnh mô hình chuyên biệt cho từng modal (như ResNet, ViT cho ảnh; Transformer cho văn bản) và thường dễ huấn luyện hơn cho nhiệm vụ căn chỉnh đặc trưng đa modal (ví dụ CLIP dùng hai encoder riêng cho ảnh và chữ, học cho chúng vào cùng không gian nhúng). Bài khảo sát cũng đề cập ý tưởng kiến trúc thống nhất (unified architecture) cho đa modal, tức thiết kế mô hình duy nhất có thể xử lý nhiều loại modal. Một ví dụ là mô hình VLMO sử dụng cơ chế “Three Experts” (ba bộ chuyên gia) để thống nhất xử lý cả ảnh và văn bản trong một mạng duy nhất[45]. Xu hướng này còn thể hiện ở các mô hình lớn gần đây như KOSMOS-1, PaLI, PaLM-E – họ cố gắng đào tạo một backbone chung cho nhiều modal, thay vì chỉ ghép nối các mô hình riêng lẻ. Điều này giúp mô hình học được quan hệ liên modal sâu hơn, như nhận xét của bài báo: sự xuất hiện của các mô hình lớn đa modal thống nhất đã thúc đẩy mạnh mẽ các tiến bộ trong xử lý video và các lĩnh vực khác[46].

· Phối hợp thông tin (Information fusion): Sau khi mã hóa riêng từng modal, cần có chiến lược kết hợp các dòng thông tin. Như đã nêu, có hai hướng: fusion sớm (dùng một encoder chung ngay từ đầu) và fusion muộn/hai dòng (kết hợp output từ hai encoder). Bài viết phân loại mô hình tương ứng thành mô hình fusion encoder vs. dual encoder[47]. Mô hình fusion encoder coi dữ liệu đa modal như một trình tự duy nhất – ví dụ như ghép chuỗi token văn bản và patch ảnh rồi cho qua Transformer (cách GPT-4 thị giác vận hành). Mô hình dual encoder duy trì luồng riêng, thường kết hợp qua module cross-attention hoặc tiêu chí tương quan giữa embedding cuối. Bài báo cũng lưu ý rằng nhiều nghiên cứu tìm cách kết hợp các kiến trúc hoặc phương pháp fusion khác nhau nhằm tăng sức mạnh cho mô hình đa modal, đây cũng chính là cơ chế hiện thực hóa “mô hình thống nhất” (multimodal unification) đã nói[45].

Sử dụng Prompt: Tương tự LLM văn bản, các MLLM cũng có thể tận dụng prompt (gợi ý/ngữ cảnh đầu vào) để định hướng mô hình thực hiện nhiệm vụ mong muốn. Prompt có thể được thiết kế để chèn thông tin thị giác vào ngữ cảnh ngôn ngữ. Ví dụ: Visual ChatGPT sử dụng một Prompt Manager để tự động tạo ra prompt văn bản nhằm giúp ChatGPT hiểu và sinh ra hình ảnh liên quan[48]. Hay trong CLIP, người ta thêm các prompt văn bản miêu tả ảnh (ví dụ “A photo of a [CLASS]”) để làm zero-shot classification thay cho nhãn cứng, cải thiện hiệu quả rõ rệt[48][49]. Prompt cũng được dùng trong học trong ngữ cảnh (in-context learning): thay vì fine-tune, ta cung cấp vài ví dụ trong prompt để mô hình tự khái quát (như GPT-3, hay Frozen dùng prompt mềm khi kết hợp ảnh, xem phần dưới)[50]. Hướng dẫn của bài báo gợi ý rằng biết cách thiết kế prompt hiệu quả (ví dụ mô tả hình ảnh bằng ngôn ngữ phù hợp) sẽ giúp MLLM tận dụng kiến thức ngôn ngữ sẵn có để xử lý modal khác.
Phần IV: Hướng dẫn thuật toán (Practical Guide for Algorithms). Phần này hệ thống lại các mô hình đa phương thức tiêu biểu, chia làm hai nhóm: mô hình nền tảng (foundation models) và các mô hình đa modal tiền huấn luyện quy mô lớn[51]. Mô hình nền tảng được xem như khung cơ bản mà nhiều mô hình đa modal lớn cải tiến dựa trên đó[52]. Trọng tâm ở đây là các kiến trúc Transformer và những biến thể để hỗ trợ hình ảnh:

· Transformer (2017): Kiến trúc đột phá dựa trên self-attention, mở ra kỷ nguyên pre-train trên corpora lớn rồi fine-tune cho nhiều nhiệm vụ[53]. Transformer có đặc tính chia sẻ trọng số (weight-sharing) độc lập với độ dài chuỗi, rất phù hợp cho bài toán đa modal nơi mà chuỗi đầu vào có thể đến từ các modal khác nhau[54]. Tác giả lưu ý rằng ý tưởng chia sẻ trọng số (như self-attention dùng chung cùng cơ chế cho mọi token) có thể áp dụng xuyên modal: ví dụ trọng số học được khi huấn luyện trên ảnh có thể dùng cho văn bản mà vẫn hiệu quả, đôi khi không cần fine-tune thêm[55]. Điều này cho thấy Transformer là nền tảng linh hoạt để phát triển mô hình đa phương thức.

· Vision Transformer (ViT, 2020): Google phát triển nhằm mang Transformer sang lĩnh vực thị giác, giải quyết hạn chế đầu vào kích thước lớn của ảnh bằng cách chia ảnh thành các patch nhỏ (ví dụ 16×16) rồi biến chúng thành chuỗi token đưa qua Transformer[56]. ViT kết nối khoảng cách giữa CV và NLP – lần đầu tiên Transformer có thể xử lý trực tiếp dữ liệu ảnh[57]. ViT còn đề xuất chiến lược trích xuất đặc trưng ảnh hiệu quả hơn so với CNN truyền thống, trở thành backbone cho nhiều mô hình thị giác sau này[58].

· BEiT (2021): Được xem như phiên bản BERT cho thị giác[59]. BEiT giải quyết hai thách thức để đưa pre-training dạng sinh (generative pre-training) lên ảnh: (1) Làm sao biểu diễn ảnh dưới dạng token rời rạc tương tự từ ngữ – BEiT dùng phương pháp mã hóa hình ảnh thành các mã codebook rời rạc (discrete visual tokens)[60]; (2) Làm sao tích hợp thông tin ảnh vào quá trình pre-train – BEiT tận dụng kiến trúc ViT có sẵn để xử lý ảnh[61]. Nhờ đó, BEiT áp dụng thành công các mục tiêu học như MLM (masked language modeling) và MIM (masked image modeling) trên dữ liệu ảnh[62]. Kết quả, BEiT cho phép huấn luyện tự giám sát quy mô lớn trên ảnh tương tự như BERT đã làm trên văn bản, mở đường cho việc học đặc trưng hình ảnh không cần nhãn hiệu quả[63].

Sau khi giới thiệu các mô hình nền tảng, phần IV liệt kê một loạt mô hình đa modal lớn nổi bật gần đây, đa số đều xây dựng trên cơ sở Transformer/ViT và được tiền huấn luyện trên lượng dữ liệu cực lớn. Bài viết trình bày các mô hình này theo thời gian kèm kỹ thuật chính và ứng dụng, đồng thời có Bảng I tóm tắt tên, năm, kỹ thuật và chức năng của từng mô hình[64][65]. Dưới đây là một số mô hình tiêu biểu đã được đề cập:

Visual ChatGPT (2023): Hệ thống kết hợp ChatGPT với nhiều mô hình nền tảng thị giác (Visual Foundation Models - VFMs) khác nhau để xử lý các tác vụ hình ảnh đa dạng (hiểu ảnh, tạo ảnh)[66]. Đặc điểm: Visual ChatGPT sử dụng một trình quản lý prompt (Prompt Manager) để điều phối ChatGPT tương tác với các mô hình thị giác theo nhiều bước. Người dùng có thể đưa ra câu hỏi hoặc hướng dẫn phức tạp liên quan đến hình ảnh; hệ thống sẽ tuần tự gọi các VFM phù hợp (như model chú thích ảnh, model vẽ ảnh) để tạo ra câu trả lời cuối cùng[66]. Đóng góp: Thay vì huấn luyện một mô hình đa modal mới cho mỗi dạng tác vụ, Visual ChatGPT tận dụng linh hoạt các mô hình có sẵn bằng cơ chế prompt. Nó cho phép ChatGPT có khả năng xử lý hình ảnh mà không cần tái huấn luyện hoàn toàn từ đầu, đồng thời dễ mở rộng sang modal mới (video, âm thanh) bằng cách tích hợp thêm mô hình chuyên biệt tương ứng[67].
MM-REACT (2023): Cũng là hệ thống kết hợp ChatGPT với nhiều chuyên gia thị giác (mô hình xử lý ảnh) để trả lời câu hỏi dạng Visual Question Answering (VQA)[68]. Đặc điểm: Khác với phương pháp trước đây cố định pipeline (ví dụ dùng model tạo caption cho ảnh rồi đưa vào LLM trả lời), MM-REACT cho phép ChatGPT chủ động quyết định khi nào và cách thức gọi mô hình thị giác như một công cụ hỗ trợ[69]. Tức là ChatGPT sẽ phân tích câu hỏi; nếu câu hỏi yêu cầu thông tin thị giác, nó sẽ tự chọn mô hình (nhận diện ảnh, đọc chữ, v.v.) để trích xuất thông tin từ ảnh, sau đó tiếp tục tạo câu trả lời[69]. Đóng góp: MM-REACT thể hiện khả năng tích hợp linh hoạt giữa LLM và các công cụ thị giác, giúp giải quyết đa dạng câu hỏi về ảnh. Quan trọng là mô hình có khả năng tự quyết định khi nào cần dùng công cụ nào, tiến gần hơn tới tư duy tự chủ đa modal thay vì các pipeline cứng nhắc.
Frozen (2021): Mô hình tiên phong áp dụng LLM theo kiểu in-context cho đa modal. Đặc điểm: Mô hình dùng LLM (ngôn ngữ) đã huấn luyện sẵn và để nguyên trọng số (“frozen”) làm bộ phận xử lý ngôn ngữ, trong khi thêm một bộ mã hóa thị giác học được để chuyển ảnh thành embedding. Các vector ảnh này được nối với chuỗi từ rồi đưa vào LLM (autoregressive) để dự đoán token tiếp theo[70]. Trong quá trình huấn luyện, LLM giữ nguyên, chỉ bộ mã hóa ảnh được huấn luyện để học cách tạo embedding phù hợp cho LLM[71]. Đóng góp: Frozen cho thấy khả năng mở rộng LLM thành mô hình đa modal mà không làm mất kiến thức ngôn ngữ gốc – mô hình vẫn giỏi xử lý ngôn ngữ đồng thời học thêm khả năng hiểu ảnh thông qua huấn luyện nhẹ phần thị giác[71]. Kết quả là một hệ thống biết “nhìn” trong ngữ cảnh: nó có thể xem ảnh và trả lời câu hỏi về ảnh đó theo kiểu few-shot, dù ngôn ngữ mô hình không bị thay đổi.
BLIP-2 (2023): Mô hình đa modal với kiến trúc nhiều thành phần chuyên biệt. Đặc điểm: BLIP-2 sử dụng một mô hình gọi là Q-former (querying Transformer) để trích xuất đặc trưng hình ảnh, tương tự vai trò module Perceiver Resampler trong Flamingo[72]. Hệ thống gồm: một bộ mã hóa ảnh pre-train (frozen), một Q-former (trainable) và một LLM lớn (frozen). Trong giai đoạn tiền huấn luyện, BLIP-2 đóng băng bộ mã hóa ảnh và LLM, chỉ huấn luyện Q-former (và dần dần fine-tune ảnh)[73]. Quá trình huấn luyện chia 2 bước: (i) Huấn luyện Q-former (và nối với encoder ảnh) trên các tác vụ đa modal cổ điển như matching ảnh-chú thích, học tương phản, sinh mô tả có điều kiện ảnh[74]. Mục tiêu là dạy Q-former rút trích nhanh các đặc trưng liên quan đến văn bản từ ảnh. (ii) Sau đó, chèn vector mã hóa từ Q-former vào LLM (tức coi như chuỗi token bổ sung) để LLM sinh mô tả ảnh hoặc trả lời về ảnh[75]. BLIP-2 cho kết quả tốt cả trong thiết lập zero-shot lẫn fine-tune cho VQA, và đặc biệt tương thích cao: model có thể chuyển giữa các bộ dữ liệu khác nhau của cùng task mà vẫn giữ hiệu năng[76]. Đóng góp: BLIP-2 đề xuất cách nối LLM với encoder ảnh thông qua Q-former – một giải pháp hiệu quả để khai thác tri thức LLM mà chỉ cần tinh chỉnh ít tham số. Nó đạt cân bằng giữa giữ nguyên sức mạnh của LLM lớn và học được đặc trưng thị giác phù hợp.
LLaMA-Adapter (2023): Phương pháp fine-tune hiệu quả trên LLM LLaMA và mở rộng sang đa modal. Đặc điểm: Thay vì tinh chỉnh toàn bộ mô hình lớn, LLaMA-Adapter chèn thêm các adapter vector có thể học (prompt vector) vào các tầng cuối của Transformer; những vector này đóng vai trò tham số điều chỉnh nhưng với quy mô nhỏ[77]. Khi mở rộng sang đa modal, ảnh đầu vào được mã hóa (qua encoder ảnh frozen) thành tập vector đặc trưng đa tỉ lệ, rồi gộp và chiếu tuyến tính để đưa vào cộng với các prompt vector thích ứng[77]. Nói cách khác, LLaMA-Adapter thêm một “kênh” để ảnh tác động vào LLM thông qua các vector adapter, thay vì thay đổi cấu trúc LLM. Đóng góp: Cách làm này cho phép tinh chỉnh mô hình đa modal rất hiệu quả (ít tham số phải học, chỉ các adapter) và có thể áp dụng linh hoạt trên nhiều mô hình backbone. LLaMA-Adapter chứng minh rằng chỉ cần điều chỉnh nhẹ LLM bằng các vector đặc trưng ảnh, mô hình đã có thể hiểu và đáp ứng đầu vào hình ảnh trên các tác vụ thị giác-ngôn ngữ[78].
MiniGPT-4 (2023): Mô hình được đặt tên nhằm tái tạo một phần chức năng của GPT-4 sử dụng các thành phần mã nguồn mở (OpenAI không công bố GPT-4 thật). Đặc điểm: MiniGPT-4 ghép Q-former + encoder ảnh từ BLIP-2 với một LLM Vicuna (dựa trên LLaMA) và đóng băng gần như toàn bộ (cả encoder ảnh, Q-former và LLM)[79]. Chỉ một lớp tuyến tính nối giữa Q-former và LLM là được huấn luyện (15 triệu tham số)[79]. Mô hình áp dụng chiến lược huấn luyện hai giai đoạn: (i) Fine-tune bước đầu trên tác vụ sinh caption cho ảnh – đầu tiên model tạo các mô tả ngắn gọn cho ảnh, sau đó dùng ChatGPT viết lại cho sinh động và chi tiết hơn, tạo thành tập dữ liệu caption chất lượng cao để huấn luyện tiếp[80]. (ii) Sau đó, xây dựng một tập cặp ảnh-văn bản chất lượng cao (cả câu hỏi hội thoại về ảnh, mô tả, v.v) và tinh chỉnh tiếp mô hình trên tập này[80]. Đóng góp: MiniGPT-4 cho thấy chỉ cần tinh chỉnh rất ít tham số (một lớp linear) nhưng với dữ liệu huấn luyện được chuẩn bị tốt (có sự hỗ trợ của ChatGPT), mô hình nhỏ hơn có thể đạt được một phần năng lực của GPT-4 trong hiểu và tạo văn bản dựa trên hình ảnh. Đây là minh chứng cho sức mạnh của kiến trúc ghép nối (BLIP-2) và dữ liệu tinh chỉnh kiểu instruction.
LLaVA (2023): Mô hình LLaMA-Vision-Adapter, khá tương đồng MiniGPT-4 ở mục tiêu tinh chỉnh mô hình cho hội thoại đa modal. Đặc điểm: LLaVA cũng sử dụng encoder ảnh + Q-former nối vào LLM rồi tinh chỉnh một lớp ghép, hướng đến cho phép mô hình hiểu hướng dẫn đa modal (multimodal instruction tuning)[81]. Điểm khác biệt: LLaVA chú trọng khâu sinh dữ liệu và chiến lược huấn luyện. Về dữ liệu, nhóm tác giả sử dụng GPT-4 để tạo ra bộ dữ liệu tinh chỉnh hướng dẫn đa modal phong phú, bao gồm: câu hỏi-đáp nhiều lượt về ảnh, mô tả ảnh chi tiết, và câu hỏi suy luận phức tạp dựa trên ảnh[82]. Vì GPT-4 hiện tại chỉ nhận đầu vào văn bản, họ chuyển thông tin ảnh thành văn bản bằng cách dùng 5 câu mô tả ảnh + toạ độ bao quanh vật thể trong dataset COCO làm đầu vào cho GPT-4, GPT-4 sẽ đóng vai “người dùng” đặt câu hỏi và trả lời để tạo dữ liệu hội thoại[82][83]. Về huấn luyện, LLaVA cũng thực hiện 2 giai đoạn: (i) Fine-tune trên 600k cặp ảnh-chú thích (từ dữ liệu CC3M lọc) với mô hình ảnh và ngôn ngữ đông lạnh, chỉ huấn luyện lớp linear nối (giống MiniGPT-4)[84]; (ii) Dùng ~160k mẫu dữ liệu hướng dẫn do GPT-4 tạo ở trên để fine-tune tiếp theo kiểu mô hình ngôn ngữ (language model loss) – giai đoạn này đóng băng encoder ảnh, chỉ fine-tune LLM và lớp nối[85]. Đóng góp: LLaVA cho thấy tầm quan trọng của dữ liệu huấn luyện dạng chỉ dẫn đa modal: nhờ có các tình huống hỏi-đáp đa dạng do GPT-4 sinh ra, mô hình thu được kỹ năng đối thoại về ảnh vượt trội. Mặc dù kiến trúc tương tự MiniGPT-4, LLaVA nhấn mạnh việc tạo dữ liệu đa vòng (multi-turn), giúp mô hình có khả năng chat nhiều lượt về một hình ảnh thay vì chỉ mô tả một lượt.
PICa (2022): Phương pháp đầu tiên dùng trực tiếp LLM (GPT-3) để giải quyết bài toán VQA (Visual Question Answering)[86]. Ý tưởng: Sử dụng GPT-3 như một bộ nhớ tri thức ngầm, cung cấp cho nó mô tả ảnh bằng văn bản để nó trả lời câu hỏi hình ảnh. Cụ thể, PICa dùng một mô hình tạo caption để chuyển ảnh thành đoạn mô tả văn bản, sau đó đưa (câu hỏi, caption, đáp án) làm ví dụ vào prompt của GPT-3 để GPT-3 học trả lời câu hỏi về ảnh theo kiểu few-shot[87]. Kết quả: Trong thiết lập học ít mẫu, PICa cho kết quả tốt hơn mô hình Frozen, nhưng vẫn kém Flamingo (mô hình chuyên biệt của DeepMind)[88]. Nguyên nhân được chỉ ra là do việc chuyển ảnh thành caption gây mất mát thông tin hình ảnh – caption dù tốt đến đâu cũng không thể truyền tải đầy đủ mọi chi tiết thị giác cho LLM[89]. PICa minh họa một hạn chế: LLM thuần văn bản khi xử lý ảnh qua mô tả có thể bỏ sót những manh mối quan trọng, giới hạn hiệu năng VQA.
PNP-VQA (2022): Phương pháp cải tiến dựa trên PICa để nâng cao khả năng VQA zero-shot[90]. Điểm mới: PNP-VQA bổ sung một bước phù hợp ảnh-câu hỏi (Image-Question Matching) trước khi tạo caption. Module này xác định các vùng ảnh (patch) liên quan nhất đến câu hỏi hiện tại[91]. Sau đó chỉ tạo caption riêng cho các vùng đó thay vì cho toàn bộ ảnh[91]. Các caption theo vùng, kèm câu hỏi gốc, được đưa vào một mô hình hỏi-đáp (họ dùng UnifiedQA-v2 làm PLM thay vì GPT-3) để suy luận câu trả lời[90][92]. Lợi ích: Bằng cách tập trung mô tả vào phần ảnh liên quan câu hỏi, PNP-VQA giảm bớt thông tin thừa và giữ được chi tiết quan trọng, giúp cải thiện độ chính xác và tính phù hợp của đáp án trong thiết lập zero-shot[93].
Img2LLM (2022): Một hướng tiếp cận khác để tận dụng LLM cho VQA mà không cần huấn luyện end-to-end[94]. Ý tưởng: Thay vì tinh chỉnh LLM đa modal, nhóm tác giả tìm cách truyền tải thông tin thị giác gián tiếp qua các cặp hỏi-đáp mẫu. Cụ thể, họ dùng mô hình caption (hoặc phương pháp như PNP-VQA) để tạo mô tả ảnh, sau đó từ các caption này trích ra những từ khóa quan trọng (danh từ, tính từ có thể là đáp án tiềm năng)[95]. Tiếp đó, dùng mô hình sinh câu hỏi để tạo ra câu hỏi tương ứng với từng từ khóa – như vậy thu được một loạt cặp (câu hỏi giả định, đáp án) liên quan đến ảnh[96]. Các cặp này được cung cấp cho LLM như ví dụ trong prompt (demonstrations) để LLM dùng chúng trả lời câu hỏi thực tế về ảnh[97]. Đóng góp: Cách làm này giải quyết hai vấn đề: (i) Ngắt kết nối modal – LLM thuần văn bản không hiểu ảnh, nay được bổ sung ngữ liệu Q&A về ảnh đó nên “hiểu” hơn; (ii) Ngắt kết nối nhiệm vụ – LLM quen sinh văn bản tự do, nay thông qua các cặp Q&A mẫu, nó biết cách áp dụng tri thức trong caption vào việc trả lời VQA[94][98]. Kết quả, Img2LLM cho phép LLM trả lời câu hỏi về hình ảnh mà không cần tái huấn luyện toàn bộ, tận dụng triệt để khả năng hiểu ngôn ngữ và tri thức của LLM.
Phần V: Hướng dẫn các tác vụ (Practical Guide for Various Tasks). Phần này điểm qua các nhiệm vụ và ứng dụng chính của mô hình đa phương thức, từ những tác vụ truyền thống đến các xu hướng mới. Các tác vụ được trình bày như ví dụ tiêu biểu về cách đánh giá năng lực của MLLM và tiềm năng ứng dụng của chúng. Dưới đây là các tác vụ nổi bật cùng diễn giải:
Mô tả ảnh (Image Captioning): Tác vụ tạo câu chú thích văn bản ngắn gọn cho một hình ảnh cho trước[99]. Đây là một bài toán đa modal cổ điển với dữ liệu là cặp ảnh và câu mô tả. Mục tiêu là chuyển biểu diễn thị giác thành ngôn ngữ, sao cho câu sinh ra vừa mô tả đúng nội dung chính của ảnh (đối tượng, hành động, khung cảnh) vừa tự nhiên như con người viết[100]. Vì ảnh có thể diễn giải theo nhiều cách, nhiệm vụ này mang tính mở và chủ quan – không có đáp án duy nhất đúng[101]. Mô hình caption ảnh cần nhận diện được các đối tượng chính, hành động, đặc điểm trong ảnh, và suy ra mối quan hệ giữa chúng để diễn đạt thành câu có nghĩa[102]. Ứng dụng của caption ảnh rất thiết thực, ví dụ hỗ trợ người khiếm thị bằng cách cung cấp mô tả để họ hình dung nội dung hình ảnh[103].
Sinh ảnh từ văn bản (Text-to-Image Generation): Đây là nhiệm vụ tạo hình ảnh mới dựa trên mô tả văn bản đầu vào – một trong những ứng dụng nổi bật nhất của học đa modal hiện nay[104]. Với một đoạn prompt văn bản, mô hình sẽ vẽ ra bức ảnh tương ứng. Các mô hình như DALL-E 2 của OpenAI hay Imagen của Google đã tạo đột phá lớn, thu hút sự chú ý rộng rãi[105]. Bài khảo sát lưu ý việc sinh ảnh giống như quá trình “dịch ngược” của mô tả ảnh: thay vì từ ảnh ra chữ thì từ chữ “vẽ” ra ảnh[106]. Gần đây còn xuất hiện mô hình sinh video từ văn bản – mở rộng thêm trục thời gian. Ứng dụng: các mô hình này hỗ trợ mạnh mẽ trong chỉnh sửa ảnh, thiết kế đồ họa, và gợi cảm hứng sáng tạo nghệ thuật số[107]. Chúng cho phép người dùng chuyển ý tưởng thành hình ảnh một cách trực tiếp, thúc đẩy ngành công nghiệp sáng tạo phát triển[108].
Nhận dạng ngôn ngữ ký hiệu (Sign Language Recognition): Nhiệm vụ nhận biết cử chỉ ký hiệu tay và dịch chúng thành văn bản hoặc lời nói[109]. Dữ liệu đầu vào thường gồm video ghi lại người ra dấu kèm audio lời nói tương ứng. Điểm mấu chốt của bài toán này là yêu cầu mô hình căn chỉnh đồng bộ thông tin giữa hai modal theo thời gian[110]. Cụ thể, mô hình phải căn thời gian giữa chuỗi khung hình video (cử chỉ tay) với chuỗi sóng âm thanh (lời nói) để hiểu được tại thời điểm nào cử chỉ tương ứng với âm gì[111]. Do đó, đây là bài toán điển hình về alignment (căn chỉnh) đa modal theo trục thời gian[112]. Một bộ dữ liệu thường dùng là RWTH-PHOENIX-Weather 2014T chứa video người ra dấu tiếng Đức (kèm âm thanh)[113]. Bằng cách kết hợp cả đặc trưng thị giác (cử chỉ) và âm thanh, mô hình có thể nâng cao độ chính xác so với dùng đơn modal, giúp phiên dịch ngôn ngữ ký hiệu hiệu quả hơn[114].
Nhận diện cảm xúc (Emotion Recognition): Mặc dù có thể nhận diện cảm xúc (ví dụ cảm xúc của người nói, cảm xúc trong âm nhạc) bằng dữ liệu đơn modal, nhưng dùng đa modal sẽ cải thiện độ chính xác đáng kể[115]. Đầu vào có thể là video, âm thanh, văn bản hoặc thậm chí tín hiệu cảm biến sinh học (như sóng não EEG, nhịp tim ECG) tùy ứng dụng[116]. Ví dụ, để nhận biết cảm xúc ẩn chứa trong một bài hát, mô hình có thể kết hợp đặc trưng âm thanh (giai điệu, âm sắc...) và lời bài hát[117]. Bài khảo sát gợi ý sử dụng chiến lược fusion muộn (late fusion) trong trường hợp này: tức là huấn luyện riêng mô hình trên audio và trên lyrics, sau đó kết hợp kết quả dự đoán của hai mô hình để xác định cảm xúc cuối cùng[118]. Điều này hợp lý vì mỗi modal đóng góp một khía cạnh: âm thanh cho biết tông cảm xúc, lời hát cho biết nội dung cảm xúc. Bộ dữ liệu DEAM là ví dụ cho nghiên cứu này, gồm đặc trưng âm thanh (MFCC, phổ, nhịp điệu...) và lời cho 2000+ bài hát, hỗ trợ phân tích cảm xúc trong âm nhạc[119].
Xử lý video & âm thanh (Video and Audio processing): Với đà phát triển của mô hình ảnh-văn bản, hiện nay đang có xu hướng mở rộng sang mô hình video-văn bản, audio-văn bản. Bài khảo sát liệt kê một số mô hình và nhiệm vụ đa modal tiêu biểu trong miền video/âm thanh:

o Mô hình VideoCoCa (2022) – mở rộng từ CoCa của Google sang video, áp dụng cho bài toán hiểu video dựa trên caption tương tự ảnh[120].

o VideoCLIP – lấy cảm hứng từ CLIP (cho ảnh) để học đặc trưng video – văn bản trên dữ liệu video lớn[121].

o mPLUG-2 (Alibaba, 2022) – mô hình đa modal thống nhất, đã đạt kết quả ấn tượng trong các tác vụ video như hỏi đáp video (VideoQA) và mô tả video (Video Captioning)[46].

o MusicLM (Google, 2023) – mô hình đa modal cho audio, có thể sinh nhạc từ đoạn mô tả văn bản (ví dụ “một bản nhạc piano buồn, tempo chậm”)[122].

o Ngoài ra, còn nhiều nhiệm vụ phức tạp kết hợp audio-video khác: nhận dạng lời nói từ hình ảnh môi + âm thanh (Audio-visual speech recognition)[123], tách nguồn âm thanh theo video (Video sound source separation), tạo hình ảnh từ âm thanh (ví dụ nghe tiếng chim hót vẽ ra khung cảnh rừng tương ứng), tạo video khuôn mặt nói từ giọng nói (speech-conditioned face generation), và thậm chí hoạt hình hóa gương mặt 3D theo âm thanh (audio-driven 3D facial animation)[124][125]. Những nhiệm vụ này thể hiện sự phong phú của bài toán đa modal trong không gian video-âm thanh. Chúng đòi hỏi mô hình phải phối hợp nhịp nhàng thông tin thị giác và âm thanh, thậm chí kết hợp với mô hình 3D, để tạo ra kết quả nhất quán (ví dụ khuôn mặt cử động khớp với lời nói).

“Digital Human” thông minh: Đây là một ứng dụng mang tính tổng hợp nhiều modal, liên quan đến việc tạo ra nhân vật số (digital human) có tính tương tác cao. Bài viết đề cập sự phát triển của các công nghệ AIGC (AI Generated Content) giúp đơn giản hóa việc tạo nhân vật 3D sống động[126]. Ví dụ: NVIDIA Omniverse Avatar cho phép người dùng tạo avatar 3D từ ảnh, video, âm thanh chỉ trong thời gian ngắn[127]. Trong một digital human, công nghệ ngôn ngữ quyết định chất lượng nội dung giao tiếp (lời thoại, phản hồi thông minh), còn công nghệ thị giác chi phối biểu cảm gương mặt, cử chỉ cơ thể (như cử động môi khớp với lời nói)[128]. Nhờ tiến bộ của AIGC, các avatar AI ngày càng tương tác tự nhiên, thông minh hơn: chúng có khả năng nhận thức, phân tích và ra quyết định trong tương tác đa modal với con người[129][130]. Đây vừa là minh họa sinh động cho sức mạnh của MLLM (kết hợp xử lý ngôn ngữ, thị giác, âm thanh thời gian thực), vừa thúc đẩy nhu cầu nghiên cứu thêm (vì một digital human lý tưởng đòi hỏi giải quyết tốt hầu hết thách thức đa modal như căn chỉnh, hiểu ngữ cảnh, phản ứng nhanh...).

Bên cạnh các tác vụ trên, bài khảo sát còn cung cấp Bảng II liệt kê các bộ dữ liệu đa phương thức tiêu biểu phục vụ nghiên cứu và đánh giá mô hình[131]. Các dataset được phân loại theo loại modal: ví dụ COCO (2014) ~ 567k mẫu ảnh-chú thích văn bản[132], Visual Genome (2017) ~ 5.4M vùng ảnh-chú thích chi tiết[133], YouCook2 (2018) ~ 2.2k video-công thức nấu ăn (video-văn bản)[134], WebVid-2M (2021) ~ 2.5M video-caption web[135], Common Voice (2019) ~ 9.2k đoạn tiếng nói + transcript (audio-văn bản)[136], LibriSpeech (2015) ~ 1k giờ sách nói + text (audio-văn bản)[137], M5Product (2021) ~ 6M sản phẩm gồm ảnh, video, âm thanh, văn bản (modal hỗn hợp)[138], MSR-VTT (2016) ~ 10k video và phụ đề + âm thanh (đa modal)[139]. Việc tổng hợp các bộ dữ liệu này cung cấp tài nguyên quý báu để huấn luyện và đánh giá MLLM – nhà nghiên cứu có thể chọn dataset phù hợp để thử nghiệm hiệu quả mô hình trên từng loại nhiệm vụ[140][141].

Phần VI: Thách thức (Challenges). Phần này thảo luận những vấn đề mở và khó khăn chính khi phát triển các mô hình đa phương thức lớn, đồng thời gợi ý định hướng tương lai để khắc phục. Tác giả liệt kê một số thách thức cốt lõi sau[142]:
Mở rộng phạm vi modal (Modalities expansion): Hiện tại hầu hết MLLM tập trung vào văn bản + hình ảnh (và phần nào là âm thanh). Tuy nhiên, thế giới thực phong phú nhiều dạng dữ liệu khác như tín hiệu sinh học, xúc giác, khứu giác, v.v. Để phân tích toàn diện hiện tượng phức tạp (ví dụ cảm xúc của con người), cần kết hợp thêm nhiều modal: âm thanh (giọng nói) thể hiện tông giọng, thị giác (nét mặt, cử chỉ) thể hiện biểu cảm, thậm chí điện tâm đồ (ECG) hay điện não đồ (EEG) phản ánh trạng thái sinh lý bên trong[143]. Tương tự, trong y tế, chẩn đoán chính xác đòi hỏi tổng hợp thông tin từ ảnh CT, MRI, PET… mỗi loại cho một lát cắt khác nhau về tình trạng bệnh nhân[144]. Thách thức ở đây là làm sao thiết kế mô hình và thu thập dữ liệu để tích hợp hiệu quả các nguồn dữ liệu đa dạng đó. Mở rộng sang modal mới cũng đi kèm bài toán căn chỉnh và kết hợp: ví dụ căn thời gian giữa các tín hiệu sinh học, hay hợp nhất ảnh y khoa các nguồn. Đây là hướng quan trọng để MLLM bao quát hiểu biết như con người.
Vấn đề thời gian huấn luyện và hiệu năng (Time-consuming problem): Các mô hình đa modal cỡ lớn thường rất nặng về tính toán, gây trở ngại khi huấn luyện và triển khai[145]. Thứ nhất, kích thước mô hình và dữ liệu đòi hỏi phải huấn luyện phân tán trên cụm máy – điều này phức tạp hơn so với mô hình nhỏ chạy trên 1 máy[146]. Thứ hai, nhiều ứng dụng yêu cầu đa người dùng, đa nhiệm vụ đồng thời, tức một mô hình phải phục vụ song song nhiều luồng tác vụ khác nhau (multi-tenancy)[147]. Thứ ba, hệ thống phải đảm bảo độ tin cậy cao, chịu lỗi tốt, vì chỉ cần một thành phần trong pipeline đa modal lỗi có thể ảnh hưởng kết quả[147]. Bài khảo sát đặt vấn đề: làm sao tăng tốc độ huấn luyện mô hình lớn?[148]. Một gợi ý là tận dụng nhiều mô hình backbone khác nhau phân bố qua các cụm tính toán kết nối tốc độ cao, và trong quá trình huấn luyện/suy luận, sử dụng lịch trình thông minh (gang scheduling) để động thái định tuyến dòng tính toán qua các mô hình đó[149]. Ví dụ có thể chia sẻ một phần tính toán, chia sẻ trọng số, hoặc định tuyến qua mô hình phù hợp cho từng modal để tăng hiệu quả[150]. Mục tiêu cuối cùng là vừa giảm thời gian huấn luyện, vừa đáp ứng tốt nhu cầu đa nhiệm, tránh lãng phí tài nguyên.
Học suốt đời/liên tục (Lifelong/Continual Learning): Hiện nay, đa phần mô hình AI được huấn luyện theo kiểu học cô lập: huấn luyện xong trên một tập dữ liệu cố định rồi mang áp dụng, nếu có kiến thức mới thì huấn luyện lại mô hình mới. Cách học ngắt quãng này dẫn đến mô hình không có trí nhớ dài hạn, không tích lũy được kinh nghiệm[151]. Với mô hình đa modal lớn, khi triển khai trong thực tế, chúng cần khả năng học liên tục từ dòng dữ liệu mới (thế giới luôn thay đổi, thông tin mới xuất hiện). Do đó, thách thức là làm sao xây dựng được MLLM có khả năng học suốt đời, liên tục cập nhật kiến thức mà không quên kiến thức cũ[152]. Bài viết nhấn mạnh tầm quan trọng của hướng này: một MLLM lý tưởng phải có khả năng hiểu thế giới ngày càng phức tạp dựa trên kinh nghiệm của chính nó, tức là tự đào tạo và cải thiện một cách liên tục, tự chủ[153]. Điều này liên hệ mật thiết đến vấn đề quên sót thảm họa (catastrophic forgetting) trong học liên tục – mô hình có xu hướng quên nhiệm vụ cũ khi học nhiệm vụ mới[154]. Ví dụ, một LLM ngôn ngữ khi được huấn luyện thêm để điều khiển robot có thể bị suy giảm khả năng ngôn ngữ gốc do mạng nơ-ron của nó quên mất mục tiêu ban đầu[155]. Để tránh điều này, một số nghiên cứu đề xuất hai hướng: (i) tránh quên bằng cách huấn luyện lại từ đầu mô hình nhỏ hơn với dữ liệu mới (hy sinh bớt kiến trúc lớn để dễ huấn luyện lại)[156]; (ii) dùng mô hình ngôn ngữ cực lớn làm backbone cố định, chỉ dạy thêm kỹ năng mới xung quanh nó – nhờ backbone lớn, kiến thức gốc khó bị ghi đè hơn[156]. Ngoài ra, tác giả cũng liệt kê các vấn đề thách thức khác trên hành trình tiến tới AGI đa modal như: fusion đa modal tối ưu hơn, alignment giữa các modal (cả về đặc trưng lẫn ngữ nghĩa), học đồng thời nhiều nhiệm vụ (co-learning), và mô hình hoạt động theo dạng dịch vụ (Model-as-a-Service)[157]. Những vấn đề này cần được giải quyết đồng bộ để xây dựng nên hệ thống đa modal thực sự thông minh và bền vững.
Phần VII: Kết luận. Bài báo kết luận bằng cách tóm tắt những nội dung chính đã trình bày và nhấn mạnh mục tiêu của khảo sát: cung cấp cái nhìn tổng quan từ khái niệm cơ bản đến thuật toán, dữ liệu, ứng dụng và thách thức của MLLM[158]. Tác giả kỳ vọng bản khảo sát này sẽ là tài liệu tham khảo hữu ích cho nghiên cứu tương lai, giúp cộng đồng định hướng phát triển các mô hình đa phương thức tiến bộ hơn[158].

Nhìn chung, cấu trúc bài viết đi từ tổng quát đến cụ thể: đặt nền tảng khái niệm, lược sử phát triển, rồi đi sâu vào các thành phần kỹ thuật, điểm qua các mô hình nổi bật, mở rộng sang ứng dụng & dữ liệu, cuối cùng phân tích thách thức. Cách trình bày này giúp người đọc nắm được bức tranh toàn cảnh về MLLM trước khi đào sâu vào từng khía cạnh chi tiết.

Phân tích các mô hình đại diện trong MLLM

Bài khảo sát đã đề cập nhiều mô hình đại diện cho xu hướng MLLM, từ các mô hình nền tảng ban đầu đến những hệ thống đa modal tích hợp LLM mới nhất. Dưới đây, chúng tôi phân tích đặc điểm, sự khác biệt và đóng góp của những mô hình tiêu biểu đó, dựa theo nội dung bài báo:

Transformer (Vaswani et al., 2017): Tuy không phải mô hình đa modal, Transformer được xem là nền tảng chung cho hầu hết các MLLM hiện đại[53]. Kiến trúc self-attention cho phép xử lý chuỗi dữ liệu dài hiệu quả, bất kể định dạng đầu vào (câu chữ hay chuỗi patch ảnh) nhờ tính bất biến với độ dài chuỗi[159]. Tính chất chia sẻ trọng số theo vị trí của Transformer được bài báo nhấn mạnh là rất hữu ích cho đa modal – vì ta có thể dùng cùng một tập tham số để học cả từ và ảnh, cho phép chuyển tri thức giữa các modal (ví dụ dùng trọng số học từ ảnh để áp dụng cho văn bản)[160]. Do đó, Transformer trở thành “mẫu số chung” cho việc xây dựng các mô hình multi-modal về sau.
Vision Transformer (ViT, 2020): Mở rộng Transformer sang domain hình ảnh. Đóng góp chính của ViT là cách biến một ảnh thành chuỗi patch embedding để Transformer có thể xử lý như chuỗi từ[161]. Nhờ ViT, các mô hình về sau (BEiT, CLIP, Flamingo…) mới có thể kết hợp đặc trưng thị giác vào chung kiến trúc Transformer. ViT cũng cải thiện hiệu quả trích xuất đặc trưng ảnh, tạo ra chiến lược thay thế CNN trong thị giác máy tính[58]. ViT cho thấy một mô hình ngôn ngữ (Transformer) hoàn toàn có thể “đọc” được hình ảnh nếu biết chuyển định dạng đầu vào phù hợp, từ đó thu hẹp khoảng cách CV-NLP[57].
CLIP (Radford et al., 2021): Mặc dù bài khảo sát đề cập CLIP trong phần lịch sử, đây là một trong những mô hình hai luồng (dual encoder) ảnh-văn bản có ảnh hưởng lớn. CLIP dùng một encoder Transformer cho text, một encoder (ResNet hoặc ViT) cho image, và huấn luyện bằng mục tiêu tương phản để ép embedding ảnh và chú thích tương ứng phải gần nhau, khác chú thích không liên quan[29]. Đóng góp: CLIP loại bỏ nhu cầu nhãn lớp cố định – nó hiểu hình ảnh qua mô tả ngôn ngữ linh hoạt thay vì gò vào danh mục đóng[162]. CLIP trở thành backbone cho nhiều hệ thống, cung cấp không gian chung ảnh-chữ đã căn chỉnh để xây dựng ứng dụng zero-shot (phân loại ảnh theo mô tả tùy ý, tìm kiếm hình ảnh theo caption v.v.).
DALL-E 2 (Ramesh et al., 2022): Mô hình sinh ảnh nổi tiếng của OpenAI. Bài khảo sát nhắc đến DALL-E 2 như ví dụ điển hình của ứng dụng text-to-image, sử dụng mô hình khuếch tán (diffusion) điều kiện trên embedding CLIP[30]. Đóng góp: DALL-E 2 chứng minh MLLM không chỉ hiểu mà còn tạo ra được modal mới từ mô tả ngôn ngữ. Nó đánh dấu sự trưởng thành của mô hình đa modal trong khả năng sáng tạo nội dung, tạo tiền đề cho loạt mô hình generative đa modal khác (Imagen, StableDiffusion, Parti...).
KOSMOS-1 (2023, Microsoft): Mô hình đa modal cỡ lớn có kiến trúc thống nhất, tích hợp thị giác và ngôn ngữ trong cùng một Transformer. Theo bài khảo sát, KOSMOS-1 có khả năng tiếp thu thông tin từ nhiều modal và thực hiện theo chỉ dẫn (instruction following) rất tốt[32]. Nó có thể làm đối thoại hình ảnh, mô tả ảnh, phân loại ảnh không cần fine-tune, và còn biết học trong ngữ cảnh (ví dụ, xem vài ví dụ trong prompt rồi làm theo)[32]. Đóng góp: KOSMOS-1 cho thấy một mô hình ngôn ngữ lớn tổng quát có thể “gắn” thêm khả năng thị giác mà vẫn giữ được kỹ năng hiểu lệnh phức tạp. Đây là một bước tiến tới các mô hình thống nhất (unified) thực sự, khi mà ranh giới giữa mô hình ngôn ngữ và thị giác mờ đi.
PaLM-E (2023, Google): Là sự kết hợp của mô hình ngôn ngữ PaLM (540B tham số) với Vision Transformer (ViT-22B), tạo thành một model đa modal cực lớn. Bài báo mô tả PaLM-E đạt kỷ lục mới về hiệu suất trong các tác vụ thị giác-ngôn ngữ mà không cần tinh chỉnh riêng cho từng tác vụ cụ thể[33]. Cụ thể, PaLM-E không chỉ xuất sắc ở nhiệm vụ hình ảnh (như phân biệt vật thể, nhận dạng cảnh) mà còn giỏi cả nhiệm vụ ngôn ngữ (viết mã, giải toán) – thể hiện tính đa năng hiếm có[33]. Đóng góp: PaLM-E đưa ra chuẩn mực mới về hiệu năng hợp nhất: một mô hình duy nhất, huấn luyện end-to-end, có thể đồng thời ở top đầu trên nhiều lĩnh vực. Nó chứng minh tiềm năng của việc quy mô hóa mô hình đa modal (scaling up) – khi mô hình đủ lớn và dữ liệu đủ nhiều, ta có thể đạt hiệu quả cao mà không cần fine-tune chuyên biệt.
Visual ChatGPT & MM-REACT (2023, Microsoft): Hai hệ thống này đại diện cho hướng tiếp cận tích hợp LLM với các mô hình chuyên biệt thay vì huấn luyện một mô hình thống nhất mới. Visual ChatGPT cho phép ChatGPT mở rộng sang modal hình ảnh qua cơ chế gọi các model thị giác bên ngoài bằng prompt[66]. MM-REACT cũng tương tự nhưng tập trung vào Q&A với ảnh, với điểm mới là ChatGPT tự quyết định dùng công cụ nào[68]. So sánh: Cả hai cho thấy một con đường khác để đạt năng lực đa modal: dùng LLM như bộ điều phối (brain) và giữ các mô hình thị giác/audio như công cụ. Cách này tận dụng được tri thức ngôn ngữ dồi dào của LLM và sức mạnh chuyên môn của model thị giác đã huấn luyện tốt, tránh phải huấn luyện tất cả từ đầu. Tuy nhiên, hạn chế là sự tương tác rời rạc giữa các mô hình có thể gây độ trễ và lỗi truyền (ví dụ caption sai sẽ dẫn đến trả lời sai). Dù vậy, đóng góp của chúng nằm ở việc mở rộng linh hoạt khả năng của LLM mà không tốn chi phí huấn luyện khổng lồ.
Frozen (2021): Mô hình này tiêu biểu cho chiến lược “LLM frozen + học thêm module nhỏ”. Ưu điểm: giữ nguyên được toàn bộ kiến thức và khả năng sinh ngôn ngữ của LLM (ở đây là GPT-3), chỉ cần dạy nó cách hiểu ảnh qua huấn luyện một encoder ảnh nhỏ[70]. Hạn chế: do LLM không cập nhật tham số, nên có thể không tối ưu hoàn toàn cho đa modal. Kết quả Frozen trong VQA ở mức khá, nhưng không vượt được các mô hình thiết kế đặc thù (như Flamingo của DeepMind). Dù vậy, Frozen mở đầu cho ý tưởng kết hợp LLM và modal khác bằng tối thiểu tinh chỉnh, ảnh hưởng đến các phương pháp sau như BLIP-2, MiniGPT-4 (đều giảm số tham số cần train bằng cách freeze phần lớn).
BLIP-2 (2023) & các biến thể (MiniGPT-4, LLaVA, LLaMA-Adapter): Đây là nhóm mô hình theo kiến trúc “Frozen backbone + trung gian Q-former/adapter + tinh chỉnh nhẹ”. Điểm chung: Chúng đều cố gắng giữ nguyên phần LLM ngôn ngữ (ví dụ sử dụng LLaMA hoặc GPT-3 đã pre-train) và phần encoder ảnh pre-train, chỉ huấn luyện một lượng nhỏ tham số trung gian để kết nối hai phần: BLIP-2 dùng Q-former[72], LLaMA-Adapter dùng prompt vector adapter[77], MiniGPT-4/LLaVA dùng lớp tuyến tính ghép nối[79]. Cách làm này cực kỳ hiệu quả về mặt tính toán, vì đào tạo nhanh (ít tham số) nhưng vẫn tận dụng được sức mạnh của mô hình lớn có sẵn. So sánh chi tiết: BLIP-2 huấn luyện hai bước với Q-former, hiệu quả trên nhiều nhiệm vụ zero-shot[163]; MiniGPT-4 và LLaVA tinh chỉnh chỉ một linear layer, nhưng phải dựa vào dữ liệu tinh chế chất lượng cao (có GPT-3/GPT-4 tham gia) để đạt kết quả tốt[80][82]. LLaMA-Adapter thì đề xuất một cơ chế kiến trúc khác (adapter vectors) thay vì Q-former, linh hoạt trong thêm modal nhưng có lẽ cần đánh đổi chút hiệu năng so với Q-former tối ưu hóa riêng. Đóng góp chung: nhóm mô hình này xác lập hướng đi “parameter-efficient multimodal learning” – tức huấn luyện mô hình đa modal một cách tiết kiệm nhất, chủ yếu tái sử dụng module đã pre-train. Điều này hạ ngưỡng tiếp cận, giúp nhiều nhóm có thể xây dựng MLLM (như MiniGPT-4, LLaVA đều là dự án học thuật mở) mà không cần tài nguyên khổng lồ như OpenAI hay Google.
PICa, PNP-VQA, Img2LLM: Nhóm này đại diện cho hướng sử dụng LLM có sẵn (như GPT-3) để gián tiếp giải quyết bài toán đa modal, chủ yếu tập trung vào VQA. Chúng không tạo ra mô hình mới mà thiết kế pipeline để LLM văn bản có thể nhận thông tin từ ảnh qua mô tả. PICa dùng caption ảnh làm cầu nối nhưng mất mát thông tin[89]; PNP-VQA cải tiến bằng cách caption theo vùng ảnh liên quan câu hỏi[91]; Img2LLM thì tạo hẳn các cặp hỏi-đáp giả lập về ảnh để LLM tham chiếu[96]. Đánh giá: Hướng này tận dụng sức mạnh LLM sẵn (GPT-3), nên ban đầu nhanh chóng cho kết quả khá mà không cần huấn luyện mô hình mới. Tuy nhiên, nhược điểm là phụ thuộc nhiều vào chất lượng module trung gian (caption, chọn vùng, sinh câu hỏi). Mỗi bước thêm vào là một nguồn lỗi và thông tin có thể thất thoát. Khi xuất hiện các mô hình như BLIP-2, Flamingo có thể xử lý ảnh trực tiếp, hiệu năng VQA vượt trội hẳn pipeline kiểu PICa. Dù vậy, đóng góp của các phương pháp này là chứng minh khả năng khai thác LLM cho đa modal mà không tốn chi phí huấn luyện, và một số kỹ thuật (như chọn patch liên quan, tạo Q&A từ ảnh) có thể tích hợp vào các hệ thống lớn hơn để tăng cường hiểu biết của mô hình.

Tóm lại, các mô hình đại diện trải rộng từ kiến trúc thống nhất end-to-end (KOSMOS-1, PaLM-E) đến hệ thống kết hợp module (VisualChatGPT, MM-REACT), từ huấn luyện full một mô hình mới (CLIP, ViLT, Flamingo) đến tái sử dụng LLM có sẵn (Frozen, BLIP-2, MiniGPT-4) hay chỉ dùng pipeline không huấn luyện (PICa, Img2LLM). Mỗi hướng có điểm mạnh riêng: mô hình thống nhất tiềm năng cao nhất nhưng đòi hỏi tài nguyên lớn; dùng module thì linh hoạt, dễ triển khai; dùng LLM sẵn tiết kiệm nhưng hiệu quả có trần. Bài khảo sát đã phân tích đặc điểm kỹ thuật chính của từng mô hình (xem Bảng I[65][164]) cũng như đóng góp của chúng trong việc tiến gần hơn tới mục tiêu cuối: một mô hình AI đa phương thức tổng quát.

Diễn giải các khái niệm kỹ thuật quan trọng

Bài viết đã đưa ra và thảo luận nhiều khái niệm kỹ thuật xoay quanh MLLM. Dưới đây là diễn giải rõ hơn bằng tiếng Việt một số thuật ngữ nổi bật và quan trọng:

· Căn chỉnh đa phương thức (Multimodal alignment): Đây là khái niệm chỉ việc đưa các modal khác nhau vào cùng một “hệ quy chiếu” sao cho chúng tương ứng với nhau về mặt ngữ nghĩa hoặc thời gian. Căn chỉnh có nhiều dạng:

· Căn chỉnh không gian đặc trưng: Ví dụ mô hình CLIP học hàm embedding sao cho vector ảnh và vector văn bản tương ứng (mô tả cùng một nội dung) thì gần nhau, còn ảnh và văn bản không liên quan thì xa nhau[30]. Điều này tạo ra không gian nhúng chung cho ảnh-văn bản, giúp mô hình hiểu được đâu là chú thích đúng cho ảnh và ngược lại (align nghĩa ảnh “A cat on a sofa” với câu “một con mèo trên ghế sofa”). Tương tự, alignment giữa hình ảnh và câu hỏi/đáp án cũng quan trọng trong VQA – PNP-VQA đã căn chỉnh bằng cách tìm patch ảnh liên quan câu hỏi trước khi trả lời[91].

· Căn chỉnh tạm thời (temporal alignment): Quan trọng trong các tác vụ video-audio. Ví dụ nhận dạng ký hiệu tay cần căn chỉnh khung hình video với sóng âm để biết khoảnh khắc nào âm thanh khớp với cử chỉ nào[110]. Nếu không căn đúng, mô hình có thể ghép sai cử chỉ với từ, dẫn đến phiên dịch sai.

Căn chỉnh xuyên modal khác: Trong đa modal phức tạp (như digital human), ta còn cần căn khẩu hình miệng với lời nói (speech-face alignment) để avatar nói năng tự nhiên[128], hoặc căn cử chỉ tay với ngữ điệu giọng trong giao tiếp.
Thách thức căn chỉnh: Mỗi modal có đặc trưng và tốc độ khác nhau (ví dụ hình ảnh chứa thông tin không tuần tự, âm thanh thì tuần tự theo thời gian). Việc tìm ra hàm ánh xạ chung là khó. Bài khảo sát xếp multimodal alignment vào một trong những thách thức lớn hướng tới AGI[165]. Giải quyết tốt alignment sẽ giúp mô hình hiểu đúng sự tương ứng giữa các nguồn thông tin, từ đó phân tích và tạo ra phản hồi nhất quán.
Kiến trúc thống nhất (Unified architecture): Trong bối cảnh MLLM, đây là ý tưởng xây dựng một kiến trúc duy nhất có thể tiếp nhận và xử lý mọi modal thay vì tách riêng từng modal. Thực tế có nhiều cấp độ thống nhất:

· Thống nhất một phần: Ví dụ mô hình fusion encoder coi ảnh và chữ chỉ là một chuỗi đầu vào cho Transformer chung (như model ViLT – Vision-and-Language Transformer). Tuy nhiên, thường vẫn cần encoder đặc thù để trích xuất đặc trưng ban đầu cho từng modal (VD: ResNet trích xuất ảnh trước khi đưa embedding vào chuỗi).

· Thống nhất hoàn toàn: Mơ ước là một mô hình có thể nhận trực tiếp dữ liệu thô từ mọi modal (pixel ảnh, sóng âm, text) và xử lý trong một mạng duy nhất. Điều này đòi hỏi thiết kế rất linh hoạt. Một cách là thêm các khối chuyên gia cho từng modal như VLMO làm[45], hoặc dùng token đặc biệt để đánh dấu modal và huấn luyện Transformer học cách phân biệt (KOSMOS-1 có thể dùng approach này).

Ví dụ: KOSMOS-1 và PaLI là những nỗ lực hướng tới unified: huấn luyện end-to-end cho cả ảnh và text trong cùng mô hình, kết quả thu được rất ấn tượng (KOSMOS-1 làm được nhiều việc, PaLI đạt SOTA nhiều nhiệm vụ thị giác-ngôn ngữ). Unified architecture hứa hẹn nhất quán hơn, không phải lắp ráp nhiều module, và có thể học biểu diễn chung thực sự. Nhưng nó đòi hỏi dữ liệu huấn luyện cực lớn và đa dạng để học tất cả trong một mô hình. Bài khảo sát nhận định đây là xu hướng đang thúc đẩy lĩnh vực (sự ra đời của unified MLLM giúp mở rộng sang video, audio)[46], đồng thời cũng liệt kê multimodal fusion và alignment (liên quan đến unified modeling) là thách thức để đạt AGI[165].
Instruction tuning (Tinh chỉnh theo hướng dẫn): Đây là thuật ngữ xuất phát từ NLP, chỉ việc fine-tune mô hình ngôn ngữ lớn trên các dữ liệu dạng mệnh lệnh-hướng dẫn và lời đáp để mô hình học cách làm theo chỉ dẫn của người dùng. Ví dụ: mô hình GPT-3 khi tinh chỉnh thành InstructGPT đã học được cách tuân thủ yêu cầu trong prompt thay vì chỉ tiếp tục văn bản một cách đơn thuần. Trong ngữ cảnh đa modal, multimodal instruction tuning nghĩa là tinh chỉnh mô hình để nó có thể hiểu và làm theo hướng dẫn có yếu tố đa modal (ví dụ: “Hãy nhìn bức ảnh này và mô tả cảnh hoàng hôn”). Điều này đòi hỏi dữ liệu huấn luyện đặc biệt: thường là các đoạn hội thoại đa modal giữa người và mô hình, gồm cả phần hình ảnh và phần chỉ dẫn văn bản. Bài khảo sát đã nêu hai ví dụ: MiniGPT-4 và LLaVA – cả hai đều thực hiện tinh chỉnh mô hình cho mục đích đối thoại đa phương thức.

· MiniGPT-4: giai đoạn hai, họ tạo các cặp hình ảnh – đoạn hội thoại mô tả ảnh bằng cách nhờ ChatGPT viết lại caption thành đoạn văn chi tiết[80].

LLaVA: họ dùng GPT-4 tạo dữ liệu instruction đa modal đa dạng (hỏi đáp nhiều vòng về ảnh, mô tả, câu hỏi suy luận) rồi tinh chỉnh mô hình trên những hướng dẫn này[82][83]. Kết quả, các mô hình sau instruction tuning có thể tương tác tự nhiên với người dùng: hiểu câu hỏi liên quan đến ảnh và trả lời đúng ngữ cảnh, giữ được định dạng đối thoại (thậm chí qua nhiều lượt). Instruction tuning thực chất giúp MLLM mô phỏng hành vi của trợ lý AI biết nghe lệnh và giải quyết vấn đề theo yêu cầu. Đây là bước quan trọng để các mô hình như GPT-4, LLaVA thân thiện và hữu ích hơn trong ứng dụng thực tế. Nó cũng giúp đánh giá mô hình trực quan hơn: thay vì chỉ cho điểm trên benchmark, ta có thể trò chuyện với mô hình để cảm nhận mức độ hiểu biết đa modal của nó.
Học trong ngữ cảnh (In-context learning): Mặc dù không được hỏi trực tiếp, nhưng đây là khái niệm liên quan đã nhiều lần được nhắc. Học trong ngữ cảnh là khả năng của LLM (nhất là các model lớn như GPT-3) giải quyết nhiệm vụ mới chỉ bằng cách nhìn ví dụ trong prompt, không cập nhật tham số. Trong đa modal, điều này đồng nghĩa mô hình có thể giải bài toán đa modal mới nếu ta cung cấp một vài ví dụ đa modal dưới dạng prompt. Mô hình Frozen và PICa đã dựa vào in-context learning: họ cho LLM xem một số ví dụ Q&A kèm ảnh (dưới dạng mô tả) trong prompt, sau đó LLM trả lời câu mới dựa trên “ngữ cảnh” đó[166]. So với fine-tuning, in-context kém ổn định hơn và đòi hỏi LLM đủ lớn. Tuy nhiên, nếu làm tốt (như GPT-4), nó cho phép sử dụng một mô hình duy nhất cho vô số nhiệm vụ mà không tốn công huấn luyện lần lượt.
Fusion vs. Co-learning vs. MaaS: Những khái niệm này xuất hiện ở cuối bài trong phần thách thức hướng tới AGI[165]:

· Multimodal fusion: đã bàn ở trên – chỉ việc hợp nhất thông tin đa modal. Cần những phương pháp fusion tốt hơn (như architecture, gating, v.v.) để modal bổ trợ nhau hiệu quả.

· Multimodal co-learning: hiểu đơn giản là học đồng thời nhiều nhiệm vụ/modal. Mô hình co-learning có thể học chéo giữa các modal (ví dụ học chú thích ảnh và trả lời VQA cùng lúc, hai nhiệm vụ hỗ trợ nhau). Thách thức co-learning là tránh việc model chỉ tập trung modal này mà bỏ modal kia, hoặc quá tải khi học nhiều thứ cùng lúc.

· Model-as-a-Service (MaaS): nghĩa là triển khai mô hình AI như một dịch vụ thường trú, phục vụ liên tục nhiều yêu cầu. Điều này đặt ra yêu cầu thiết kế mô hình linh hoạt, hiệu quả và dễ mở rộng. Với MLLM, MaaS không chỉ là chạy một mô hình ngôn ngữ, mà còn quản lý cả pipeline phức tạp (ví dụ VisualChatGPT có nhiều module). Thách thức là làm sao đóng gói mô hình đa modal thành dịch vụ dễ dùng, có thể tương tác thời gian thực, và nâng cấp thường xuyên.

Các khái niệm trên cho thấy phát triển MLLM không chỉ là bài toán mô hình học máy đơn thuần, mà còn liên quan đến quản lý hệ thống, trải nghiệm người dùng và định hướng an toàn. Hiểu đúng và triển khai tốt các kỹ thuật như alignment, kiến trúc thống nhất, instruction tuning, v.v., sẽ quyết định thành công của thế hệ AI đa modal tiếp theo.

Thách thức mở và định hướng tương lai

Từ phần Challenges (Phần VI) của bài khảo sát, có thể thấy tương lai của MLLM đặt ra nhiều đề tài nghiên cứu mở. Dưới đây là các thách thức chính được tác giả đề xuất, kèm định hướng giải quyết:

· Mở rộng modal và tri thức cảm giác: Hiện tại, mô hình chủ yếu bao gồm thị giác + ngôn ngữ (và đôi khi âm thanh). Thách thức là làm sao thêm được nhiều modal hơn (xúc giác, tín hiệu não, dữ liệu IoT, mùi vị, v.v.) để mô hình có hiểu biết phong phú như con người. Điều này cần:

· Dữ liệu đa modal phong phú: các bộ dữ liệu kết hợp nhiều nguồn (ví dụ bộ dữ liệu y khoa gồm cả hình ảnh quét và số liệu xét nghiệm).

· Kiến trúc linh hoạt: mô hình phải dễ dàng thêm kênh input mới mà không phải thiết kế lại toàn bộ (có thể qua plugin hoặc modul tương ứng).

Kỹ thuật căn chỉnh phức hợp: căn chỉnh không chỉ 2 modal mà có thể đa chiều (ví dụ: nối kết ảnh, âm thanh, tín hiệu EEG tất cả cùng nhau).
Tác giả gợi ý trong tính toán cảm xúc hoặc y tế, việc kết hợp như vậy đã cho thấy hiệu quả[167][168], do đó trong tương lai nên mở rộng ra các lĩnh vực khác (thành phố thông minh, phân tích video đa giác quan...). Định hướng: xây dựng môi trường huấn luyện tổng hợp nơi nhiều modal có thể được đồng bộ, và thuật toán học biểu diễn chung cho nhiều dạng dữ liệu.
Tối ưu hiệu năng và chi phí: MLLM rất lớn, do đó tối ưu hóa tốc độ và tài nguyên là thách thức liên tục. Các hướng tương lai:

· Phân tán và song song hóa thông minh: Nghiên cứu cách chia mô hình và dữ liệu trên nhiều GPU/TPU sao cho sử dụng 100% tài lực mà không nghẽn (cân bằng tải tốt, giảm thời gian chờ). Có thể cần các thuật toán lập lịch động để tự điều phối chạy các phần của mô hình trên cluster[149].

· Mô hình nhẹ hơn nhưng thông minh hơn: Tìm cách giảm tham số (ví dụ dùng model nhỏ hơn nhưng nhiều mô hình cộng lại, hay model hiệu quả hơn như Mixture-of-Experts) nhằm giảm chi phí. Hướng multimodal MoE có thể cho mỗi modal một chuyên gia, khi cần thì gọi, giúp tiết kiệm tính toán.

Chia sẻ và tái sử dụng: Tận dụng mô hình có sẵn (như xu hướng LLaVA, BLIP-2 đã làm) thay vì huấn luyện từ đầu. Tương lai có thể có kho mô hình foundation cho từng modal, ta chỉ việc ghép lại cho phù hợp nhiệm vụ mà thôi (giảm thiểu training).
Tác giả cũng đề cập việc ghép nhiều backbone và dùng gang scheduling để chia sẻ tính toán, chia sẻ trọng số… như một ý tưởng tăng tốc[149]. Định hướng: phát triển các framework huấn luyện chuyên biệt cho mô hình lớn đa modal (như DeepSpeed, Megatron-LM đã có cho NLP, giờ mở rộng cho multi-modal) và phần cứng tối ưu (GPU nhiều RAM, băng thông cao giữa máy).
Học liên tục và tránh quên kiến thức: Đây là thách thức lớn về mặt thuật toán. Một số hướng nghiên cứu:

· Mô hình linh hoạt cập nhật: Thay vì mô hình cố định sau train, nghiên cứu cơ chế lưu trữ kiến thức lâu dài (ví dụ dùng memory external, hay modular mạng) để khi gặp dữ liệu mới mô hình có chỗ “ghi nhớ” mà không ghi đè lên kỹ năng cũ.

· Kỹ thuật tránh quên: Các phương pháp từ học liên tục có thể áp dụng: regularization (ràng buộc tham số không thay đổi quá nhiều khỏi giá trị cũ), progressive networks (mạng mới mở rộng từ mạng cũ, giữ nguyên mạng cũ bất biến), hoặc như tác giả trích dẫn: dùng mạng nhỏ học lại hoặc mạng cực lớn làm nền tảng[156]. Ví dụ: có thể khi thêm một modal hay nhiệm vụ mới, ta không động vào mô hình ngôn ngữ gốc mà thêm module mới học riêng (gần giống cách adapter hoạt động, giữ backbone ngôn ngữ cố định).

Đánh giá liên tục: Cần tiêu chuẩn đo lường xem mô hình có bị suy giảm kỹ năng cũ sau khi học kỹ năng mới không (phát hiện catastrophic forgetting sớm).
Định hướng: tích hợp các nguyên tắc học suốt đời từ neuroscience: con người khi học cái mới thường ôn lại cái cũ, hoặc có giấc ngủ củng cố trí nhớ. Tương tự, có thể cho mô hình “hồi tưởng” dữ liệu cũ trong khi huấn luyện cái mới (như replay memory), hoặc thiết kế kiến trúc có bộ nhớ cố định cho kiến thức cũ.
Hướng tới AI đa modal tổng quát (AGI đa phương thức): Đây là mục tiêu dài hạn. Ngoài các điểm trên, tác giả liệt kê những vấn đề cần giải quyết trên con đường này:

· Fusion tối ưu: làm sao modal kết hợp nhuần nhuyễn nhất (có thể cần kiến trúc mới vượt qua Transformer thông thường).

· Alignment hoàn hảo: mô hình AGI phải hiểu chính xác mối liên hệ giữa mọi thông tin đa modal (như con người nghe tiếng sét và thấy chớp biết hai cái cùng nguồn).

· Co-learning nhiều nhiệm vụ: AGI phải đa năng, nên mô hình phải học tốt nhiều thứ đồng thời (không phải sequential như hiện tại).

· Triển khai dạng dịch vụ (MaaS): Mô hình AGI sẽ phục vụ như một người trợ lý, nên nó phải được thiết kế để chạy ổn định, tương tác theo yêu cầu người dùng mọi lúc.
Định hướng: Có thể cần cách tiếp cận mới ngoài deep learning thuần túy, ví dụ tích hợp lập luận biểu tượng với mạng nơ-ron để giải quyết những ca phức tạp, hoặc sử dụng mô hình thế giới (world model) trong học tăng cường để dạy AI hiểu quy luật đa modal. Bài khảo sát không đi sâu vào giải pháp AGI, nhưng nhấn mạnh việc tránh quên kiến thức gốc khi mở rộng sang domain mới là bước quan trọng[155][169].

Tóm lại, thách thức và hướng tương lai của MLLM rất đa diện: từ kỹ thuật cốt lõi (mô hình, thuật toán) cho đến nguồn lực dữ liệu, tính toán, và cả cách tổ chức hệ thống. Việc giải quyết chúng đòi hỏi nỗ lực liên ngành và những ý tưởng sáng tạo. Bài khảo sát đã vạch ra bức tranh những vấn đề cần ưu tiên để cộng đồng nghiên cứu tập trung, với mục tiêu cuối cùng là tiến dần đến các hệ thống AI đa phương thức toàn diện và thông minh giống con người.

Bình luận học thuật về bài khảo sát

Điểm mạnh: Bài khảo sát "Multimodal Large Language Models" đem lại một cái nhìn toàn cảnh, mạch lạc về lĩnh vực đang phát triển rất nhanh này. Ưu điểm nổi bật là cách tổ chức nội dung có hệ thống: từ nền tảng khái niệm đến lịch sử, rồi các khía cạnh kỹ thuật, sau đó điểm danh mô hình và ứng dụng, cuối cùng là thách thức. Cách tiếp cận này giúp người đọc hiểu bối cảnh lớn trước khi đi vào chi tiết, tránh bị lạc trong vô số công trình riêng lẻ. Bài viết cũng cập nhật nhiều mô hình mới năm 2023 (KOSMOS-1, PaLM-E, BLIP-2, MiniGPT-4, LLaVA, v.v.), chứng tỏ nhóm tác giả theo sát tiến độ nghiên cứu. Việc đưa vào các bảng tóm tắt (bảng mô hình, bảng dữ liệu) là rất hữu ích, cung cấp tài nguyên tham khảo nhanh cho độc giả muốn tìm mô hình/dataset. Thêm vào đó, bài khảo sát không chỉ liệt kê mà còn phân tích kỹ thuật chính của từng phương pháp (ví dụ giải thích Q-former trong BLIP-2, prompt manager trong VisualChatGPT, patch matching trong PNP-VQA). Điều này thể hiện sự hiểu sâu của tác giả về chủ đề, giúp người đọc học được không chỉ "có gì" mà còn "vì sao làm thế". Phần thách thức mở khá chi tiết, chứng tỏ bài viết không chỉ tổng kết kiến thức hiện tại mà còn định hướng tương lai, kích thích tư duy cho các nhà nghiên cứu tiếp tục khám phá.

Điểm hạn chế và chưa rõ: Mặt khác, do khuôn khổ bài báo có hạn (chỉ ~10 trang), một số nội dung chưa thể đi sâu. Chẳng hạn, phần mô hình thuật toán (Section IV) liệt kê rất nhiều mô hình đa modal năm 2022–2023, nhưng mỗi mô hình chỉ mô tả ngắn gọn. Điều này đủ cho mục đích survey, nhưng nếu người đọc muốn tìm hiểu sâu hơn về so sánh hiệu năng giữa các mô hình hoặc kiến trúc chi tiết, họ sẽ cần đọc thêm các tài liệu gốc. Ví dụ: bài khảo sát không cung cấp bảng so sánh nào về kết quả trên các benchmark giữa các MLLM – đây có thể là một thiếu sót nếu độc giả muốn biết mô hình nào mạnh hơn trong nhiệm vụ nào. Ngoài ra, một số thuật ngữ có thể gây nhầm lẫn, như cách gọi “foundation model” trong bài đôi khi không rõ ràng. Tác giả dùng “foundation model” chủ yếu ám chỉ Transformer và các biến thể gốc (ViT, BEiT)[170], trong khi cộng đồng thường hiểu foundation model là bất kỳ mô hình lớn nào pre-train trên dữ liệu khổng lồ (ví dụ CLIP cũng có thể coi là foundation model cho đa modal). Sự khác biệt nhỏ này cần người đọc để ý để hiểu đúng ý tác giả.

Bên cạnh đó, phần ứng dụng (Section V) liệt kê nhiều nhiệm vụ đa modal nhưng chưa thực sự nêu rõ cách đánh giá cụ thể cho mỗi nhiệm vụ. Ví dụ, nói về image captioning, text-to-image, VQA… nhưng bài khảo sát không đề cập đến các chỉ số đánh giá thông dụng (BLEU, CIDEr cho caption; FID cho generative; accuracy cho VQA…). Tất nhiên có thể do khuôn khổ giới hạn, nhưng phần "evaluation" được nhắc trong mục tiêu bài viết[171] chủ yếu thể hiện qua liệt kê dataset chứ chưa có thảo luận sâu về phương pháp đánh giá hoặc kết quả. Một độc giả quan tâm khía cạnh thực nghiệm có thể thấy thiếu thông tin về thành tích của các mô hình.

Một điểm nữa, bài khảo sát tập trung vào khía cạnh mô hình và kỹ thuật, ít đề cập đến mặt hạn chế/hạn hẹp của MLLM hiện tại trong ứng dụng thực tế. Chẳng hạn, các vấn đề như hallucination (ảo giác) trong mô hình đa modal (mô hình có thể bịa nội dung hình ảnh không có thật giống như LLM bịa sự kiện), hay định kiến và an toàn (ví dụ mô hình nhìn ảnh người có thể suy đoán sai lệch, thiên kiến) không được bàn đến. Có lẽ do trọng tâm bài là kỹ thuật, nhưng những vấn đề đó cũng quan trọng nếu xét hướng tới AGI an toàn và đáng tin cậy. Phần thách thức chưa nhắc tới khía cạnh này (ngoại trừ ý “MaaS” liên quan triển khai). Một vài survey khác hoặc bài báo (như Red Teaming Multimodal LLMs) có thể bổ sung khía cạnh an toàn/hạn chế, nhưng bài này thì không.

Tuy còn những chỗ có thể đào sâu hơn, tổng thể bài khảo sát đã hoàn thành mục tiêu cung cấp bức tranh toàn cảnh và tài liệu tham khảo nền tảng về MLLM vào cuối năm 2023. Đây là tài liệu quý cho cả người mới tìm hiểu (vì bao quát lịch sử, định nghĩa, phân loại rõ ràng) lẫn nhà nghiên cứu chuyên sâu (vì cập nhật nhiều hướng mới và gợi ý vấn đề mở). Một đề xuất nhỏ là trong tương lai, bài khảo sát có thể được mở rộng hoặc nối tiếp để cập nhật thêm những tiến bộ sau 2023 (ví dụ năm 2024 chắc chắn sẽ có các MLLM mới, phương pháp mới). Nhưng ở thời điểm công bố, bài viết này đã làm tốt vai trò tổng hợp tri thức và định hình những câu hỏi còn bỏ ngỏ trong lĩnh vực mô hình ngôn ngữ lớn đa phương thức.

Nguồn trích dẫn: Wu, J., Gan, W., Chen, Z., Wan, S., & Yu, P. S. (2023). "Multimodal Large Language Models: A Survey".[1][3][4][6][7][11][14][29][30][32][33][53][55][56][57][58][72][163][78][79][80][82][166][89][91][96][97][99][104][110][115][120][123][128][172][143][144][146][149][152][155][169]

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] [31] [32] [33] [34] [35] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [54] [55] [56] [57] [58] [59] [60] [61] [62] [63] [64] [65] [66] [67] [68] [69] [70] [71] [72] [73] [74] [75] [76] [77] [78] [79] [80] [81] [82] [83] [84] [85] [86] [87] [88] [89] [90] [91] [92] [93] [94] [95] [96] [97] [98] [99] [100] [101] [102] [103] [104] [105] [106] [107] [108] [109] [110] [111] [112] [113] [114] [115] [116] [117] [118] [119] [120] [121] [122] [123] [124] [125] [126] [127] [128] [129] [130] [131] [132] [133] [134] [135] [136] [137] [138] [139] [140] [141] [142] [143] [144] [145] [146] [147] [148] [149] [150] [151] [152] [153] [154] [155] [156] [157] [158] [159] [160] [161] [162] [163] [164] [165] [166] [167] [168] [169] [170] [171] [172] arxiv.org

https://arxiv.org/pdf/2311.13165

Tìm kiếm Blog này

Research topic