Mô hình Ngôn ngữ Đa phương thức (Multimodal LLM)

Định nghĩa và mục tiêu của mô hình ngôn ngữ đa phương thức

Mô hình ngôn ngữ đa phương thức (Multimodal LLM) là các mô hình AI có khả năng xử lý và tạo ra dữ liệu thuộc nhiều dạng (văn bản, hình ảnh, âm thanh, video, v.v.) chứ không chỉ ngôn ngữ tự nhiên đơn thuần. Khác với mô hình ngôn ngữ chỉ-text, MLLM có thể “hiểu” và “diễn đạt” thông tin từ nhiều nguồn giống cách con người tiếp nhận thế giới qua thị giác, thính giác và các giác quan khác[1][2]. Mục tiêu của các MLLM là kết hợp các dòng dữ liệu khác nhau để tăng cường ngữ cảnh và khả năng suy luận, giúp mô hình thực hiện những nhiệm vụ phức tạp mà một modality đơn lẻ khó làm được. Ví dụ, MLLM có thể mô tả nội dung một bức ảnh bằng ngôn ngữ tự nhiên, trả lời câu hỏi về video, diễn giải biểu đồ trực quan, thực hiện nhận dạng ký tự quang học (OCR) hoặc tham gia hội thoại thời gian thực có cả hình ảnh lẫn giọng nói[1]. Việc tích hợp đa phương thức phản chiếu cách con người hiểu biết: chúng ta không tách rời hình ảnh khỏi ngữ cảnh, mà thường dùng lời nói để mô tả hình ảnh, liên hệ âm thanh với sự vật, v.v. Khi kết hợp thông tin từ nhiều kênh, mô hình AI có được bối cảnh phong phú hơn và kỹ năng suy luận tốt hơn, giúp “nhìn, lắng nghe và giao tiếp” gần với con người hơn thay vì chỉ đối thoại văn bản thuần túy[2].

Kiến trúc phổ biến và thiết kế mô-đun

Thiết kế kiến trúc của MLLM thường gồm các mô-đun tương ứng với từng modality và cơ chế tích hợp thông tin giữa chúng. Dưới đây là các kiến trúc phổ biến:

Kiến trúc “dual-tower” (hai tháp độc lập): Đây là dạng cổ điển gồm mô hình xử lý ngôn ngữ và mô hình thị giác chạy song song, sau đó kết hợp đầu ra ở giai đoạn muộn. Mỗi “tháp” mã hóa một modality riêng (ví dụ: văn bản qua transformer ngôn ngữ, hình ảnh qua CNN/ViT), rồi ánh xạ hai biểu diễn vào cùng không gian để so sánh hoặc ghép cặp. Cách này được sử dụng trong mô hình CLIP (2021) – huấn luyện tương phản để căn chỉnh ảnh và chú thích văn bản trong không gian nhúng chung. Nhiều mô hình gần đây cũng áp dụng cấu trúc hai tháp: chẳng hạn, LLaVA kết hợp Vicuna LLM và bộ mã hóa ảnh CLIP hoạt động song song, sau đó dùng một lớp tuyến tính để nối hai phần và đạt kết quả tốt trên các nhiệm vụ thị giác-ngôn ngữ[3]. Ưu điểm của kiến trúc dual-tower là tận dụng được các mô hình đơn modal đã huấn luyện trước, nhưng nhược điểm là sự “phân mảnh” giữa hai modal, chỉ gắn với nhau ở bước trễ – điều này có thể dẫn đến hạn chế về hiểu biết chéo modal và suy luận tích hợp[4]. Nghiên cứu gần đây chỉ ra rằng việc xử lý hoàn toàn tách biệt rồi mới kết hợp muộn tạo ra “cách ly ngữ nghĩa” giữa thị giác và ngôn ngữ, cản trở mô hình học được quan hệ phức tạp giữa chúng[4].
Kiến trúc encoder-decoder (mã hóa-giải mã): Đây là thiết kế tuần tự, trong đó một bộ encoder mã hóa dữ liệu đa phương thức thành biểu diễn chung, rồi bộ decoder sinh đầu ra (thường là ngôn ngữ tự nhiên). Ví dụ tiêu biểu là mô hình PaLI của Google (2022), dùng Vision Transformer (ViT) làm encoder xử lý ảnh và transformer ngôn ngữ làm decoder sinh văn bản. PaLI được huấn luyện trên hơn 10 tỷ cặp ảnh-văn bản đa ngôn ngữ, cho phép mô hình nhận ảnh kèm chú thích đa ngôn ngữ và thực hiện nhiều tác vụ như mô tả ảnh, trả lời câu hỏi hình ảnh và đọc chữ trong ảnh[5][6]. Kiến trúc encoder-decoder kiểu này tỏ ra hiệu quả cho nhiệm vụ tạo văn bản dựa trên nội dung thị giác (như captioning hoặc VQA) bởi decoder có thể linh hoạt sinh ra câu trả lời dựa trên embedding từ encoder.
Kiến trúc hợp nhất sớm (early fusion) với cơ chế chú ý: Để khắc phục hạn chế của dual-tower, nhiều mô hình mới tích hợp các modal ngay trong các tầng mạng sâu thông qua cơ chế attention chéo. Cách tiếp cận này cho phép đặc trưng của ảnh và từ “tương tác” trực tiếp trong quá trình mô hình hóa thay vì chỉ ghép kết quả cuối. Chẳng hạn, mô hình Flamingo (DeepMind, 2022) nối một LLM 70B (Chinchilla) đã huấn luyện sẵn với encoder thị giác bằng cách chèn các thành phần cross-attention đặc biệt giữa hai mô hình. Cấu trúc này cho phép Flamingo nhận prompt chứa cả chuỗi ảnh đan xen văn bản và thực hiện few-shot learning trực tiếp trên chuỗi đa phương thức đó[7]. Tương tự, BLIP-2 (Salesforce, 2023) cố định encoder ảnh và LLM ngôn ngữ, sau đó chèn một mô-đun Q-Former (transformer nhẹ) ở giữa để học hỏi tương tác sâu giữa đặc trưng ảnh và ngôn ngữ[8]. Nhờ fusion sớm bằng attention, Flamingo và BLIP-2 có thể căn chỉnh vùng ảnh với từ mô tả (ví dụ liên kết đối tượng trong ảnh với từ tương ứng) một cách hiệu quả[9]. Các nghiên cứu cho thấy chiến lược này giúp mô hình hiểu ngữ cảnh thị-giác-ngôn ngữ tốt hơn so với late-fusion. Một số mô hình còn đề xuất fusion theo tầng (hierarchical fusion): chẳng hạn ALLaVA xây dựng quan hệ dưới dạng đồ thị giữa text và image để biểu diễn cấu trúc ghép cặp tường minh[9].
Xu hướng kiến trúc mới (hợp nhất hoàn toàn): Hướng nghiên cứu hiện tại đang tìm cách vượt qua mô hình dual-tower truyền thống bằng các kiến trúc Transformer thống nhất cho đa modal. Ý tưởng là xử lý song song nhiều modal trong cùng một kiến trúc chia sẻ, thay vì hai mạng tách rời, nhằm loại bỏ “ngăn cách” giữa các modal. Ví dụ, các đề xuất như dùng transformer mixture-of-experts (MoE) cho phép các token hình ảnh và văn bản đi qua chung một loạt tầng transformer, với các “chuyên gia” xử lý riêng từng loại token nhưng vẫn tương tác trong cùng mạng[10][11]. Cách tiếp cận này hứa hẹn tăng cường khả năng suy luận xuyên phương thức một cách toàn diện, đồng thời có thể duy trì hiệu quả tính toán nhờ các cơ chế như MoE (chỉ kích hoạt một phần mạng cho mỗi token)[10]. Nói cách khác, thay vì “song song hai tháp” rồi ghép, thế hệ kiến trúc mới hướng đến “một khối thống nhất” có thể tiếp thu đồng thời nhiều luồng dữ liệu. Mặc dù còn đang trong giai đoạn nghiên cứu, các kết quả ban đầu cho thấy hướng này giúp mô hình hiểu ngữ cảnh chung tốt hơn và giảm trùng lặp tính toán, mở đường cho mô hình đa phương thức thực sự hợp nhất thay vì chỉ “nhúng ghép” các biểu diễn đơn modal lại với nhau[4][11].

Phương pháp huấn luyện mô hình đa phương thức

Đào tạo MLLM đòi hỏi chiến lược nhiều giai đoạn để mô hình có được kiến thức nền rộng, sau đó thích ứng với nhiệm vụ cụ thể và cuối cùng căn chỉnh (align) với mục tiêu hành vi mong muốn. Thông thường, quy trình huấn luyện gồm ba bước chính[12]:

1. Tiền huấn luyện (Pre-training): Ở giai đoạn đầu, mô hình học liên kết giữa các modality trên quy mô lớn. Dữ liệu huấn luyện là các cặp đa modal (ví dụ: ảnh–phụ đề, video–mô tả, âm thanh–transcript). Mục tiêu huấn luyện gồm:

2. Mô hình hóa ngôn ngữ bị che (Masked Language Modeling) trên dữ liệu có modal kèm theo: Mô hình phải đoán từ bị che dựa trên cả ngữ cảnh văn bản và thông tin hình ảnh/âm thanh liên quan.

3. Học tương phản (Contrastive Learning) để căn chỉnh không gian ảnh và chữ: như mô hình CLIP phân biệt cặp ảnh-chú thích đúng và sai, kéo các cặp đúng lại gần nhau trong không gian nhúng và đẩy các cặp sai ra xa[13]. Cách học tương phản này buộc mô hình học được biểu diễn chung cho hình và văn bản có nghĩa tương ứng.

4. Mô hình hóa song song đa modal: ví dụ cho mô hình xem ảnh và câu chú thích không đầy đủ, buộc mô hình điền phần còn thiếu, qua đó học liên kết phần hình ảnh với từ ngữ phù hợp.

Thông qua tiền huấn luyện trên kho dữ liệu khổng lồ (như tập ảnh-chú thích LAION 5B, COCO, Visual Genome, tập video YouTube kèm phụ đề, v.v.), MLLM dần tích lũy kiến thức nền tảng về cả ngôn ngữ lẫn thế giới thị giác. Kết quả của giai đoạn này là mô hình biết ghép nối và đồng bộ hóa hai không gian biểu diễn: cùng một khái niệm (“mèo”, “cây”,…) được biểu diễn gần nhau dù đến từ ảnh hay từ[14]. Đây là nền tảng để mô hình có thể hiểu và tạo sinh đa modal sau này.

1. Tinh chỉnh theo hướng dẫn (Instruction tuning): Tiếp theo, mô hình được fine-tune trên dữ liệu dạng hướng dẫn – phản hồi đa phương thức nhằm dạy nó tuân thủ yêu cầu của người dùng. Giai đoạn này thường sử dụng các cặp prompt–phản hồi mà prompt có thể bao gồm cả hình ảnh và văn bản, còn phản hồi là văn bản. Ví dụ, một ảnh và câu hỏi kèm theo có thể được chuyển thành hướng dẫn: “Hãy mô tả chi tiết nội dung bức ảnh và trả lời câu hỏi X”. Mô hình học cách đọc hiểu hướng dẫn đó và tạo ra câu trả lời phù hợp. Nguồn dữ liệu hướng dẫn có thể đến từ:

2. Chuyển đổi từ dữ liệu có sẵn: Chẳng hạn, tập dữ liệu VQA (Visual Question Answering) gồm ảnh + câu hỏi + đáp án có thể được định dạng lại thành một lệnh (“Đây là bức ảnh..., hãy trả lời: ...”) và phản hồi mẫu. Tương tự, các ảnh có phụ đề (caption) như COCO Caption có thể biến thành hướng dẫn “Hãy viết phụ đề cho ảnh này”.

3. Tự sinh dữ liệu hướng dẫn (self-instruction): Nhóm nghiên cứu dùng chính các mô hình lớn (như GPT-4) để phát sinh thêm các tình huống hỏi-đáp về ảnh nhằm mở rộng dữ liệu huấn luyện mà không tốn công gán nhãn thủ công[15]. Ví dụ, dự án LLaVA đã dùng GPT-4 tạo ~150k cặp hỏi đáp dựa trên ảnh, rồi dùng chính các cặp đó để tinh chỉnh mô hình của họ.

4. Kết hợp với dữ liệu hội thoại đơn modal: Nhiều khi người ta trộn thêm dữ liệu hội thoại thuần văn bản vào huấn luyện để mô hình học được kỹ năng đối thoại và lập luận chung (như dữ liệu chat GPT, dữ liệu Chain-of-Thought, v.v.)[16]. Điều này giúp MLLM không chỉ biết mô tả ảnh mà còn giữ mạch hội thoại, trả lời tự nhiên như chatbot thông minh.

Instruction tuning giúp mô hình nắm bắt được ý định người dùng và biết cách trả lời theo ngữ cảnh đa phương thức. Sau bước này, các mô hình như LLaVA hay MiniGPT-4 bắt đầu có khả năng hiểu câu hỏi về hình ảnh và trả lời một cách mạch lạc, gần đạt “phong thái” của GPT-4V trên dữ liệu huấn luyện hạn chế[17].

1. Căn chỉnh với con người (Alignment tuning): Đây là bước huấn luyện cuối nhằm điều chỉnh mô hình theo đánh giá và giá trị của người dùng, thường được thực hiện qua các phương pháp như Học tăng cường từ phản hồi của con người (RLHF) hoặc tối ưu hóa trực tiếp theo sở thích (Direct Preference Optimization). Mô hình sẽ được đánh giá chất lượng câu trả lời (về tính đúng đắn, hữu ích, lịch sự, an toàn…) bởi con người hoặc mô hình phụ trợ, sau đó điều chỉnh tham số để ưu tiên các phản hồi tốt. Quá trình này tương tự như alignment cho ChatGPT nhưng áp dụng cho thiết lập đa modal. Kết quả là mô hình sẽ giảm khuynh hướng ảo tưởng (hallucination), biết từ chối trả lời những yêu cầu không phù hợp, và tuân thủ hơn các nguyên tắc an toàn/hữu ích[18]. Chẳng hạn, nhờ RLHF mà GPT-4V hay Visual ChatGPT sẽ tránh miêu tả sai lệch nội dung ảnh hoặc phát ngôn thiên lệch, đồng thời cải thiện độ chính xác khi làm các nhiệm vụ nhạy cảm.

Sau khi trải qua cả pre-training quy mô lớn và tinh chỉnh đa giai đoạn, các MLLM hiện đại đạt được khả năng tổng quát ấn tượng. Nhiều mô hình cho thấy năng lực zero-shot và few-shot vượt trội – ví dụ: mô hình có thể mô tả một ảnh chưa từng thấy hoặc trả lời câu hỏi về nội dung mới chỉ với một vài ví dụ mẫu, nhờ kiến thức và kỹ năng tích lũy trong giai đoạn tiền huấn luyện[19]. Kết hợp với bước alignment, mô hình có thể đối thoại đa phương thức một cách tự nhiên, đúng đắn và an toàn hơn.

Các mô hình nổi bật trong lĩnh vực đa phương thức

Flamingo (DeepMind, 2022): Mô hình ngôn ngữ thị giác (Visual Language Model) tiên phong cho khả năng few-shot learning trên tác vụ đa phương thức. Flamingo có ~80 tỷ tham số, được tạo thành bằng cách kết hợp một LLM 70B (Chinchilla) đã huấn luyện sẵn với encoder thị giác mạnh rồi thêm các khối cross-attention mới để “cầu nối” hai phần[7]. Mô hình được huấn luyện trên hàng loạt corpora web chứa chuỗi xen kẽ ảnh, video và văn bản, giúp nó có giao diện rất linh hoạt: input là prompt gồm một vài ví dụ chứa cả hình ảnh và chú thích, Flamingo có thể tiếp nhận hình ảnh/video mới kèm câu hỏi và tạo câu trả lời ngôn ngữ tương ứng. Trên 16 benchmark khác nhau, Flamingo đạt state-of-the-art trong thiết lập few-shot, thậm chí vượt qua các mô hình đã fine-tune chuyên biệt cho từng tác vụ[20][21]. Sự ra đời của Flamingo được ví như “GPT-3 moment” của lĩnh vực đa modal, chứng minh sức mạnh của kiến trúc LLM kết hợp thị giác trong thiết lập học ít mẫu.
GPT-4 với thị giác (OpenAI, 2023): GPT-4 là mô hình đa modal nổi tiếng của OpenAI, hỗ trợ đầu vào dạng hình ảnh (bên cạnh văn bản) và đầu ra dưới dạng văn bản[22]. Ra mắt tháng 3/2023, GPT-4 đã được quảng bá là “tiến hóa đa phương thức” của ChatGPT[23]. Mô hình có khả năng phân tích nội dung ảnh rất ấn tượng: từ mô tả chi tiết cảnh trong ảnh, nhận diện đối tượng, đọc và diễn giải meme, đến giải các bài toán đố thị giác hoặc thiết kế trang web từ bản phác thảo. Kiến trúc cụ thể của GPT-4V không được công bố, nhưng nhiều suy đoán cho rằng OpenAI đã tích hợp một bộ mã hóa thị giác (Vision Transformer) vào transformer ngôn ngữ, biến đặc trưng ảnh thành “token” để mô hình xử lý chung. GPT-4V thể hiện hiệu suất dẫn đầu trên nhiều benchmark đa modal vào năm 2023; ví dụ, nó đạt điểm 95 trên 100 trong bài thi nhận thức thị giác (Hellaswag hình ảnh), vượt qua các mô hình trước đó. Trong so sánh trên tập MMLU đa modal, GPT-4V chỉ thua kém đôi chút so với model Gemini Ultra của Google (xem bên dưới)[24][25]. Khả năng của GPT-4V đã đưa ChatGPT tiến vào lĩnh vực thị giác, mở ra ứng dụng chat bot có thể “nhìn” và “nói” về hình ảnh thực tế.
Google Gemini (2023): Gemini là dòng mô hình nền tảng (foundation model) mới nhất của Google/DeepMind, được giới thiệu lần đầu cuối 2023 và nhanh chóng trở thành một trong những mô hình mạnh nhất vào 2024-2025. Khác với GPT-4 được mở rộng thêm modality, Gemini ngay từ đầu được thiết kế “đa phương thức nguyên bản” (natively multimodal) – nó được pre-train đồng thời trên nhiều loại dữ liệu: văn bản, hình ảnh, mã nguồn, và cả audio/video[26][27]. Phiên bản Gemini 1.0 (12/2023) ra mắt với ba quy mô: Ultra, Pro, Nano, trong đó Gemini Ultra là model lớn nhất. Gemini đạt kết quả SOTA trên 30/32 benchmark chuẩn vào thời điểm công bố[28]. Đặc biệt, Gemini Ultra là mô hình đầu tiên vượt qua chuyên gia con người trên bộ đề MMLU (90% so với ~86% của người)[29], đồng thời dẫn đầu trên nhiều bài kiểm tra hiểu hình ảnh tự nhiên, âm thanh và video[24]. Nhờ được huấn luyện tích hợp ngay từ đầu, Gemini thể hiện sự “hiểu biết đa modal liền mạch” – ví dụ, mô hình có thể đọc một đoạn văn mô tả, nhìn ảnh kèm theo và suy luận câu trả lời phức tạp, hoặc nghe một đoạn audio và trả lời bằng cách trích dẫn thông tin trong đó. Ngoài ra, Gemini còn nổi bật ở khả năng lập luận chuỗi (chain-of-thought) và viết mã, kế thừa sức mạnh từ PaLM 2 và kỹ thuật AlphaGo (Google thiết kế Gemini với tham vọng kết hợp NLP và tư duy chiến lược). Tính đến 2025, Gemini 2.0/2.5 tiếp tục được phát triển, đưa mô hình này thành đối thủ hàng đầu của GPT-4 trong kỷ nguyên đa phương thức.
Microsoft Kosmos (2023): Kosmos-1, giới thiệu đầu 2023 bởi Microsoft Research, là một thử nghiệm đáng chú ý hướng tới AGI đa modal. Đây là một MLLM ~1.6 tỷ tham số (khá nhỏ so với GPT-4) nhưng được huấn luyện để biện luận dựa trên cả văn bản và hình ảnh. Kosmos-1 cho thấy khả năng phân tích nội dung ảnh, giải đố hình ảnh, thực hiện OCR và VQA cơ bản, dù quy mô khiêm tốn[30]. Tiếp nối, Kosmos-2 (cuối 2023) bổ sung khả năng grounding tốt hơn: mô hình có thể nhận các mô tả vị trí đối tượng (bounding boxes) trong ảnh, kết nối thị giác với thế giới thật tốt hơn[31]. Thậm chí Kosmos-2.5 (2024) được phát triển chuyên cho việc đọc hiểu tài liệu thị giác (như ảnh chứa nhiều chữ), tích hợp NLP với kỹ thuật nhìn–đọc để trả lời câu hỏi từ trang tài liệu hình ảnh. Dòng Kosmos nhấn mạnh tầm quan trọng của việc tích hợp tri thức thị giác vào khả năng ngôn ngữ và ngược lại, và khái niệm “multimodal grounding” – tức gắn ngôn ngữ với thế giới thực thông qua cảm nhận thị giác – nhằm tiến gần hơn đến AI tổng quát.
PaLI (Google, 2022): Tên đầy đủ PaLI – Pathways Language and Image model, là mô hình vision-language quy mô lớn nhấn mạnh tính đa ngôn ngữ. PaLI sử dụng kiến trúc encoder-decoder: ViT khổng lồ (hơn 4 tỷ tham số) để mã hóa ảnh, và decoder chuyển ngữ đa ngôn ngữ. Google đã scale PaLI theo ba trục: mô hình ngôn ngữ lớn (dựa trên Pathways), mô hình thị giác lớn (ViT lớn nhất huấn luyện đến nay), và dữ liệu huấn luyện cực lớn (10 tỷ ảnh-văn bản, phủ 100+ ngôn ngữ)[5][32]. Nhờ đó, PaLI đạt kỷ lục trên hàng loạt nhiệm vụ thị giác-ngôn ngữ: caption tiếng Anh và đa ngôn ngữ, VQA, phân loại hình ảnh, đọc chữ trong ảnh (scene text understanding)[6]. Điểm đặc biệt là PaLI có thể nhận câu hỏi bằng nhiều ngôn ngữ khác nhau về một hình ảnh và trả lời chính xác bằng ngôn ngữ tương ứng, thể hiện năng lực chuyển đổi giữa ngôn ngữ và thị giác một cách linh hoạt. PaLI cho thấy sức mạnh của phương pháp “jointly-scaled” – tức mở rộng đồng thời quy mô mô hình và dữ liệu trên cả hai modal – để đạt hiệu quả vượt trội.
BLIP và BLIP-2 (Salesforce, 2022–2023): BLIP (Bootstrapping Language-Image Pre-training) là mô hình vision-language tiên phong đề xuất quy trình tự khởi động việc huấn luyện thị giác-ngôn ngữ. BLIP kết hợp một ViT làm encoder ảnh và transformer decoder sinh văn bản, được huấn luyện thông qua các nhiệm vụ như sinh chú thích ảnh và lọc dữ liệu (learning with bootstrapping). Đến BLIP-2, nhóm tác giả tập trung vào tối ưu hiệu quả: họ giữ nguyên các backbone pretrained (ViT và LLM) và chèn thêm Q-Former – một mô-đun transformer nhỏ học ra một số ít vector “query” đại diện cho ảnh, sau đó nối các vector này vào prompt của LLM đóng băng[8]. Cách làm này cho phép BLIP-2 tương tác sâu giữa ảnh và ngôn ngữ với rất ít tham số huấn luyện thêm, và tương thích với nhiều LLM khác nhau. BLIP-2 đạt thành tích cao trên captioning, VQA… với chi phí tính toán thấp. Ví dụ, BLIP-2 có thể ghép với Flan-T5 hoặc LLaMA để tạo thành một hệ thống hỏi đáp về hình ảnh mạnh mẽ, nhờ Q-Former đã học nối không gian ảnh-ngôn ngữ hiệu quả[33]. BLIP-2 là minh chứng cho hướng modular design: tận dụng mô hình có sẵn và thêm module trung gian để rút ngắn khoảng cách giữa modal thị giác và ngôn ngữ.
LLaVA (Large Language and Vision Assistant, 2023): Đây là dự án mở nguồn tiêu biểu xây dựng “ChatGPT cho hình ảnh”. LLaVA kết hợp Vicuna-13B (một LLM chat dựa trên LLaMA) với bộ mã hóa ảnh CLIP ViT-L/14 thông qua một lớp nối tuyến tính đơn giản[3]. Nhờ thiết kế tối giản này, nhóm nghiên cứu chỉ cần huấn luyện end-to-end với một lượng nhỏ dữ liệu hướng dẫn (150k câu hỏi về ảnh do GPT-4 tạo ra) để có được mô hình biết trả lời chi tiết về ảnh theo yêu cầu người dùng. Dù kích thước nhỏ (13B tham số), LLaVA gây chú ý vì tái hiện đáng kể “tinh thần” của GPT-4V trong nhiều thử nghiệm: mô hình có thể mô tả ảnh, trả lời các câu hỏi phức tạp (đối với ảnh rõ ràng), thực hiện nhiều vòng hội thoại đa modal. LLaVA đạt điểm SOTA trên ScienceQA (bộ câu hỏi khoa học kèm hình ảnh)[34], cho thấy tiềm năng của phương pháp huấn luyện tiết kiệm. Sau thành công bản gốc (tháng 4/2023), đã có nhiều biến thể như LLaVA-1.5, LLaVA-Plus… tích hợp thêm dữ liệu OCR, nâng cấp lên 34B tham số, v.v., tiếp tục cải thiện khả năng của mô hình. LLaVA chứng minh rằng cộng đồng mở có thể xây dựng trợ lý đa phương thức hiệu quả với chi phí vừa phải, bằng cách khéo léo kết hợp các khối có sẵn (CLIP + Vicuna) và dùng dữ liệu tự sinh để tinh chỉnh mô hình[35][34].

(Ngoài ra, lĩnh vực này còn nhiều mô hình đáng chú ý khác: ví dụ MiniGPT-4 (2023) – sử dụng BLIP-2 và Vicuna để đạt khả năng tương tự GPT-4V với 13B tham số; PaLM-E (2023) – mô hình Google kết hợp thị giác và điều khiển robot (embodied), v.v. Tuy nhiên, giới hạn khuôn khổ, báo cáo tập trung vào các đại diện tiêu biểu như trên.)

Xử lý và kết hợp dữ liệu đa phương thức

Thách thức cốt lõi trong MLLM là làm sao để máy tính hiểu được dữ liệu đa dạng (văn bản, ảnh, âm thanh…) và kết hợp chúng trong cùng một mô hình. Quá trình này thường gồm các bước: mã hóa (encoding) từng modality, chiếu vào không gian chung (projection/alignment), fuse (fusion) và xử lý tương tác (cross-modal processing), cuối cùng là giải mã (decoding) ra đáp án. Cụ thể:

Mã hóa từng modality: Mỗi loại dữ liệu có cấu trúc riêng, nên cần phương pháp biểu diễn khác nhau. Văn bản được chuyển thành các token (thông qua tokenizer) rồi thành vector embedding nhờ các mô hình ngôn ngữ (ví dụ BERT hoặc các LLM encoder)[36]. Hình ảnh được biến đổi thành đặc trưng bằng các mạng CNN hoặc Vision Transformer (ViT) – các đặc trưng này có thể là vector toàn ảnh hoặc tensor nhiều vùng ảnh. Ví dụ, BLIP-2 dùng ViT để trích xuất đặc trưng hình ảnh, sau đó Q-Former biến chúng thành một tập nhỏ vector đại diện[8]. Đối với âm thanh, người ta thường chuyển sóng âm thành spectrogram và dùng mô hình như wav2vec, HuBERT để lấy embedding âm thanh[8]. Video có thể được tách thành chuỗi frame hình ảnh (và thường kèm theo kênh âm thanh), rồi xử lý từng frame qua encoder hình ảnh; đôi khi có mô hình chuyên biệt (Video Transformer) để xử lý cả chuỗi video. Quan trọng là, kiến trúc MLLM thường thiết kế một encoder riêng cho mỗi modal, đảm bảo trích xuất được thông tin cốt lõi mà không làm mất đặc trưng riêng của modal đó[8]. Cách tiếp cận mô-đun hóa này giúp tận dụng tối đa năng lực của mô hình chuyên biệt (ví dụ CNN giỏi nhận diện hình dạng, LLM giỏi hiểu ngôn ngữ).
Chiếu đặc trưng vào không gian chung (feature projection/alignment): Sau khi mã hóa, ta có các vector đặc trưng cho text, image, audio… với kích thước và phân bố có thể khác nhau. Bước tiếp theo là chiếu (project) chúng vào cùng một không gian vector “chia sẻ” để mô hình có thể so sánh và kết hợp các đặc trưng khác modal một cách trực tiếp[37]. Thao tác chiếu này thường do các lớp linear hoặc MLP nhỏ học được trong quá trình huấn luyện – chúng điều chỉnh độ dài và phân phối của vector từ từng encoder sao cho tương thích với nhau. Nhờ đó, một ý nghĩa (concept) dù đến từ ảnh hay từ đều có thể biểu diễn dưới dạng vector trong cùng không gian và tính toán được với nhau. Chẳng hạn, trong LLaVA, đầu ra tiêu đề ảnh từ CLIP ViT (một vector 768 chiều) được qua một lớp linear để biến thành vector 4096 chiều phù hợp làm input cho Vicuna LLM[3]. Tương tự, LLaMA-Adapter gắn thêm các adapter module để chiếu đặc trưng ảnh (ResNet) vào không gian của LLaMA mà không cần tái huấn luyện toàn bộ mô hình[38]. Kết quả của bước này là tất cả các modal đều có biểu diễn dưới dạng embedding trong cùng một “ngôn ngữ toán học”, sẵn sàng để ghép nối.
Ghép và tích hợp đa modal (fusion & cross-modal attention): Khi đã có các embedding chung, mô hình kết hợp chúng lại để tạo biểu diễn đa phương thức hợp nhất. Cách đơn giản là concatenate (nối) các vector đặc trưng cạnh nhau[39] – ví dụ xếp embedding của caption bên cạnh embedding ảnh rồi đưa cả chuỗi qua transformer (cách này được dùng trong một số mô hình frozen LLM). Tuy nhiên, phương pháp mạnh hơn là sử dụng cơ chế Attention giữa các modal: cho phép mô hình học cách “chú ý” từ đặc trưng modal này đến modal kia. Cross-attention được dùng nhiều – ví dụ mô hình có thể dùng vector từ (text token) làm “query” và tìm “key” tương ứng trong tập đặc trưng ảnh, qua đó liên kết mỗi từ mô tả với vùng ảnh tương ứng[40]. Flamingo và BLIP-2 áp dụng cross-attention để thực hiện chính xác điều này, giúp mô hình xác định trong ảnh “con chó” hay “cây” nào tương ứng với từ trong câu hỏi[9]. Một số kiến trúc tiến xa hơn, thực hiện fusion nhiều giai đoạn: chẳng hạn cho mô hình kết hợp dần dần – đầu tiên text chú ý đến ảnh tạo embedding tạm, rồi lại chú ý ngược lại, v.v., qua nhiều tầng. Thậm chí ALLaVA xây dựng đồ thị quan hệ giữa text và ảnh để lưu trữ những cặp nào liên quan nhau[9]. Kết quả của fusion là một biểu diễn hợp nhất chứa thông tin đồng thời từ các nguồn – ví dụ vector trạng thái cuối cùng của transformer có thể gói gọn cả ngữ cảnh hình ảnh lẫn câu hỏi văn bản. Đây chính là nền tảng để mô hình suy luận xuyên modal.
Tương tác và suy luận chéo modal: Sau khi fuse, mô hình cần diễn giải sâu mối quan hệ giữa các thông tin đa modal để hoàn thành nhiệm vụ. Các lớp transformer liên tiếp (self-attention + feed-forward) sẽ tinh chỉnh tiếp biểu diễn hợp nhất này[41]. Self-attention ở đây giúp mô hình hiểu ngữ cảnh nội tại trong từng modal (ví dụ các từ liên quan nhau thế nào, các vùng ảnh liên hệ ra sao), còn cross-attention (nếu có nhiều luồng) thì giúp mô hình liên tục đối chiếu modal này với modal kia trong các tầng sâu hơn. Nhờ nhiều lớp như vậy, mô hình có thể trả lời được những truy vấn phức tạp: ví dụ LXMERT dùng nhiều tầng cross-attention để làm bài toán VQA, liên kết chính xác đối tượng hình ảnh với từ ngữ trong câu hỏi trước khi trả lời[42]. Đối với video, mô hình phải thêm một bước xử lý thời gian: VideoCoCa của Google mở rộng ý tưởng CoCa (Contrastive Captioner) cho video bằng cách kết nối đặc trưng các frame hình ảnh theo dòng thời gian với đặc trưng ngôn ngữ (bao gồm cả lời thoại nếu có), qua đó mô hình hiểu nội dung video liên tục chứ không chỉ từng ảnh rời rạc[42]. Nhìn chung, giai đoạn này là nơi mô hình thực hiện suy luận đa modal, tìm ra câu trả lời từ sự kết hợp thông tin (ví dụ: ảnh cho biết ai đang làm gì, văn bản hỏi cái gì, mô hình ghép lại để trả lời chính xác).
Giải mã đầu ra (decoding): Tùy bài toán mà đầu ra có thể khác nhau. Với các nhiệm vụ sinh văn bản (như captioning ảnh, tóm tắt video), decoder thường là một mô hình ngôn ngữ tự hồi quy sinh câu chữ dựa trên biểu diễn multimodal đã fuse[43]. Ví dụ, MiniGPT-4 sau khi ghép embedding ảnh (qua BLIP-2) vào prompt sẽ dùng LLM Vicuna để viết ra chú thích ảnh hoặc trả lời theo yêu cầu[44]. Với các nhiệm vụ phân loại hoặc phát hiện (classification, detection), đầu ra có thể là một lớp tuyến tính gắn trên embedding đa modal để dự đoán nhãn (như dự đoán cảm xúc từ hình+âm thanh)[45]. Đáng chú ý, một số hệ thống đa modal có khả năng phản hồi đa modal – ví dụ Visual ChatGPT của Microsoft tích hợp nhiều mô hình, trong đó có cả mô hình sinh hình ảnh (như Stable Diffusion) bên cạnh LLM, nhờ đó nó có thể tạo cả hình ảnh mới từ yêu cầu văn bản chứ không chỉ đáp bằng chữ[45]. Dù đa số MLLM hiện nay tập trung vào đầu ra ngôn ngữ, xu hướng tương lai có thể sẽ cho phép đầu ra linh hoạt hơn (hình ảnh, giọng nói), tiến tới hội thoại đa modal hai chiều thực sự.

Tóm lại, xử lý dữ liệu đa phương thức trong MLLM là quy trình nhiều bước, trong đó mỗi modal được mã hóa phù hợp, sau đó các thông tin được căn chỉnh vào cùng không gian và “hòa trộn” thông minh qua attention, cuối cùng mô hình suy luận ra đáp án. Nhờ kiến trúc khéo léo và dữ liệu phong phú, các MLLM có thể hiểu đồng thời nhiều luồng thông tin gần giống cách con người phối hợp thị giác-thính giác-ngôn ngữ để nhận thức thế giới.

Thách thức kỹ thuật của mô hình đa phương thức

Mặc dù đã đạt nhiều tiến bộ, MLLM hiện tại vẫn đối mặt với loạt thách thức và giới hạn cần tiếp tục nghiên cứu khắc phục[46][47]:

Grounding – Liên kết chặt chẽ với dữ liệu thực tế: MLLM đôi khi vẫn “ảo tưởng” hoặc mô tả sai lệch so với nội dung hình ảnh/âm thanh thực. Thách thức “grounding” là đảm bảo mô hình gắn kết các phát biểu ngôn ngữ với những gì thực sự có trong đầu vào thị giác. Ví dụ, mô hình có thể thêm chi tiết không có trong ảnh (hallucination) hoặc nhầm lẫn thực thể. Việc căn chỉnh mô hình theo phản hồi con người (RLHF) phần nào giúp giảm ảo tưởng[18], nhưng grounding sâu (đặc biệt trong ngữ cảnh phức tạp) vẫn là vấn đề mở. Ngoài ra, khả năng định danh chính xác đối tượng cụ thể trong ảnh (ví dụ phân biệt nhiều người và đề cập đúng người) vẫn hạn chế. Đây là trở ngại khi ứng dụng MLLM vào các nhiệm vụ cần độ tin cậy cao như mô tả y tế, giám sát an ninh.
Alignment – Căn chỉnh với mục tiêu người dùng và các chuẩn mực: Liên quan đến grounding là alignment ở mức hệ thống: mô hình cần hiểu đúng yêu cầu của người dùng và trả lời theo hướng hữu ích, không lệch lạc. Với đầu vào đa modal, alignment càng khó do mô hình phải cùng lúc giải mã ý định từ văn bản và hình ảnh. Vấn đề an toàn cũng nổi lên: mô hình đa modal có thể suy luận ra những nội dung nhạy cảm từ hình ảnh (như đoán cảm xúc, tình trạng sức khỏe) – điều này tiềm ẩn nguy cơ vi phạm quyền riêng tư hoặc thiên kiến. Việc căn chỉnh MLLM tuân thủ nguyên tắc đạo đức và xã hội (tránh thành kiến về sắc tộc, giới tính, v.v.) cần được chú trọng tương tự như với LLM đơn modal. Hiện nay, nhiều MLLM mở còn thiếu giai đoạn RLHF kỹ lưỡng nên đôi khi trả lời không phù hợp hoặc không an toàn hơn so với GPT-4V[48][49].
Xử lý ngữ cảnh dài và dữ liệu phức tạp: Nhiều mô hình đa modal gặp khó khăn với ngữ cảnh đầu vào rất dài hoặc cấu trúc phức tạp, chẳng hạn đoạn video dài vài phút hoặc một tài liệu PDF nhiều trang kèm hình ảnh[50]. Giới hạn độ dài chuỗi của transformer (context length) khiến mô hình khó nạp toàn bộ thông tin nếu input quá lớn. Dù có các kỹ thuật như Sliding window hay Retriever để hỗ trợ mô hình đọc hiểu tài liệu dài, việc hiểu xuyên suốt một video dài (bao gồm hàng trăm frame) vẫn vượt khả năng nhiều hệ thống hiện tại. Điều này ảnh hưởng đến các ứng dụng như tóm tắt video, phân tích phim, hay đọc hiểu báo cáo nhiều hình ảnh.
Khả năng suy luận logic xuyên phương thức còn hạn chế: MLLM đã làm tốt ở câu hỏi nhận biết trực tiếp (ví dụ “ảnh này chụp cái gì”), nhưng khả năng suy luận bắc cầu, lập luận nhiều bước dựa trên cả ảnh và text vẫn yếu. Các kỹ thuật như Multimodal Chain-of-Thought (M-CoT) hay Multimodal in-context learning (M-ICL) mới ở giai đoạn sơ khai[51], dẫn đến mô hình thường không biết tự phân tích nếu câu hỏi đòi hỏi lập luận trung gian. Ví dụ: một câu hỏi yêu cầu đọc biểu đồ (hình ảnh) rồi rút ra kết luận so sánh con số với một đoạn mô tả – mô hình có thể mắc lỗi ở bước logic. Nâng cao khả năng lập luận đa modal (giải quyết bài toán như con người kết hợp nhiều nguồn dữ liệu để suy nghĩ) là hướng nghiên cứu quan trọng.
Mở rộng sang các modal mới: Hiện tại, phần lớn MLLM tập trung vào thị giác + ngôn ngữ, một số ít tích hợp âm thanh/giọng nói, còn lại các modal khác (như tín hiệu cảm biến, dữ liệu bảng biểu, thậm chí mùi vị) hầu như chưa được đả động. Trong tương lai, AI đa modal cần phổ quát hơn, biết kết hợp nhiều nguồn dữ liệu hơn nữa (ví dụ: trong lĩnh vực y tế, kết hợp ảnh X-quang, ảnh siêu âm, kết quả xét nghiệm văn bản, v.v. để chẩn đoán). Việc thêm modal mới hiện rất tốn kém vì phải huấn luyện lại phần encoder và điều chỉnh toàn bộ mô hình. Thách thức là làm sao thiết kế kiến trúc linh hoạt để mở rộng modal một cách hiệu quả, giúp mô hình “học” modal mới mà không quên kiến thức modal cũ[47].
Chi phí tính toán và hiệu quả bộ nhớ: MLLM thường có kích thước cực lớn và đòi hỏi tài nguyên huấn luyện khổng lồ. Kết hợp đa modal làm tăng lượng tham số (phải có encoder riêng cho mỗi modal) và tăng khối lượng tính toán (ví dụ ảnh 224x224 có thể tương đương 50k token nếu xử lý pixel thô). Việc huấn luyện những model như GPT-4, Gemini… cần hàng nghìn GPU A100 và tối ưu phân tán phức tạp[52]. Triển khai mô hình cũng đòi hỏi bộ nhớ lớn; chẳng hạn, chạy GPT-4V trên thiết bị cục bộ gần như bất khả thi. Bài toán tối ưu hiệu năng đa modal đặt ra nhu cầu về mô hình gọn nhẹ hơn (như dùng các phương pháp nén, distillation) và thuật toán hiệu quả (như sparse attention, mixture-of-experts kích hoạt một phần mô hình). Đây là lý do nhiều nghiên cứu tập trung vào adapter tiết kiệm (như LLaMA-Adapter) hoặc mô hình nhỏ gọn như MiniGPT-4, LLaVA để phổ biến khả năng đa modal mà không phải sử dụng mô hình quá lớn.
Học liên tục, nhớ dài hạn: Hiện hầu hết MLLM được huấn luyện tĩnh trên một tập dữ liệu cố định, sau đó ngừng học. Điều này có nghĩa mô hình khó thích nghi với tri thức mới hoặc dữ liệu mới sau khi huấn luyện – đặc biệt là khi môi trường đa modal thay đổi liên tục (vd. thông tin thị giác mới mỗi ngày). Thách thức lifelong learning là làm sao cho phép mô hình học thêm từ dữ liệu mới mà không quên đi kiến thức cũ (hiện tượng catastrophic forgetting)[53]. Việc này đòi hỏi nghiên cứu về các kỹ thuật như fine-tune chọn lọc, memory replay hoặc kiến trúc modular có thể mở rộng. Đối với đa modal, lifelong learning còn phức tạp hơn vì kiến thức gắn liền với nhiều modal (ví dụ biết một thiết bị mới qua hình ảnh lẫn mô tả). Giải quyết được lifelong learning sẽ giúp tạo ra những agent AI đa modal có khả năng cập nhật hiểu biết liên tục, thích nghi với người dùng và môi trường như một trợ lý thực thụ.
Độ tin cậy và an toàn (Robustness & Safety): Tương tự LLM, các MLLM có thể mắc lỗi ngớ ngẩn hoặc bị khai thác đưa ra đầu ra không mong muốn. Ví dụ, mô hình thị giác có thể bị tấn công đối nghịch (adversarial) bằng cách thay đổi nhỏ trong ảnh khiến nó nhận diện sai. Hoặc mô hình có thể học theo bias trong dữ liệu (ví dụ thiên vị giới tính khi mô tả hình ảnh nghề nghiệp). Những lỗ hổng này có thể dẫn đến hậu quả nghiêm trọng hơn so với LLM chữ, bởi đầu ra đa modal có vẻ “đáng tin” (hình ảnh minh họa). Do đó, đảm bảo an toàn cho MLLM là thách thức phải tính đến: cần lọc dữ liệu đa modal kỹ lưỡng, áp dụng phản hồi con người để uốn nắn mô hình, và phát triển phương pháp phòng thủ đối nghịch trong không gian hình ảnh. Chỉ khi đó, MLLM mới có thể được triển khai rộng rãi trong các lĩnh vực nhạy cảm như y tế, tài chính một cách có trách nhiệm.

Những thách thức trên cho thấy MLLM còn nhiều hạn chế cần khắc phục trước khi đạt được tiềm năng đầy đủ. Tuy vậy, cộng đồng nghiên cứu đang tích cực tìm giải pháp cho từng vấn đề, và chúng cũng mở ra cơ hội cho những cải tiến kiến trúc và thuật toán mới trong tương lai gần.

Xu hướng nghiên cứu hiện tại và tương lai

Lĩnh vực mô hình đa phương thức đang phát triển rất sôi động, với nhiều hướng nghiên cứu mới nhằm mở rộng khả năng của MLLM. Dưới đây là một số xu hướng nổi bật:

Agent đa modal và AI hiện thân (embodied AI): Một hướng quan trọng là tích hợp MLLM vào các đặc vụ (agents) có khả năng tương tác với môi trường vật lý hoặc thế giới ảo. Điều này đòi hỏi mô hình không chỉ hiểu dữ liệu thị giác mà còn có thể hành động dựa trên tri thức đa modal. Ví dụ, dự án SayCan (Google) kết hợp PaLM với robot để robot hiểu lệnh ngôn ngữ và thực thi hành động trong môi trường thực. Các nghiên cứu gần đây về LLM trong thế giới 3D cũng đang bùng nổ[54]. Một khảo sát 2024 cho thấy LLM có thể hỗ trợ vượt trội việc hiểu không gian 3D, lập kế hoạch đường đi, điều khiển robot khi tích hợp thông tin 3D như point cloud, bản đồ môi trường[55][54]. Mục tiêu dài hạn là xây dựng embodied multimodal agents – ví dụ như trợ lý ảo có mắt (camera) để quan sát thế giới 3D và tay (robotic arm) để tác động trở lại. Điều này liên quan mật thiết đến việc grounding tri thức vào bối cảnh vật lý (như một robot phòng bếp phải nhận biết đồ vật thật và hiểu mệnh lệnh “lấy cốc trên bàn”). Các công trình như LEO (2023) đã bước đầu giới thiệu agent đa modal vận hành trong môi trường giả lập 3D phức tạp. Trong thập kỷ tới, chúng ta kỳ vọng sự hội tụ giữa multimodal LLM và robotics, cho phép AI không chỉ “thấy và nói” mà còn “hiểu và làm” trong thế giới thực.
Học liên tục và thích ứng (Lifelong/Lifelong Multimodal Learning): Như đã đề cập ở phần thách thức, lifelong learning đang là chủ đề nóng. Các nhóm nghiên cứu hướng tới các phương pháp cho phép mô hình cập nhật kiến thức theo thời gian thực. Một xu hướng là sử dụng kiến trúc mô-đun: ví dụ, thêm các module mới cho kiến thức mới thay vì thay đổi tham số cũ, hoặc dùng bộ nhớ ngoài (external memory) để lưu trữ thông tin mới mà mô hình có thể truy xuất khi cần. Đối với đa modal, có đề xuất về “Dynamic Modular Networks” – khi có modal mới hoặc nhiệm vụ mới, mô hình sẽ tự cấu hình lại sơ đồ các module (như thêm encoder mới, liên kết mới) mà không quên đi những gì đã học. Mục tiêu là tạo ra các trợ lý AI đa phương thức không ngừng tiến hóa, có thể học hỏi từ tương tác với người dùng và môi trường. Chẳng hạn, một trợ lý nhà thông minh có camera có thể học gương mặt các thành viên gia đình mới theo thời gian, hoặc học sở thích thẩm mỹ của chủ nhà qua những bức tranh họ phản hồi tốt. Mặc dù hiện tại đa số MLLM vẫn là mô hình tĩnh, nhu cầu thực tế sẽ thúc đẩy nghiên cứu hướng tới việc huấn luyện liên tục và “ghi nhớ dài hạn” cho mô hình.
Mở rộng sang thế giới 3D và thông tin không gian: Ngoài hình ảnh 2D, âm thanh thời gian, một hướng nữa là đưa dữ liệu 3D (mô hình không gian, hình học) vào mô hình ngôn ngữ. Các nghiên cứu cho thấy LLM có thể giúp mô tả và hiểu cảnh 3D (như mô tả một căn phòng 3D, hoặc hỏi đáp về môi trường 3D)[55]. Xu hướng này bao gồm:

· 3D-LLM: mô hình tích hợp đầu vào là point cloud, mesh, hoặc NeRF mô tả vật thể 3 chiều, cho phép mô hình trả lời các câu hỏi như “đối tượng X nằm ở đâu trong phòng?”[56]. Điều này ứng dụng trong robot hoặc VR, AR.

· Đa modal trong thực tế ảo / thực tế tăng cường: trợ lý AI có thể hiện diện trong kính AR, vừa nghe (audio), vừa nhìn (video 3D từ camera), và tương tác với người dùng.

· Hiểu biết không gian và dẫn đường: kết hợp dữ liệu thị giác với dữ liệu bản đồ/hệ tọa độ để mô hình hỗ trợ điều hướng (như robot tự hành hoặc trợ lý du lịch AR).

Một ví dụ, công trình 3D-LLM (2023) đề xuất tích hợp cơ chế định vị 3D vào LLM, cho phép mô hình hiểu các khái niệm như “đằng sau”, “bên trái” trong ngữ cảnh hình ảnh 3D[57][58]. Đây là bước tiến để AI hiểu không gian như con người. Trong tương lai gần, ta có thể thấy những hệ thống đa modal trong thế giới ảo 3D – ví dụ game NPC thông minh biết phân tích môi trường game 3D và trò chuyện với người chơi dựa trên đó.

Kiến trúc và thuật toán mới tăng hiệu quả: Bên cạnh việc mở rộng khả năng, một xu hướng khác là cải tiến kiến trúc cơ bản để MLLM nhanh hơn, gọn nhẹ hơn và xử lý ngữ cảnh dài tốt hơn. Như đã thảo luận, Transformer tiêu chuẩn có hạn chế về độ phức tạp (quadratic) và context length. Các nghiên cứu đang phát triển mô hình thay thế attention: ví dụ Performer, Linformer, FlashAttention để giảm độ phức tạp, hoặc Reformer, RETRO kết hợp memory. Google DeepMind gợi ý rằng đột phá tiếp theo sẽ từ kiến trúc mới thay vì chỉ tăng tham số[59]. Chẳng hạn, mô hình RCT (Repeating Cross-Transformer) gần đây cho phép xử lý chuỗi rất dài bằng cách lặp khối cross-attention trên đoạn context khác nhau. Cũng có xu hướng dùng mixture-of-experts (MoE) trong đó chỉ một phần model kích hoạt cho mỗi modal, giảm chi phí tính toán[10]. Về dữ liệu, thay vì tăng mô hình, nhiều nhóm tập trung tăng chất lượng và đa dạng dữ liệu để mô hình nhỏ cũng học tốt[60]. Ngoài ra, Retrieval-Augmented Generation (RAG) cũng đang được áp dụng trong đa modal[61]: mô hình sẽ truy vấn một bộ nhớ ngoài hoặc công cụ tìm kiếm để lấy thông tin cần, thay vì lưu trữ mọi kiến thức trong tham số. Điều này đặc biệt hữu ích khi trả lời câu hỏi kiến thức hình ảnh – ví dụ, mô hình nhìn bức tranh, có thể tìm trong bộ nhớ xem đó là tranh của hoạ sĩ nào rồi trả lời. RAG giúp mô hình linh hoạt xử lý thông tin ngoài training set và giảm độ phức tạp của mô hình chính.
Nâng cao khả năng suy luận và tương tác đa modal: Xu hướng cuối cùng là tập trung vào các kỹ thuật huấn luyện để nâng tầm tư duy của MLLM. Một số hướng gồm:

· Multimodal Chain-of-Thought: hướng dẫn mô hình nghĩ thành nhiều bước khi trả lời câu hỏi đa modal, giống như CoT trong NLP nhưng có thêm bước mô tả ảnh. Ví dụ: mô hình sẽ tự sinh ra “Tôi thấy: ảnh có một người…, Câu hỏi hỏi về…, có thể trả lời là…” rồi mới trả lời cuối. Điều này nhằm cải thiện tính logic.

· Multimodal Program Synthesis: đại diện như ViperGPT (2023) – mô hình sinh ra code Python để xử lý ảnh (ví dụ đếm đồ vật trong ảnh bằng cách gọi thư viện) rồi dựa trên kết quả chạy code để trả lời. Cách này kết hợp LLM với các công cụ thị giác để tăng độ chính xác.

· Giao tiếp đa modal người-máy tự nhiên hơn: ví dụ, nghiên cứu cách cho mô hình hỏi ngược người dùng khi ảnh chưa rõ hoặc thiếu thông tin, thay vì trả lời bừa. Điều này hướng tới hội thoại đa modal chủ động hai chiều.

Đa modal sáng tạo (generative art and design): tích hợp LLM với mô hình sinh ảnh (như Stable Diffusion) để cho ra hệ thống có thể tiếp nhận văn bản + phác hoạ nháp và tạo ra hình ảnh hoàn chỉnh. Microsoft đã thử nghiệm Visual ChatGPT: ChatGPT sẽ tự quyết định khi nào gọi mô hình vẽ tranh để sinh ảnh theo yêu cầu[45]. Tương lai có thể có nhiều hệ thống tạo nội dung đa phương thức (ví dụ sinh video ngắn từ kịch bản do LLM nghĩ ra).
Ứng dụng chuyên biệt và đa modal trong lĩnh vực dọc: Cuối cùng, nhiều xu hướng nghiên cứu gắn với ứng dụng domain-specific. Thay vì mô hình đa modal tổng quát, người ta xây dựng mô hình đa modal cho từng ngành:

· Trong y tế: kết hợp ảnh y khoa (X-quang, MRI) với hồ sơ văn bản để hỗ trợ chẩn đoán. Thí dụ CONCH (2023) – mô hình đọc ảnh giải phẫu bệnh và truy vấn kiến thức y khoa kèm ChatGPT[62].

· Trong hóa học/sinh học: GITMol – mô hình đa modal tích hợp công thức hóa học (văn bản), cấu trúc phân tử (hình ảnh/đồ thị) để dự đoán tính chất hóa học[63].

· Trong giáo dục: trợ lý AI vừa nhìn bài làm của học sinh (ví dụ ảnh chụp bài toán), vừa đọc câu trả lời để đánh giá và giải thích.

· Trong sáng tạo nội dung: AI có thể xem bản thiết kế đồ họa và hiểu chú thích, từ đó hỗ trợ người thiết kế chỉnh sửa nhanh.
Những hướng ứng dụng này thường yêu cầu tích hợp thêm kiến thức chuyên ngành và có thể đòi hỏi mô hình nhỏ gọn, tối ưu riêng. Đây là mảnh đất cho các mô hình đa modal mã nguồn mở và mô hình nhỏ vì chúng dễ được tùy biến cho domain hơn.

Tóm lại, tương lai của mô hình ngôn ngữ đa phương thức rất rộng mở. Các “ông lớn” như OpenAI, Google, Microsoft cùng cộng đồng học thuật đang thúc đẩy ranh giới của AI đa modal qua những kiến trúc mới, cách huấn luyện mới và ứng dụng mới[61][64]. Chúng ta có thể kỳ vọng trong vài năm tới sẽ xuất hiện những hệ thống AI có khả năng hiểu biết thế giới như con người: nhìn, nghe, đọc, và hành động thống nhất, đồng thời học hỏi liên tục để ngày càng thông minh và hữu ích hơn. Những tiến bộ này hứa hẹn định hình lại cách con người tương tác với máy móc, từ các chatbot trực quan sinh động hơn đến robot thông minh an toàn hơn, góp phần đưa AI trở nên gần gũi và mạnh mẽ trong đời sống hàng ngày.

Tài liệu tham khảo: (Các nguồn thông tin và số liệu trong báo cáo được tổng hợp từ các tài liệu học thuật và báo cáo kỹ thuật mới nhất, tiêu biểu là bài viết “What is a Multimodal LLM?” (IBM, 2025)[1][2], các báo cáo ArXiv gần đây về MLLM[3][54], cùng các bài blog phân tích của chuyên gia trong lĩnh vực.)[1][2]

[1] [2] [8] [9] [12] [13] [14] [15] [16] [17] [18] [19] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [59] [60] [61] [62] [63] [64] What is a Multimodal LLM (MLLM)? | IBM

https://www.ibm.com/think/topics/multimodal-llm

[3] [33] A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

https://arxiv.org/html/2408.01319v1

[4] [10] [11] Beyond Multi-Tower Approaches: Unified Cross-Modal Attention Mechanisms for Multimodal Foundation Models by Kalyan Chakravarthy Kodela :: SSRN

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5360155

[5] [6] [32] PaLI: A Jointly-Scaled Multilingual Language-Image Model

https://research.google/pubs/pali-a-jointly-scaled-multilingual-language-image-model/

[7] [20] [21] Tackling multiple tasks with a single visual language model - Google DeepMind

https://deepmind.google/discover/blog/tackling-multiple-tasks-with-a-single-visual-language-model/

[22] GPT-4 | OpenAI

https://openai.com/index/gpt-4-research/

[23] GPT-4 Vision: Multi-Modal Evolution of ChatGPT and Potential Role ...

https://pmc.ncbi.nlm.nih.gov/articles/PMC11441350/

[24] [25] [26] [27] [28] [29] Introducing Gemini: Google’s most capable AI model yet