Multimodal LLM
Mô
hình Ngôn ngữ Đa phương thức (Multimodal LLM)
Định nghĩa và mục
tiêu của mô hình ngôn ngữ đa phương thức
Mô
hình ngôn ngữ đa phương thức (Multimodal LLM) là các
mô hình AI có khả năng xử lý và tạo ra dữ liệu thuộc nhiều dạng (văn bản, hình ảnh,
âm thanh, video, v.v.) chứ không chỉ ngôn ngữ tự nhiên đơn thuần. Khác với mô
hình ngôn ngữ chỉ-text, MLLM có thể “hiểu” và “diễn đạt” thông tin từ nhiều
nguồn giống cách con người tiếp nhận thế giới qua thị giác, thính giác và
các giác quan khác[1][2]. Mục
tiêu của các MLLM là kết hợp các dòng dữ liệu khác nhau để tăng cường ngữ cảnh
và khả năng suy luận, giúp mô hình thực hiện những nhiệm vụ phức tạp mà một
modality đơn lẻ khó làm được. Ví dụ, MLLM có thể mô tả nội dung một bức ảnh bằng
ngôn ngữ tự nhiên, trả lời câu hỏi về video, diễn giải biểu đồ trực quan, thực
hiện nhận dạng ký tự quang học (OCR) hoặc tham gia hội thoại thời gian thực có
cả hình ảnh lẫn giọng nói[1].
Việc tích hợp đa phương thức phản chiếu cách con người hiểu biết: chúng
ta không tách rời hình ảnh khỏi ngữ cảnh, mà thường dùng lời nói để mô tả hình ảnh,
liên hệ âm thanh với sự vật, v.v. Khi kết hợp thông tin từ nhiều kênh, mô hình
AI có được bối cảnh phong phú hơn và kỹ năng suy luận tốt hơn, giúp “nhìn, lắng
nghe và giao tiếp” gần với con người hơn thay vì chỉ đối thoại văn bản thuần
túy[2].
Kiến trúc phổ biến và
thiết kế mô-đun
Thiết
kế kiến trúc của MLLM thường gồm các mô-đun tương ứng với từng modality và cơ
chế tích hợp thông tin giữa chúng. Dưới đây là các kiến
trúc phổ biến:
- Kiến trúc “dual-tower” (hai tháp độc lập): Đây là dạng cổ điển gồm mô hình xử lý ngôn ngữ và mô hình thị
giác chạy song song, sau đó kết hợp đầu ra ở giai đoạn muộn. Mỗi
“tháp” mã hóa một modality riêng (ví dụ: văn bản qua transformer ngôn ngữ,
hình ảnh qua CNN/ViT), rồi ánh xạ hai biểu diễn vào cùng không gian để so
sánh hoặc ghép cặp. Cách này được sử dụng trong mô hình CLIP (2021)
– huấn luyện tương phản để căn chỉnh ảnh và chú thích văn bản trong
không gian nhúng chung. Nhiều mô hình gần đây cũng áp dụng cấu trúc hai
tháp: chẳng hạn, LLaVA kết hợp Vicuna LLM và bộ mã hóa ảnh
CLIP hoạt động song song, sau đó dùng một lớp tuyến tính để nối hai phần
và đạt kết quả tốt trên các nhiệm vụ thị giác-ngôn ngữ[3].
Ưu điểm của kiến trúc dual-tower là tận dụng được các mô hình đơn modal đã
huấn luyện trước, nhưng nhược điểm là sự “phân mảnh” giữa hai modal, chỉ
gắn với nhau ở bước trễ – điều này có thể dẫn đến hạn chế về hiểu biết
chéo modal và suy luận tích hợp[4].
Nghiên cứu gần đây chỉ ra rằng việc xử lý hoàn toàn tách biệt rồi mới kết
hợp muộn tạo ra “cách ly ngữ nghĩa” giữa thị giác và ngôn ngữ, cản
trở mô hình học được quan hệ phức tạp giữa chúng[4].
- Kiến trúc encoder-decoder (mã hóa-giải mã): Đây là thiết kế tuần tự, trong đó một bộ encoder mã hóa
dữ liệu đa phương thức thành biểu diễn chung, rồi bộ decoder sinh đầu
ra (thường là ngôn ngữ tự nhiên). Ví dụ tiêu biểu là mô hình PaLI của
Google (2022), dùng Vision Transformer (ViT) làm encoder xử lý ảnh
và transformer ngôn ngữ làm decoder sinh văn bản. PaLI được huấn luyện
trên hơn 10 tỷ cặp ảnh-văn bản đa ngôn ngữ, cho phép mô hình nhận ảnh kèm
chú thích đa ngôn ngữ và thực hiện nhiều tác vụ như mô tả ảnh, trả lời câu
hỏi hình ảnh và đọc chữ trong ảnh[5][6].
Kiến trúc encoder-decoder kiểu này tỏ ra hiệu quả cho nhiệm vụ tạo văn
bản dựa trên nội dung thị giác (như captioning hoặc VQA)
bởi decoder có thể linh hoạt sinh ra câu trả lời dựa trên embedding từ
encoder.
- Kiến trúc hợp nhất sớm (early fusion) với cơ chế chú ý: Để khắc phục hạn chế của dual-tower, nhiều mô hình mới tích hợp
các modal ngay trong các tầng mạng sâu thông qua cơ chế attention chéo.
Cách tiếp cận này cho phép đặc trưng của ảnh và từ “tương tác” trực tiếp
trong quá trình mô hình hóa thay vì chỉ ghép kết quả cuối. Chẳng hạn,
mô hình Flamingo (DeepMind, 2022) nối một LLM 70B (Chinchilla)
đã huấn luyện sẵn với encoder thị giác bằng cách chèn các thành phần
cross-attention đặc biệt giữa hai mô hình. Cấu trúc này cho phép
Flamingo nhận prompt chứa cả chuỗi ảnh đan xen văn bản và thực hiện
few-shot learning trực tiếp trên chuỗi đa phương thức đó[7].
Tương tự, BLIP-2 (Salesforce, 2023) cố định encoder ảnh và LLM ngôn
ngữ, sau đó chèn một mô-đun Q-Former (transformer nhẹ) ở giữa để học
hỏi tương tác sâu giữa đặc trưng ảnh và ngôn ngữ[8].
Nhờ fusion sớm bằng attention, Flamingo và BLIP-2 có thể căn chỉnh
vùng ảnh với từ mô tả (ví dụ liên kết đối tượng trong ảnh với từ tương
ứng) một cách hiệu quả[9].
Các nghiên cứu cho thấy chiến lược này giúp mô hình hiểu ngữ cảnh thị-giác-ngôn
ngữ tốt hơn so với late-fusion. Một số mô hình còn đề xuất fusion theo
tầng (hierarchical fusion): chẳng hạn ALLaVA xây dựng quan hệ dưới
dạng đồ thị giữa text và image để biểu diễn cấu trúc ghép cặp tường
minh[9].
- Xu hướng kiến trúc mới (hợp nhất hoàn toàn): Hướng nghiên cứu hiện tại đang tìm cách vượt qua mô hình
dual-tower truyền thống bằng các kiến trúc Transformer thống nhất
cho đa modal. Ý tưởng là xử lý song song nhiều modal trong cùng một
kiến trúc chia sẻ, thay vì hai mạng tách rời, nhằm loại bỏ “ngăn cách”
giữa các modal. Ví dụ, các đề xuất như dùng transformer
mixture-of-experts (MoE) cho phép các token hình ảnh và văn bản đi
qua chung một loạt tầng transformer, với các “chuyên gia” xử lý riêng
từng loại token nhưng vẫn tương tác trong cùng mạng[10][11].
Cách tiếp cận này hứa hẹn tăng cường khả năng suy luận xuyên phương thức
một cách toàn diện, đồng thời có thể duy trì hiệu quả tính toán nhờ các
cơ chế như MoE (chỉ kích hoạt một phần mạng cho mỗi token)[10].
Nói cách khác, thay vì “song song hai tháp” rồi ghép, thế hệ kiến trúc mới
hướng đến “một khối thống nhất” có thể tiếp thu đồng thời nhiều luồng
dữ liệu. Mặc dù còn đang trong giai đoạn nghiên cứu, các kết quả ban đầu
cho thấy hướng này giúp mô hình hiểu ngữ cảnh chung tốt hơn và giảm
trùng lặp tính toán, mở đường cho mô hình đa phương thức thực sự hợp
nhất thay vì chỉ “nhúng ghép” các biểu diễn đơn modal lại với nhau[4][11].
Phương pháp huấn
luyện mô hình đa phương thức
Đào
tạo MLLM đòi hỏi chiến lược nhiều giai đoạn để mô hình có được kiến thức nền rộng,
sau đó thích ứng với nhiệm vụ cụ thể và cuối cùng căn chỉnh (align) với mục
tiêu hành vi mong muốn. Thông thường, quy trình huấn luyện gồm ba bước
chính[12]:
1.
Tiền huấn luyện (Pre-training): Ở giai đoạn đầu, mô hình học liên kết giữa các modality trên
quy mô lớn. Dữ liệu huấn luyện là các cặp đa modal (ví dụ: ảnh–phụ đề, video–mô
tả, âm thanh–transcript). Mục tiêu huấn luyện gồm:
2.
Mô hình hóa ngôn ngữ bị che
(Masked Language Modeling) trên dữ liệu có modal kèm
theo: Mô hình phải đoán từ bị che dựa trên cả ngữ cảnh văn bản và thông tin
hình ảnh/âm thanh liên quan.
3.
Học tương phản (Contrastive
Learning) để căn chỉnh không gian ảnh và chữ: như mô
hình CLIP phân biệt cặp ảnh-chú thích đúng và sai, kéo các cặp đúng lại
gần nhau trong không gian nhúng và đẩy các cặp sai ra xa[13].
Cách học tương phản này buộc mô hình học được biểu diễn chung cho hình
và văn bản có nghĩa tương ứng.
4.
Mô hình hóa song song đa modal: ví dụ cho mô hình xem ảnh và câu chú thích không đầy đủ, buộc mô hình
điền phần còn thiếu, qua đó học liên kết phần hình ảnh với từ ngữ phù hợp.
Thông
qua tiền huấn luyện trên kho dữ liệu khổng lồ (như tập ảnh-chú thích LAION 5B,
COCO, Visual Genome, tập video YouTube kèm phụ đề, v.v.), MLLM dần tích lũy kiến
thức nền tảng về cả ngôn ngữ lẫn thế giới thị giác. Kết quả của giai đoạn
này là mô hình biết ghép nối và đồng bộ hóa hai không gian biểu diễn:
cùng một khái niệm (“mèo”, “cây”,…) được biểu diễn gần nhau dù đến từ ảnh hay từ[14].
Đây là nền tảng để mô hình có thể hiểu và tạo sinh đa modal sau này.
1.
Tinh chỉnh theo hướng dẫn
(Instruction tuning): Tiếp theo, mô hình được fine-tune
trên dữ liệu dạng hướng dẫn – phản hồi đa phương thức nhằm dạy nó tuân
thủ yêu cầu của người dùng. Giai đoạn này thường sử dụng các cặp
prompt–phản hồi mà prompt có thể bao gồm cả hình ảnh và văn bản, còn phản hồi
là văn bản. Ví dụ, một ảnh và câu hỏi kèm theo có thể được chuyển thành hướng dẫn:
“Hãy mô tả chi tiết nội dung bức ảnh và trả lời câu hỏi X”. Mô hình học
cách đọc hiểu hướng dẫn đó và tạo ra câu trả lời phù hợp. Nguồn dữ liệu hướng dẫn
có thể đến từ:
2.
Chuyển đổi từ dữ liệu có sẵn: Chẳng hạn, tập dữ liệu VQA (Visual Question Answering) gồm ảnh
+ câu hỏi + đáp án có thể được định dạng lại thành một lệnh (“Đây là bức
ảnh..., hãy trả lời: ...”) và phản hồi mẫu. Tương tự, các ảnh có phụ đề
(caption) như COCO Caption có thể biến thành hướng dẫn “Hãy viết phụ đề cho ảnh
này”.
3.
Tự sinh dữ liệu hướng dẫn
(self-instruction): Nhóm nghiên cứu dùng chính các mô
hình lớn (như GPT-4) để phát sinh thêm các tình huống hỏi-đáp về ảnh nhằm
mở rộng dữ liệu huấn luyện mà không tốn công gán nhãn thủ công[15].
Ví dụ, dự án LLaVA đã dùng GPT-4 tạo ~150k cặp hỏi đáp dựa trên ảnh, rồi dùng
chính các cặp đó để tinh chỉnh mô hình của họ.
4.
Kết hợp với dữ liệu hội thoại
đơn modal: Nhiều khi người ta trộn thêm dữ liệu hội
thoại thuần văn bản vào huấn luyện để mô hình học được kỹ năng đối thoại và
lập luận chung (như dữ liệu chat GPT, dữ liệu Chain-of-Thought, v.v.)[16].
Điều này giúp MLLM không chỉ biết mô tả ảnh mà còn giữ mạch hội thoại, trả lời
tự nhiên như chatbot thông minh.
Instruction
tuning giúp mô hình nắm bắt được ý định người dùng và biết cách trả lời
theo ngữ cảnh đa phương thức. Sau bước này, các mô hình như LLaVA hay
MiniGPT-4 bắt đầu có khả năng hiểu câu hỏi về hình ảnh và trả lời một cách mạch
lạc, gần đạt “phong thái” của GPT-4V trên dữ liệu huấn luyện hạn chế[17].
1.
Căn chỉnh với con người
(Alignment tuning): Đây là bước huấn luyện cuối nhằm điều
chỉnh mô hình theo đánh giá và giá trị của người dùng, thường được thực hiện
qua các phương pháp như Học tăng cường từ phản hồi của con người (RLHF)
hoặc tối ưu hóa trực tiếp theo sở thích (Direct Preference Optimization).
Mô hình sẽ được đánh giá chất lượng câu trả lời (về tính đúng đắn, hữu
ích, lịch sự, an toàn…) bởi con người hoặc mô hình phụ trợ, sau đó điều chỉnh
tham số để ưu tiên các phản hồi tốt. Quá trình này tương tự như alignment cho
ChatGPT nhưng áp dụng cho thiết lập đa modal. Kết quả là mô hình sẽ giảm
khuynh hướng ảo tưởng (hallucination), biết từ chối trả lời những yêu cầu
không phù hợp, và tuân thủ hơn các nguyên tắc an toàn/hữu ích[18].
Chẳng hạn, nhờ RLHF mà GPT-4V hay Visual ChatGPT sẽ tránh miêu tả sai lệch nội
dung ảnh hoặc phát ngôn thiên lệch, đồng thời cải thiện độ chính xác khi
làm các nhiệm vụ nhạy cảm.
Sau
khi trải qua cả pre-training quy mô lớn và tinh chỉnh đa giai đoạn, các MLLM hiện
đại đạt được khả năng tổng quát ấn tượng. Nhiều mô hình cho thấy năng lực
zero-shot và few-shot vượt trội – ví dụ: mô hình có thể mô tả một ảnh
chưa từng thấy hoặc trả lời câu hỏi về nội dung mới chỉ với một vài ví dụ mẫu,
nhờ kiến thức và kỹ năng tích lũy trong giai đoạn tiền huấn luyện[19]. Kết
hợp với bước alignment, mô hình có thể đối thoại đa phương thức một cách tự
nhiên, đúng đắn và an toàn hơn.
Các mô hình nổi bật
trong lĩnh vực đa phương thức
- Flamingo (DeepMind, 2022): Mô hình ngôn
ngữ thị giác (Visual Language Model) tiên phong cho khả năng few-shot
learning trên tác vụ đa phương thức. Flamingo có ~80 tỷ tham số, được
tạo thành bằng cách kết hợp một LLM 70B (Chinchilla) đã huấn luyện sẵn
với encoder thị giác mạnh rồi thêm các khối cross-attention mới
để “cầu nối” hai phần[7]. Mô hình được huấn luyện trên hàng loạt corpora web chứa chuỗi
xen kẽ ảnh, video và văn bản, giúp nó có giao diện rất linh hoạt: input
là prompt gồm một vài ví dụ chứa cả hình ảnh và chú thích, Flamingo có
thể tiếp nhận hình ảnh/video mới kèm câu hỏi và tạo câu trả lời
ngôn ngữ tương ứng. Trên 16 benchmark khác nhau, Flamingo đạt state-of-the-art
trong thiết lập few-shot, thậm chí vượt qua các mô hình đã fine-tune
chuyên biệt cho từng tác vụ[20][21]. Sự ra đời của Flamingo được ví như “GPT-3 moment” của lĩnh vực
đa modal, chứng minh sức mạnh của kiến trúc LLM kết hợp thị giác
trong thiết lập học ít mẫu.
- GPT-4 với thị giác (OpenAI, 2023): GPT-4
là mô hình đa modal nổi tiếng của OpenAI, hỗ trợ đầu vào dạng hình ảnh
(bên cạnh văn bản) và đầu ra dưới dạng văn bản[22]. Ra mắt tháng 3/2023, GPT-4 đã được quảng bá là “tiến hóa đa
phương thức” của ChatGPT[23]. Mô hình có khả năng phân tích nội dung ảnh rất ấn tượng:
từ mô tả chi tiết cảnh trong ảnh, nhận diện đối tượng, đọc và diễn giải
meme, đến giải các bài toán đố thị giác hoặc thiết kế trang web từ bản
phác thảo. Kiến trúc cụ thể của GPT-4V không được công bố, nhưng nhiều suy
đoán cho rằng OpenAI đã tích hợp một bộ mã hóa thị giác (Vision
Transformer) vào transformer ngôn ngữ, biến đặc trưng ảnh thành
“token” để mô hình xử lý chung. GPT-4V thể hiện hiệu suất dẫn đầu trên nhiều
benchmark đa modal vào năm 2023; ví dụ, nó đạt điểm 95 trên 100 trong
bài thi nhận thức thị giác (Hellaswag hình ảnh), vượt qua các mô hình
trước đó. Trong so sánh trên tập MMLU đa modal, GPT-4V chỉ thua kém
đôi chút so với model Gemini Ultra của Google (xem bên dưới)[24][25]. Khả năng của GPT-4V đã đưa ChatGPT tiến vào lĩnh vực thị giác,
mở ra ứng dụng chat bot có thể “nhìn” và “nói” về hình ảnh thực tế.
- Google Gemini (2023): Gemini là
dòng mô hình nền tảng (foundation model) mới nhất của Google/DeepMind, được
giới thiệu lần đầu cuối 2023 và nhanh chóng trở thành một trong những mô
hình mạnh nhất vào 2024-2025. Khác với GPT-4 được mở rộng thêm modality, Gemini
ngay từ đầu được thiết kế “đa phương thức nguyên bản” (natively
multimodal) – nó được pre-train đồng thời trên nhiều loại dữ liệu: văn
bản, hình ảnh, mã nguồn, và cả audio/video[26][27]. Phiên bản Gemini 1.0 (12/2023) ra mắt với ba quy mô:
Ultra, Pro, Nano, trong đó Gemini Ultra là model lớn nhất. Gemini đạt
kết quả SOTA trên 30/32 benchmark chuẩn vào thời điểm công bố[28]. Đặc biệt, Gemini Ultra là mô hình đầu tiên vượt qua chuyên gia
con người trên bộ đề MMLU (90% so với ~86% của người)[29], đồng thời dẫn đầu trên nhiều bài kiểm tra hiểu hình ảnh tự
nhiên, âm thanh và video[24]. Nhờ được huấn luyện tích hợp ngay từ đầu, Gemini thể hiện
sự “hiểu biết đa modal liền mạch” – ví dụ, mô hình có thể đọc một
đoạn văn mô tả, nhìn ảnh kèm theo và suy luận câu trả lời phức tạp, hoặc
nghe một đoạn audio và trả lời bằng cách trích dẫn thông tin trong đó.
Ngoài ra, Gemini còn nổi bật ở khả năng lập luận chuỗi
(chain-of-thought) và viết mã, kế thừa sức mạnh từ PaLM 2 và kỹ
thuật AlphaGo (Google thiết kế Gemini với tham vọng kết hợp NLP và tư duy
chiến lược). Tính đến 2025, Gemini 2.0/2.5 tiếp tục được phát triển, đưa
mô hình này thành đối thủ hàng đầu của GPT-4 trong kỷ nguyên đa
phương thức.
- Microsoft Kosmos (2023): Kosmos-1,
giới thiệu đầu 2023 bởi Microsoft Research, là một thử nghiệm đáng chú ý
hướng tới AGI đa modal. Đây là một MLLM ~1.6 tỷ tham số (khá nhỏ so
với GPT-4) nhưng được huấn luyện để biện luận dựa trên cả văn bản và
hình ảnh. Kosmos-1 cho thấy khả năng phân tích nội dung ảnh, giải đố
hình ảnh, thực hiện OCR và VQA cơ bản, dù quy mô khiêm tốn[30]. Tiếp nối, Kosmos-2 (cuối 2023) bổ sung khả năng grounding
tốt hơn: mô hình có thể nhận các mô tả vị trí đối tượng (bounding
boxes) trong ảnh, kết nối thị giác với thế giới thật tốt hơn[31]. Thậm chí Kosmos-2.5 (2024) được phát triển chuyên cho việc
đọc hiểu tài liệu thị giác (như ảnh chứa nhiều chữ), tích hợp NLP với
kỹ thuật nhìn–đọc để trả lời câu hỏi từ trang tài liệu hình ảnh. Dòng
Kosmos nhấn mạnh tầm quan trọng của việc tích hợp tri thức thị giác vào
khả năng ngôn ngữ và ngược lại, và khái niệm “multimodal grounding”
– tức gắn ngôn ngữ với thế giới thực thông qua cảm nhận thị giác –
nhằm tiến gần hơn đến AI tổng quát.
- PaLI (Google, 2022): Tên đầy đủ PaLI –
Pathways Language and Image model, là mô hình vision-language quy mô lớn
nhấn mạnh tính đa ngôn ngữ. PaLI sử dụng kiến trúc encoder-decoder:
ViT khổng lồ (hơn 4 tỷ tham số) để mã hóa ảnh, và decoder chuyển ngữ đa
ngôn ngữ. Google đã scale PaLI theo ba trục: mô hình ngôn ngữ lớn
(dựa trên Pathways), mô hình thị giác lớn (ViT lớn nhất huấn luyện đến
nay), và dữ liệu huấn luyện cực lớn (10 tỷ ảnh-văn bản, phủ 100+ ngôn
ngữ)[5][32]. Nhờ đó, PaLI đạt kỷ lục trên hàng loạt nhiệm vụ thị giác-ngôn
ngữ: caption tiếng Anh và đa ngôn ngữ, VQA, phân loại hình ảnh, đọc chữ
trong ảnh (scene text understanding)[6]. Điểm đặc biệt là PaLI có thể nhận câu hỏi bằng nhiều ngôn ngữ
khác nhau về một hình ảnh và trả lời chính xác bằng ngôn ngữ tương ứng,
thể hiện năng lực chuyển đổi giữa ngôn ngữ và thị giác một cách linh hoạt.
PaLI cho thấy sức mạnh của phương pháp “jointly-scaled” – tức mở rộng
đồng thời quy mô mô hình và dữ liệu trên cả hai modal – để đạt hiệu quả vượt
trội.
- BLIP và BLIP-2 (Salesforce, 2022–2023): BLIP
(Bootstrapping Language-Image Pre-training) là mô hình vision-language
tiên phong đề xuất quy trình tự khởi động việc huấn luyện thị giác-ngôn
ngữ. BLIP kết hợp một ViT làm encoder ảnh và transformer decoder sinh
văn bản, được huấn luyện thông qua các nhiệm vụ như sinh chú thích ảnh và
lọc dữ liệu (learning with bootstrapping). Đến BLIP-2, nhóm tác giả
tập trung vào tối ưu hiệu quả: họ giữ nguyên các backbone
pretrained (ViT và LLM) và chèn thêm Q-Former – một mô-đun
transformer nhỏ học ra một số ít vector “query” đại diện cho ảnh,
sau đó nối các vector này vào prompt của LLM đóng băng[8]. Cách làm này cho phép BLIP-2 tương tác sâu giữa ảnh và ngôn
ngữ với rất ít tham số huấn luyện thêm, và tương thích với nhiều LLM
khác nhau. BLIP-2 đạt thành tích cao trên captioning, VQA… với chi phí
tính toán thấp. Ví dụ, BLIP-2 có thể ghép với Flan-T5 hoặc LLaMA
để tạo thành một hệ thống hỏi đáp về hình ảnh mạnh mẽ, nhờ Q-Former đã học
nối không gian ảnh-ngôn ngữ hiệu quả[33]. BLIP-2 là minh chứng cho hướng modular design: tận dụng
mô hình có sẵn và thêm module trung gian để rút ngắn khoảng cách giữa
modal thị giác và ngôn ngữ.
- LLaVA (Large Language and Vision Assistant, 2023): Đây là dự án mở nguồn tiêu biểu xây dựng “ChatGPT cho hình ảnh”. LLaVA
kết hợp Vicuna-13B (một LLM chat dựa trên LLaMA) với bộ mã hóa ảnh
CLIP ViT-L/14 thông qua một lớp nối tuyến tính đơn giản[3]. Nhờ thiết kế tối giản này, nhóm nghiên cứu chỉ cần huấn luyện
end-to-end với một lượng nhỏ dữ liệu hướng dẫn (150k câu hỏi về ảnh do
GPT-4 tạo ra) để có được mô hình biết trả lời chi tiết về ảnh theo yêu
cầu người dùng. Dù kích thước nhỏ (13B tham số), LLaVA gây chú ý vì tái
hiện đáng kể “tinh thần” của GPT-4V trong nhiều thử nghiệm: mô hình có
thể mô tả ảnh, trả lời các câu hỏi phức tạp (đối với ảnh rõ ràng), thực hiện
nhiều vòng hội thoại đa modal. LLaVA đạt điểm SOTA trên ScienceQA (bộ
câu hỏi khoa học kèm hình ảnh)[34], cho thấy tiềm năng của phương pháp huấn luyện tiết kiệm. Sau
thành công bản gốc (tháng 4/2023), đã có nhiều biến thể như LLaVA-1.5,
LLaVA-Plus… tích hợp thêm dữ liệu OCR, nâng cấp lên 34B tham số, v.v., tiếp
tục cải thiện khả năng của mô hình. LLaVA chứng minh rằng cộng đồng mở có
thể xây dựng trợ lý đa phương thức hiệu quả với chi phí vừa phải, bằng
cách khéo léo kết hợp các khối có sẵn (CLIP + Vicuna) và dùng dữ
liệu tự sinh để tinh chỉnh mô hình[35][34].
(Ngoài
ra, lĩnh vực này còn nhiều mô hình đáng chú ý khác: ví dụ MiniGPT-4 (2023) – sử dụng BLIP-2 và Vicuna để đạt khả năng
tương tự GPT-4V với 13B tham số; PaLM-E (2023) – mô hình Google kết
hợp thị giác và điều khiển robot (embodied), v.v. Tuy nhiên, giới hạn khuôn khổ,
báo cáo tập trung vào các đại diện tiêu biểu như trên.)
Xử lý và kết hợp dữ
liệu đa phương thức
Thách
thức cốt lõi trong MLLM là làm sao để máy tính hiểu được
dữ liệu đa dạng (văn bản, ảnh, âm thanh…) và kết hợp chúng trong
cùng một mô hình. Quá trình này thường gồm các bước: mã hóa (encoding) từng
modality, chiếu vào không gian chung (projection/alignment), fuse
(fusion) và xử lý tương tác (cross-modal processing), cuối cùng là giải
mã (decoding) ra đáp án. Cụ thể:
- Mã hóa từng modality: Mỗi loại dữ liệu có
cấu trúc riêng, nên cần phương pháp biểu diễn khác nhau. Văn bản được chuyển
thành các token (thông qua tokenizer) rồi thành vector embedding nhờ
các mô hình ngôn ngữ (ví dụ BERT hoặc các LLM encoder)[36]. Hình ảnh được biến đổi thành đặc trưng bằng các mạng CNN hoặc
Vision Transformer (ViT) – các đặc trưng này có thể là vector toàn ảnh
hoặc tensor nhiều vùng ảnh. Ví dụ, BLIP-2 dùng ViT để trích xuất đặc
trưng hình ảnh, sau đó Q-Former biến chúng thành một tập nhỏ vector đại diện[8]. Đối với âm thanh, người ta thường chuyển sóng âm thành
spectrogram và dùng mô hình như wav2vec, HuBERT để lấy
embedding âm thanh[8]. Video có thể được tách thành chuỗi frame hình ảnh (và thường
kèm theo kênh âm thanh), rồi xử lý từng frame qua encoder hình ảnh; đôi
khi có mô hình chuyên biệt (Video Transformer) để xử lý cả chuỗi video.
Quan trọng là, kiến trúc MLLM thường thiết kế một encoder riêng cho mỗi
modal, đảm bảo trích xuất được thông tin cốt lõi mà không làm mất đặc
trưng riêng của modal đó[8]. Cách tiếp cận mô-đun hóa này giúp tận dụng tối đa năng lực của
mô hình chuyên biệt (ví dụ CNN giỏi nhận diện hình dạng, LLM giỏi hiểu
ngôn ngữ).
- Chiếu đặc trưng vào không gian chung (feature
projection/alignment): Sau khi mã hóa, ta có các
vector đặc trưng cho text, image, audio… với kích thước và phân bố có thể
khác nhau. Bước tiếp theo là chiếu (project) chúng vào cùng một không
gian vector “chia sẻ” để mô hình có thể so sánh và kết hợp các đặc
trưng khác modal một cách trực tiếp[37]. Thao tác chiếu này thường do các lớp linear hoặc MLP nhỏ học
được trong quá trình huấn luyện – chúng điều chỉnh độ dài và phân phối
của vector từ từng encoder sao cho tương thích với nhau. Nhờ đó, một
ý nghĩa (concept) dù đến từ ảnh hay từ đều có thể biểu diễn dưới dạng
vector trong cùng không gian và tính toán được với nhau. Chẳng hạn, trong
LLaVA, đầu ra tiêu đề ảnh từ CLIP ViT (một vector 768 chiều) được qua một
lớp linear để biến thành vector 4096 chiều phù hợp làm input cho Vicuna
LLM[3]. Tương tự, LLaMA-Adapter gắn thêm các adapter module để chiếu
đặc trưng ảnh (ResNet) vào không gian của LLaMA mà không cần tái huấn
luyện toàn bộ mô hình[38]. Kết quả của bước này là tất cả các modal đều có biểu diễn dưới
dạng embedding trong cùng một “ngôn ngữ toán học”, sẵn sàng để ghép nối.
- Ghép và tích hợp đa modal (fusion & cross-modal attention): Khi đã có các embedding chung, mô hình kết hợp chúng lại để tạo
biểu diễn đa phương thức hợp nhất. Cách đơn giản là concatenate
(nối) các vector đặc trưng cạnh nhau[39] – ví dụ xếp embedding của caption bên cạnh embedding ảnh rồi đưa
cả chuỗi qua transformer (cách này được dùng trong một số mô hình frozen LLM).
Tuy nhiên, phương pháp mạnh hơn là sử dụng cơ chế Attention giữa các
modal: cho phép mô hình học cách “chú ý” từ đặc trưng modal này đến
modal kia. Cross-attention được dùng nhiều – ví dụ mô hình có
thể dùng vector từ (text token) làm “query” và tìm “key” tương ứng trong tập
đặc trưng ảnh, qua đó liên kết mỗi từ mô tả với vùng ảnh tương ứng[40]. Flamingo và BLIP-2 áp dụng cross-attention để thực hiện chính
xác điều này, giúp mô hình xác định trong ảnh “con chó” hay “cây” nào
tương ứng với từ trong câu hỏi[9]. Một số kiến trúc tiến xa hơn, thực hiện fusion nhiều giai đoạn:
chẳng hạn cho mô hình kết hợp dần dần – đầu tiên text chú ý đến ảnh
tạo embedding tạm, rồi lại chú ý ngược lại, v.v., qua nhiều tầng. Thậm chí
ALLaVA xây dựng đồ thị quan hệ giữa text và ảnh để lưu trữ
những cặp nào liên quan nhau[9]. Kết quả của fusion là một biểu diễn hợp nhất chứa thông tin đồng
thời từ các nguồn – ví dụ vector trạng thái cuối cùng của transformer
có thể gói gọn cả ngữ cảnh hình ảnh lẫn câu hỏi văn bản. Đây chính là nền
tảng để mô hình suy luận xuyên modal.
- Tương tác và suy luận chéo modal: Sau khi
fuse, mô hình cần diễn giải sâu mối quan hệ giữa các thông tin đa modal
để hoàn thành nhiệm vụ. Các lớp transformer liên tiếp (self-attention +
feed-forward) sẽ tinh chỉnh tiếp biểu diễn hợp nhất này[41]. Self-attention ở đây giúp mô hình hiểu ngữ cảnh nội tại trong
từng modal (ví dụ các từ liên quan nhau thế nào, các vùng ảnh liên hệ
ra sao), còn cross-attention (nếu có nhiều luồng) thì giúp mô hình liên
tục đối chiếu modal này với modal kia trong các tầng sâu hơn. Nhờ nhiều
lớp như vậy, mô hình có thể trả lời được những truy vấn phức tạp: ví dụ
LXMERT dùng nhiều tầng cross-attention để làm bài toán VQA, liên kết
chính xác đối tượng hình ảnh với từ ngữ trong câu hỏi trước khi trả
lời[42]. Đối với video, mô hình phải thêm một bước xử lý thời gian: VideoCoCa
của Google mở rộng ý tưởng CoCa (Contrastive Captioner) cho video bằng
cách kết nối đặc trưng các frame hình ảnh theo dòng thời gian với đặc
trưng ngôn ngữ (bao gồm cả lời thoại nếu có), qua đó mô hình hiểu nội
dung video liên tục chứ không chỉ từng ảnh rời rạc[42]. Nhìn chung, giai đoạn này là nơi mô hình thực hiện suy luận
đa modal, tìm ra câu trả lời từ sự kết hợp thông tin (ví dụ: ảnh cho
biết ai đang làm gì, văn bản hỏi cái gì, mô hình ghép lại để
trả lời chính xác).
- Giải mã đầu ra (decoding): Tùy bài toán
mà đầu ra có thể khác nhau. Với các nhiệm vụ sinh văn bản (như
captioning ảnh, tóm tắt video), decoder thường là một mô hình ngôn ngữ
tự hồi quy sinh câu chữ dựa trên biểu diễn multimodal đã fuse[43]. Ví dụ, MiniGPT-4 sau khi ghép embedding ảnh (qua BLIP-2)
vào prompt sẽ dùng LLM Vicuna để viết ra chú thích ảnh hoặc trả lời theo
yêu cầu[44]. Với các nhiệm vụ phân loại hoặc phát hiện
(classification, detection), đầu ra có thể là một lớp tuyến tính gắn trên
embedding đa modal để dự đoán nhãn (như dự đoán cảm xúc từ hình+âm thanh)[45]. Đáng chú ý, một số hệ thống đa modal có khả năng phản hồi đa
modal – ví dụ Visual ChatGPT của Microsoft tích hợp nhiều mô
hình, trong đó có cả mô hình sinh hình ảnh (như Stable Diffusion) bên cạnh
LLM, nhờ đó nó có thể tạo cả hình ảnh mới từ yêu cầu văn bản chứ
không chỉ đáp bằng chữ[45]. Dù đa số MLLM hiện nay tập trung vào đầu ra ngôn ngữ, xu
hướng tương lai có thể sẽ cho phép đầu ra linh hoạt hơn (hình ảnh,
giọng nói), tiến tới hội thoại đa modal hai chiều thực sự.
Tóm
lại, xử lý dữ liệu đa phương thức trong MLLM là quy trình nhiều bước, trong đó
mỗi modal được mã hóa phù hợp, sau đó các thông tin được căn chỉnh vào cùng
không gian và “hòa trộn” thông minh qua attention, cuối cùng mô hình suy luận
ra đáp án. Nhờ kiến trúc khéo léo và dữ liệu phong phú, các MLLM có thể hiểu
đồng thời nhiều luồng thông tin gần giống cách con người phối hợp thị
giác-thính giác-ngôn ngữ để nhận thức thế giới.
Thách thức kỹ thuật
của mô hình đa phương thức
Mặc
dù đã đạt nhiều tiến bộ, MLLM hiện tại vẫn đối mặt với loạt thách thức và giới
hạn cần tiếp tục nghiên cứu khắc phục[46][47]:
- Grounding – Liên kết chặt chẽ với dữ liệu thực tế: MLLM đôi khi vẫn “ảo tưởng” hoặc mô tả sai lệch so với nội
dung hình ảnh/âm thanh thực. Thách thức “grounding” là đảm bảo mô hình
gắn kết các phát biểu ngôn ngữ với những gì thực sự có trong đầu vào thị
giác. Ví dụ, mô hình có thể thêm chi tiết không có trong ảnh
(hallucination) hoặc nhầm lẫn thực thể. Việc căn chỉnh mô hình theo phản
hồi con người (RLHF) phần nào giúp giảm ảo tưởng[18], nhưng grounding sâu (đặc biệt trong ngữ cảnh phức tạp) vẫn là vấn
đề mở. Ngoài ra, khả năng định danh chính xác đối tượng cụ thể trong ảnh
(ví dụ phân biệt nhiều người và đề cập đúng người) vẫn hạn chế. Đây là trở
ngại khi ứng dụng MLLM vào các nhiệm vụ cần độ tin cậy cao như mô tả y tế,
giám sát an ninh.
- Alignment – Căn chỉnh với mục tiêu người dùng và các chuẩn mực: Liên quan đến grounding là alignment ở mức hệ thống: mô
hình cần hiểu đúng yêu cầu của người dùng và trả lời theo hướng hữu
ích, không lệch lạc. Với đầu vào đa modal, alignment càng khó do mô
hình phải cùng lúc giải mã ý định từ văn bản và hình ảnh. Vấn đề an
toàn cũng nổi lên: mô hình đa modal có thể suy luận ra những nội dung nhạy
cảm từ hình ảnh (như đoán cảm xúc, tình trạng sức khỏe) – điều này tiềm ẩn
nguy cơ vi phạm quyền riêng tư hoặc thiên kiến. Việc căn chỉnh MLLM
tuân thủ nguyên tắc đạo đức và xã hội (tránh thành kiến về sắc tộc, giới
tính, v.v.) cần được chú trọng tương tự như với LLM đơn modal. Hiện nay,
nhiều MLLM mở còn thiếu giai đoạn RLHF kỹ lưỡng nên đôi khi trả lời
không phù hợp hoặc không an toàn hơn so với GPT-4V[48][49].
- Xử lý ngữ cảnh dài và dữ liệu phức tạp:
Nhiều mô hình đa modal gặp khó khăn với ngữ cảnh đầu vào rất dài hoặc cấu
trúc phức tạp, chẳng hạn đoạn video dài vài phút hoặc một tài liệu
PDF nhiều trang kèm hình ảnh[50]. Giới hạn độ dài chuỗi của transformer (context length) khiến mô
hình khó nạp toàn bộ thông tin nếu input quá lớn. Dù có các kỹ thuật như Sliding
window hay Retriever để hỗ trợ mô hình đọc hiểu tài liệu dài,
việc hiểu xuyên suốt một video dài (bao gồm hàng trăm frame) vẫn vượt
khả năng nhiều hệ thống hiện tại. Điều này ảnh hưởng đến các ứng dụng như
tóm tắt video, phân tích phim, hay đọc hiểu báo cáo nhiều hình ảnh.
- Khả năng suy luận logic xuyên phương thức còn hạn chế: MLLM đã làm tốt ở câu hỏi nhận biết trực tiếp (ví dụ “ảnh này chụp
cái gì”), nhưng khả năng suy luận bắc cầu, lập luận nhiều bước dựa trên
cả ảnh và text vẫn yếu. Các kỹ thuật như Multimodal
Chain-of-Thought (M-CoT) hay Multimodal in-context learning (M-ICL)
mới ở giai đoạn sơ khai[51], dẫn đến mô hình thường không biết tự phân tích nếu câu hỏi đòi hỏi
lập luận trung gian. Ví dụ: một câu hỏi yêu cầu đọc biểu đồ (hình ảnh) rồi
rút ra kết luận so sánh con số với một đoạn mô tả – mô hình có thể mắc lỗi
ở bước logic. Nâng cao khả năng lập luận đa modal (giải quyết bài
toán như con người kết hợp nhiều nguồn dữ liệu để suy nghĩ) là hướng
nghiên cứu quan trọng.
- Mở rộng sang các modal mới: Hiện tại, phần
lớn MLLM tập trung vào thị giác + ngôn ngữ, một số ít tích hợp âm
thanh/giọng nói, còn lại các modal khác (như tín hiệu cảm biến, dữ
liệu bảng biểu, thậm chí mùi vị) hầu như chưa được đả động. Trong
tương lai, AI đa modal cần phổ quát hơn, biết kết hợp nhiều nguồn dữ
liệu hơn nữa (ví dụ: trong lĩnh vực y tế, kết hợp ảnh X-quang, ảnh siêu
âm, kết quả xét nghiệm văn bản, v.v. để chẩn đoán). Việc thêm modal mới
hiện rất tốn kém vì phải huấn luyện lại phần encoder và điều chỉnh
toàn bộ mô hình. Thách thức là làm sao thiết kế kiến trúc linh hoạt
để mở rộng modal một cách hiệu quả, giúp mô hình “học” modal mới mà
không quên kiến thức modal cũ[47].
- Chi phí tính toán và hiệu quả bộ nhớ:
MLLM thường có kích thước cực lớn và đòi hỏi tài nguyên huấn luyện khổng
lồ. Kết hợp đa modal làm tăng lượng tham số (phải có encoder riêng cho
mỗi modal) và tăng khối lượng tính toán (ví dụ ảnh 224x224 có thể tương
đương 50k token nếu xử lý pixel thô). Việc huấn luyện những model như
GPT-4, Gemini… cần hàng nghìn GPU A100 và tối ưu phân tán phức tạp[52]. Triển khai mô hình cũng đòi hỏi bộ nhớ lớn; chẳng hạn, chạy
GPT-4V trên thiết bị cục bộ gần như bất khả thi. Bài toán tối ưu hiệu
năng đa modal đặt ra nhu cầu về mô hình gọn nhẹ hơn (như dùng
các phương pháp nén, distillation) và thuật toán hiệu quả (như
sparse attention, mixture-of-experts kích hoạt một phần mô hình). Đây là
lý do nhiều nghiên cứu tập trung vào adapter tiết kiệm (như
LLaMA-Adapter) hoặc mô hình nhỏ gọn như MiniGPT-4, LLaVA để phổ biến
khả năng đa modal mà không phải sử dụng mô hình quá lớn.
- Học liên tục, nhớ dài hạn: Hiện hầu hết
MLLM được huấn luyện tĩnh trên một tập dữ liệu cố định, sau đó ngừng học.
Điều này có nghĩa mô hình khó thích nghi với tri thức mới hoặc dữ liệu
mới sau khi huấn luyện – đặc biệt là khi môi trường đa modal thay đổi
liên tục (vd. thông tin thị giác mới mỗi ngày). Thách thức lifelong
learning là làm sao cho phép mô hình học thêm từ dữ liệu mới mà
không quên đi kiến thức cũ (hiện tượng catastrophic forgetting)[53]. Việc này đòi hỏi nghiên cứu về các kỹ thuật như fine-tune chọn
lọc, memory replay hoặc kiến trúc modular có thể mở rộng.
Đối với đa modal, lifelong learning còn phức tạp hơn vì kiến thức gắn liền
với nhiều modal (ví dụ biết một thiết bị mới qua hình ảnh lẫn mô tả). Giải
quyết được lifelong learning sẽ giúp tạo ra những agent AI đa modal có
khả năng cập nhật hiểu biết liên tục, thích nghi với người dùng và môi
trường như một trợ lý thực thụ.
- Độ tin cậy và an toàn (Robustness & Safety): Tương tự LLM, các MLLM có thể mắc lỗi ngớ ngẩn hoặc bị khai thác
đưa ra đầu ra không mong muốn. Ví dụ, mô hình thị giác có thể bị tấn
công đối nghịch (adversarial) bằng cách thay đổi nhỏ trong ảnh khiến
nó nhận diện sai. Hoặc mô hình có thể học theo bias trong dữ liệu
(ví dụ thiên vị giới tính khi mô tả hình ảnh nghề nghiệp). Những lỗ hổng
này có thể dẫn đến hậu quả nghiêm trọng hơn so với LLM chữ, bởi đầu ra đa
modal có vẻ “đáng tin” (hình ảnh minh họa). Do đó, đảm bảo an toàn cho
MLLM là thách thức phải tính đến: cần lọc dữ liệu đa modal kỹ lưỡng,
áp dụng phản hồi con người để uốn nắn mô hình, và phát triển phương
pháp phòng thủ đối nghịch trong không gian hình ảnh. Chỉ khi đó,
MLLM mới có thể được triển khai rộng rãi trong các lĩnh vực nhạy cảm như y
tế, tài chính một cách có trách nhiệm.
Những
thách thức trên cho thấy MLLM còn nhiều hạn chế cần khắc phục trước khi
đạt được tiềm năng đầy đủ. Tuy vậy, cộng đồng nghiên cứu đang tích cực tìm giải
pháp cho từng vấn đề, và chúng cũng mở ra cơ hội cho những cải tiến kiến
trúc và thuật toán mới trong tương lai gần.
Xu hướng nghiên cứu
hiện tại và tương lai
Lĩnh
vực mô hình đa phương thức đang phát triển rất sôi động, với nhiều hướng nghiên
cứu mới nhằm mở rộng khả năng của MLLM. Dưới đây là một số xu hướng nổi bật:
- Agent đa modal và AI hiện thân (embodied AI): Một hướng quan trọng là tích hợp MLLM vào các đặc vụ (agents)
có khả năng tương tác với môi trường vật lý hoặc thế giới ảo. Điều này
đòi hỏi mô hình không chỉ hiểu dữ liệu thị giác mà còn có thể hành động
dựa trên tri thức đa modal. Ví dụ, dự án SayCan (Google) kết hợp
PaLM với robot để robot hiểu lệnh ngôn ngữ và thực thi hành động trong môi
trường thực. Các nghiên cứu gần đây về LLM trong thế giới 3D cũng
đang bùng nổ[54]. Một khảo sát 2024 cho thấy LLM có thể hỗ trợ vượt trội việc
hiểu không gian 3D, lập kế hoạch đường đi, điều khiển robot khi
tích hợp thông tin 3D như point cloud, bản đồ môi trường[55][54]. Mục tiêu dài hạn là xây dựng embodied multimodal agents –
ví dụ như trợ lý ảo có mắt (camera) để quan sát thế giới 3D và tay
(robotic arm) để tác động trở lại. Điều này liên quan mật thiết đến việc
grounding tri thức vào bối cảnh vật lý (như một robot phòng bếp phải
nhận biết đồ vật thật và hiểu mệnh lệnh “lấy cốc trên bàn”). Các công
trình như LEO (2023) đã bước đầu giới thiệu agent đa modal vận hành
trong môi trường giả lập 3D phức tạp. Trong thập kỷ tới, chúng ta kỳ vọng
sự hội tụ giữa multimodal LLM và robotics, cho phép AI không chỉ
“thấy và nói” mà còn “hiểu và làm” trong thế giới thực.
- Học liên tục và thích ứng (Lifelong/Lifelong Multimodal Learning): Như đã đề cập ở phần thách thức, lifelong learning đang là
chủ đề nóng. Các nhóm nghiên cứu hướng tới các phương pháp cho phép mô
hình cập nhật kiến thức theo thời gian thực. Một xu hướng là sử dụng
kiến trúc mô-đun: ví dụ, thêm các module mới cho kiến thức mới thay
vì thay đổi tham số cũ, hoặc dùng bộ nhớ ngoài (external memory) để
lưu trữ thông tin mới mà mô hình có thể truy xuất khi cần. Đối với đa
modal, có đề xuất về “Dynamic Modular Networks” – khi có modal mới
hoặc nhiệm vụ mới, mô hình sẽ tự cấu hình lại sơ đồ các module (như thêm
encoder mới, liên kết mới) mà không quên đi những gì đã học. Mục tiêu là tạo
ra các trợ lý AI đa phương thức không ngừng tiến hóa, có thể học hỏi
từ tương tác với người dùng và môi trường. Chẳng hạn, một trợ lý nhà thông
minh có camera có thể học gương mặt các thành viên gia đình mới theo thời
gian, hoặc học sở thích thẩm mỹ của chủ nhà qua những bức tranh họ phản hồi
tốt. Mặc dù hiện tại đa số MLLM vẫn là mô hình tĩnh, nhu cầu thực tế
sẽ thúc đẩy nghiên cứu hướng tới việc huấn luyện liên tục và “ghi
nhớ dài hạn” cho mô hình.
- Mở rộng sang thế giới 3D và thông tin không gian: Ngoài hình ảnh 2D, âm thanh thời gian, một hướng nữa là đưa dữ
liệu 3D (mô hình không gian, hình học) vào mô hình ngôn ngữ. Các
nghiên cứu cho thấy LLM có thể giúp mô tả và hiểu cảnh 3D (như mô tả một
căn phòng 3D, hoặc hỏi đáp về môi trường 3D)[55]. Xu hướng này bao gồm:
·
3D-LLM: mô hình tích hợp đầu vào là point cloud, mesh, hoặc NeRF mô tả
vật thể 3 chiều, cho phép mô hình trả lời các câu hỏi như “đối tượng X nằm ở
đâu trong phòng?”[56].
Điều này ứng dụng trong robot hoặc VR, AR.
·
Đa modal trong thực tế ảo / thực
tế tăng cường: trợ lý AI có thể hiện diện trong kính
AR, vừa nghe (audio), vừa nhìn (video 3D từ camera), và tương tác với người
dùng.
·
Hiểu biết không gian và dẫn đường: kết hợp dữ liệu thị giác với dữ liệu bản đồ/hệ tọa độ để mô hình hỗ trợ
điều hướng (như robot tự hành hoặc trợ lý du lịch AR).
Một
ví dụ, công trình 3D-LLM (2023) đề xuất tích hợp cơ chế định vị 3D
vào LLM, cho phép mô hình hiểu các khái niệm như “đằng sau”, “bên trái” trong
ngữ cảnh hình ảnh 3D[57][58].
Đây là bước tiến để AI hiểu không gian như con người. Trong tương lai gần, ta
có thể thấy những hệ thống đa modal trong thế giới ảo 3D – ví dụ game
NPC thông minh biết phân tích môi trường game 3D và trò chuyện với người chơi dựa
trên đó.
- Kiến trúc và thuật toán mới tăng hiệu quả: Bên cạnh việc mở rộng khả năng, một xu hướng khác là cải tiến
kiến trúc cơ bản để MLLM nhanh hơn, gọn nhẹ hơn và xử lý ngữ cảnh
dài tốt hơn. Như đã thảo luận, Transformer tiêu chuẩn có hạn chế
về độ phức tạp (quadratic) và context length. Các nghiên cứu đang phát triển
mô hình thay thế attention: ví dụ Performer, Linformer,
FlashAttention để giảm độ phức tạp, hoặc Reformer, RETRO kết hợp
memory. Google DeepMind gợi ý rằng đột phá tiếp theo sẽ từ kiến trúc mới
thay vì chỉ tăng tham số[59]. Chẳng hạn, mô hình RCT (Repeating Cross-Transformer) gần
đây cho phép xử lý chuỗi rất dài bằng cách lặp khối cross-attention trên
đoạn context khác nhau. Cũng có xu hướng dùng mixture-of-experts (MoE)
trong đó chỉ một phần model kích hoạt cho mỗi modal, giảm chi phí tính
toán[10]. Về dữ liệu, thay vì tăng mô hình, nhiều nhóm tập trung tăng
chất lượng và đa dạng dữ liệu để mô hình nhỏ cũng học tốt[60]. Ngoài ra, Retrieval-Augmented Generation (RAG) cũng đang
được áp dụng trong đa modal[61]: mô hình sẽ truy vấn một bộ nhớ ngoài hoặc công cụ tìm kiếm
để lấy thông tin cần, thay vì lưu trữ mọi kiến thức trong tham số. Điều
này đặc biệt hữu ích khi trả lời câu hỏi kiến thức hình ảnh – ví dụ, mô
hình nhìn bức tranh, có thể tìm trong bộ nhớ xem đó là tranh của hoạ sĩ
nào rồi trả lời. RAG giúp mô hình linh hoạt xử lý thông tin ngoài
training set và giảm độ phức tạp của mô hình chính.
- Nâng cao khả năng suy luận và tương tác đa modal: Xu hướng cuối cùng là tập trung vào các kỹ thuật huấn luyện để
nâng tầm tư duy của MLLM. Một số hướng gồm:
·
Multimodal Chain-of-Thought: hướng dẫn mô hình nghĩ thành nhiều bước khi trả lời câu hỏi đa modal,
giống như CoT trong NLP nhưng có thêm bước mô tả ảnh. Ví dụ: mô hình sẽ tự sinh
ra “Tôi thấy: ảnh có một người…, Câu hỏi hỏi về…, có thể trả lời là…” rồi mới
trả lời cuối. Điều này nhằm cải thiện tính logic.
·
Multimodal Program Synthesis: đại diện như ViperGPT (2023) – mô hình sinh ra code Python để xử
lý ảnh (ví dụ đếm đồ vật trong ảnh bằng cách gọi thư viện) rồi dựa trên kết quả
chạy code để trả lời. Cách này kết hợp LLM với các công cụ thị giác để
tăng độ chính xác.
·
Giao tiếp đa modal người-máy tự
nhiên hơn: ví dụ, nghiên cứu cách cho mô hình hỏi
ngược người dùng khi ảnh chưa rõ hoặc thiếu thông tin, thay vì trả lời bừa.
Điều này hướng tới hội thoại đa modal chủ động hai chiều.
- Đa modal sáng tạo (generative art and design): tích hợp LLM với mô hình sinh ảnh (như Stable Diffusion) để cho
ra hệ thống có thể tiếp nhận văn bản + phác hoạ nháp và tạo ra hình ảnh
hoàn chỉnh. Microsoft đã thử nghiệm Visual ChatGPT: ChatGPT sẽ
tự quyết định khi nào gọi mô hình vẽ tranh để sinh ảnh theo yêu cầu[45]. Tương lai có thể có nhiều hệ thống tạo nội dung đa phương thức
(ví dụ sinh video ngắn từ kịch bản do LLM nghĩ ra).
- Ứng dụng chuyên biệt và đa modal trong lĩnh vực dọc: Cuối cùng, nhiều xu hướng nghiên cứu gắn với ứng dụng
domain-specific. Thay vì mô hình đa modal tổng quát, người ta xây dựng
mô hình đa modal cho từng ngành:
·
Trong y tế: kết hợp ảnh y khoa
(X-quang, MRI) với hồ sơ văn bản để hỗ trợ chẩn đoán. Thí dụ CONCH (2023)
– mô hình đọc ảnh giải phẫu bệnh và truy vấn kiến thức y khoa kèm ChatGPT[62].
·
Trong hóa học/sinh học: GITMol
– mô hình đa modal tích hợp công thức hóa học (văn bản), cấu trúc phân tử
(hình ảnh/đồ thị) để dự đoán tính chất hóa học[63].
·
Trong giáo dục: trợ lý AI vừa nhìn
bài làm của học sinh (ví dụ ảnh chụp bài toán), vừa đọc câu trả lời để đánh
giá và giải thích.
·
Trong sáng tạo nội dung: AI có thể
xem bản thiết kế đồ họa và hiểu chú thích, từ đó hỗ trợ người thiết kế
chỉnh sửa nhanh.
Những hướng ứng dụng này thường yêu cầu tích hợp thêm kiến thức chuyên ngành và
có thể đòi hỏi mô hình nhỏ gọn, tối ưu riêng. Đây là mảnh đất cho các mô
hình đa modal mã nguồn mở và mô hình nhỏ vì chúng dễ được tùy biến cho
domain hơn.
Tóm
lại, tương lai của mô hình ngôn ngữ đa phương thức rất
rộng mở. Các “ông lớn” như OpenAI, Google, Microsoft cùng cộng đồng học thuật
đang thúc đẩy ranh giới của AI đa modal qua những kiến trúc mới, cách huấn
luyện mới và ứng dụng mới[61][64].
Chúng ta có thể kỳ vọng trong vài năm tới sẽ xuất hiện những hệ thống AI có khả
năng hiểu biết thế giới như con người: nhìn, nghe, đọc, và hành động thống
nhất, đồng thời học hỏi liên tục để ngày càng thông minh và hữu ích hơn. Những
tiến bộ này hứa hẹn định hình lại cách con người tương tác với máy móc,
từ các chatbot trực quan sinh động hơn đến robot thông minh an toàn hơn, góp phần
đưa AI trở nên gần gũi và mạnh mẽ trong đời sống hàng ngày.
Tài liệu tham khảo: (Các nguồn thông tin và
số liệu trong báo cáo được tổng hợp từ các tài liệu học thuật và báo cáo kỹ thuật
mới nhất, tiêu biểu là bài viết “What is a Multimodal LLM?” (IBM, 2025)[1][2],
các báo cáo ArXiv gần đây về MLLM[3][54],
cùng các bài blog phân tích của chuyên gia trong lĩnh vực.)[1][2]
[1] [2] [8] [9] [12] [13] [14] [15] [16] [17] [18] [19] [36] [37] [38] [39] [40] [41] [42] [43] [44] [45] [46] [47] [48] [49] [50] [51] [52] [53] [59] [60] [61] [62] [63] [64] What is a Multimodal LLM (MLLM)? | IBM
https://www.ibm.com/think/topics/multimodal-llm
[3] [33] A Comprehensive Review of Multimodal Large Language Models:
Performance and Challenges Across Different Tasks
https://arxiv.org/html/2408.01319v1
[4] [10] [11] Beyond Multi-Tower Approaches: Unified Cross-Modal Attention
Mechanisms for Multimodal Foundation Models by Kalyan Chakravarthy Kodela
:: SSRN
https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5360155
[5] [6] [32] PaLI: A Jointly-Scaled Multilingual Language-Image Model
https://research.google/pubs/pali-a-jointly-scaled-multilingual-language-image-model/
[7] [20] [21] Tackling multiple tasks with a single visual language model - Google
DeepMind
https://deepmind.google/discover/blog/tackling-multiple-tasks-with-a-single-visual-language-model/
[22] GPT-4 | OpenAI
https://openai.com/index/gpt-4-research/
[23] GPT-4 Vision: Multi-Modal Evolution of ChatGPT and Potential Role ...
https://pmc.ncbi.nlm.nih.gov/articles/PMC11441350/
[24] [25] [26] [27] [28] [29] Introducing Gemini: Google’s most capable AI model yet
https://blog.google/technology/ai/google-gemini-ai/
[30] Microsoft unveils AI model that understands image content, solves ...
[31] Kosmos-2: Grounding Multimodal Large Language Models to the ...
[34] [35] LLaVA: Large Language and Vision Assistant - Microsoft Research
https://www.microsoft.com/en-us/research/project/llava-large-language-and-vision-assistant/
[54] [55] [56] [2405.10255] When LLMs step into the 3D World: A Survey and
Meta-Analysis of 3D Tasks via Multi-modal Large Language Models
https://arxiv.org/abs/2405.10255
[57] 3D-LLM: Injecting the 3D World into Large Language Models
https://nips.cc/virtual/2023/poster/71298
[58] 3D-LLM: Integrate 3D World Into Language Models - Synced Review
https://syncedreview.com/2023/08/02/3d-llm-integrate-3d-world-into-language-models/
Nhận xét
Đăng nhận xét