Multimodal LLM
Mô hình Ngôn ngữ Đa phương thức (Multimodal LLM) Định nghĩa và mục tiêu của mô hình ngôn ngữ đa phương thức Mô hình ngôn ngữ đa phương thức (Multimodal LLM) là các mô hình AI có khả năng xử lý và tạo ra dữ liệu thuộc nhiều dạng (văn bản, hình ảnh, âm thanh, video, v.v.) chứ không chỉ ngôn ngữ tự nhiên đơn thuần. Khác với mô hình ngôn ngữ chỉ-text, MLLM có thể “hiểu” và “diễn đạt” thông tin từ nhiều nguồn giống cách con người tiếp nhận thế giới qua thị giác, thính giác và các giác quan khác [1] [2] . Mục tiêu của các MLLM là kết hợp các dòng dữ liệu khác nhau để tăng cường ngữ cảnh và khả năng suy luận , giúp mô hình thực hiện những nhiệm vụ phức tạp mà một modality đơn lẻ khó làm được. Ví dụ, MLLM có thể mô tả nội dung một bức ảnh bằng ngôn ngữ tự nhiên, trả lời câu hỏi về video, diễn giải biểu đồ trực quan, thực hiện nhận dạng ký tự quang học (OCR) hoặc tham gia hội thoại thời gian thực có cả hình ảnh lẫn giọng nói [1] . Việc tích hợp đa phương thức phản chiếu cách con người hiểu ...