查看“︁多模态学习”︁的源代码

{{noteTA|G1=IT}}
{{proofreader needed|1=en}}
{{机器学习导航栏}}

'''多模态学习'''是一种[[深度学习]]方法。它整合和处理多种类型的数据，例如文本、音频、图像或视频。这些不同类型的数据叫做模态。这种整合能够更全面地理解复杂数据，从而提高模型在视觉问答、跨模态检索<ref>{{Cite arXiv |arxiv=2112.11294 |class=cs.CV |first=Mariya |last=Hendriksen |first2=Maurits |last2=Bleeker |title=Extending CLIP for Category-to-image Retrieval in E-commerce |date=2021}}</ref>、文本到图像生成<ref name="stable-diffusion-github">{{Cite web |title=Stable Diffusion Repository on GitHub |url=https://github.com/CompVis/stable-diffusion |date=17 September 2022 |url-status=live |archive-url=https://web.archive.org/web/20230118183342/https://github.com/CompVis/stable-diffusion |archive-date=January 18, 2023 |access-date=17 September 2022 |publisher=CompVis - Machine Vision and Learning Research Group, LMU Munich}}</ref>、美学排名<ref>{{Citation|title=LAION-AI/aesthetic-predictor|date=2024-09-06|url=https://github.com/LAION-AI/aesthetic-predictor|access-date=2024-09-08|publisher=LAION AI|archive-date=2024-11-25|archive-url=https://web.archive.org/web/20241125084307/https://github.com/LAION-AI/aesthetic-predictor|dead-url=no}}</ref>和图像字幕<ref>{{Cite arXiv |arxiv=2111.09734 |class=cs.CV |first=Ron |last=Mokady |first2=Amir |last2=Hertz |title=ClipCap: CLIP Prefix for Image Captioning |date=2021}}</ref>等任务中的性能。 

2023年以来，多模态[[大型语言模型]]（例如[[Gemini (聊天機器人)|Google Gemini]]和[[GPT-4o]]）越来越受欢迎。它们能够提高多功能性并更广泛地理解现实世界中的现象<ref>{{Cite web |title=Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024 |url=https://www.unite.ai/unveiling-of-large-multimodal-models-shaping-the-landscape-of-language-models-in-2024/ |website=Unite.ai |date=January 8, 2024 |last=Zia |first=Tehseen |access-date=2024-06-01 |archive-date=2024-12-04 |archive-url=https://web.archive.org/web/20241204224232/https://www.unite.ai/unveiling-of-large-multimodal-models-shaping-the-landscape-of-language-models-in-2024/ |dead-url=no }}</ref>。

== 动机 ==

数据通常具有不同的模态，这些模态携带着不同的信息。例如，一张图像可能有说明文字，这些说明文字可以传达图像本身未呈现的信息。同样，有时用图像来描述文本中可能不明显的信息会更加直观。因此，如果相似的图像中出现了不同的文字，那么这些文字很可能描述的是同一事物。反之，如果一个单词被用来描述看似不同的图像，那么这些图像可能代表的是同一个对象。

因此，在处理多模态数据的情况下，为了从这些模态中捕捉到综合的信息，让模型具有能够处理不同模态信息的能力是非常重要的。

== 多模态Transformer模型 ==

[[Transformer模型]]除了被用于经典的[[自然语言处理]]外，还可以被用于除去文本以外的其他模态（输入或输出）。为了达到这一目的，需要对这些除去文本以外的模态进行[[词法分析#标记生成器|标记化]]。

多模态模型可以从零开始训练，也可以通过[[微调 (深度学习)|微调]]现有模型实现。一项2022年的研究指出，仅在自然语言上预训练的Transformer模型，通过微调仅0.03%的参数，就可以在多种逻辑和视觉任务上与[[长短期记忆]]模型竞争，展现出[[迁移学习]]的能力<ref>{{Cite journal |last1=Lu |first1=Kevin |last2=Grover |first2=Aditya |last3=Abbeel |first3=Pieter |last4=Mordatch |first4=Igor |date=2022-06-28 |title=Frozen Pretrained Transformers as Universal Computation Engines |url=https://ojs.aaai.org/index.php/AAAI/article/view/20729 |journal=Proceedings of the AAAI Conference on Artificial Intelligence |language=en |volume=36 |issue=7 |pages=7628–7636 |doi=10.1609/aaai.v36i7.20729 |issn=2374-3468 |doi-access=free |access-date=2024-12-07 |archive-date=2024-12-02 |archive-url=https://web.archive.org/web/20241202101515/https://ojs.aaai.org/index.php/AAAI/article/view/20729 |dead-url=no }}</ref>。例如，LLaVA是一个视觉-语言模型，由一个语言模型（Vicuna-13B）和一个视觉模型（ViT-L/14）组成，两者通过一个线性层连接。微调只针对这个线性层进行<ref>{{Cite journal |last1=Liu |first1=Haotian |last2=Li |first2=Chunyuan |last3=Wu |first3=Qingyang |last4=Lee |first4=Yong Jae |date=2023-12-15 |title=Visual Instruction Tuning |url=https://proceedings.neurips.cc/paper_files/paper/2023/hash/6dcf277ea32ce3288914faf369fe6de0-Abstract-Conference.html |journal=Advances in Neural Information Processing Systems |language=en |volume=36 |pages=34892–34916 |access-date=2024-12-07 |archive-date=2024-09-26 |archive-url=https://web.archive.org/web/20240926183648/https://proceedings.neurips.cc//paper_files/paper/2023/hash/6dcf277ea32ce3288914faf369fe6de0-Abstract-Conference.html |dead-url=no }}</ref>。

视觉Transformer模型通过将输入图像分解为一系列图像块，将其转化为向量，并像处理标准Transformer中的[[词法分析#标记|标记]]一样对待，从而适配[[计算机视觉]]任务。

Conformer和后来的Whisper模型在[[语音识别]]中遵循类似的模式，首先将语音信号转换为[[频谱图]]，然后将其视为图像，分解为一系列图像块，转化为向量，并像处理标准Transformer模型中的标记一样对待。

在图像生成领域，著名的的Transformer架构包括：DALL-E、Parti、Phenaki和Muse。其中，DALL-E 不是[[扩散模型]]（这与后来别的图像生成模型不同），而是使用一个仅包含解码器的Transformer模型，通过自回归方式生成文本，随后生成图像的标记表示，最后通过[[变分自编码器]]将标记表示转化为图像。Parti 是一个既有编码器又有解码器的Transformer模型，编码器处理文本提示，解码器生成图像的标记表示。Muse 是一个仅包含编码器的Transformer，训练目标是从未遮掩的图像标记中预测被遮掩的图像标记。在生成图像过程中，所有输入标记都被遮掩，每次迭代中加入置信度最高的预测值，直到所有标记都被预测完成。Phenaki 是一个文本生成视频模型，它是一个双向遮掩的Transformer，以预先计算的文本标记为条件进行生成。生成的标记随后被解码为视频。

=== 多模态大语言模型 ===
一种将大语言模型用于多模态模型的常见方法是对训练好的编码器的输出进行“标记化”。具体来说，可以构建一个能够理解图像的大语言模型，方法如下：使用一个训练好的大语言模型，并引入一个训练好的图像编码器 <math>E</math>。再使用一个小型[[多层感知机]] <math>f</math>，使得对于任意图像 <math>y</math>，经过后处理的向量 <math>f(E(y))</math> 具有与编码标记相同的维度，成为一个“图像标记”。随后，可以交替插入文本标记和图像标记。这个组合模型然后在图像-文本[[数据集]]上进行微调。此基础构造可以通过更复杂的方式进一步改进模型。在微调模型时，可以冻结图像编码器的参数以提高稳定性<ref>{{Cite arXiv |last1=Li |first1=Junnan |last2=Li |first2=Dongxu |last3=Savarese |first3=Silvio |last4=Hoi |first4=Steven |date=2023-01-01 |title=BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models |class=cs.CV |eprint=2301.12597 }}</ref>。

== 应用 ==
多模态机器学习在各个领域有着广泛的应用：

=== 跨模态检索 ===
跨模态检索允许用户跨不同模态搜索数据（例如，根据文本描述检索图像），从而改进多媒体搜索引擎和内容推荐系统。 CLIP（对比性语言-图像预训练）等模型通过将数据嵌入一个共享空间来实现高效、准确的检索，即使在零样本设置下也表现出强大的性能。 <ref>{{Cite arXiv |arxiv=2301.05174 |class=cs.CV |first=Mariya |last=Hendriksen |first2=Svitlana |last2=Vakulenko |title=Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study |date=2023}}</ref>

=== 图像生成 ===
像 [[DALL-E]] 这样的模型可以根据[[文本到图像生成模型|文本描述生成图像]]，而跨模态检索则可以实现动态多媒体搜索。 <ref>{{Cite arXiv |arxiv=1911.03393 |class=cs.LG |first=Yuge |last=Shi |first2=N. |last2=Siddharth |title=Variational Mixture-of-Experts Autoencoders for Multi-Modal Deep Generative Models |date=2019}}</ref>

== 参见 ==

* [[霍普菲尔德神经网络]]
* [[马尔可夫网络]]
* [[马尔可夫链蒙特卡洛|马尔可夫链蒙特卡罗]]
* [[大型语言模型]]
* [[文本到图像生成模型]]

== 参考资料 ==
{{reflist|2}}

{{生成式人工智能}}
[[Category:人工神经网络]]
[[Category:深度学习]]
[[Category:包含摘录的条目]]