a 当前位置：前瞻网 » 资讯 » 产经

全球首个！我国研发图文音三模态预训练模型

分享到：

Chloe Ma • 2021-07-09 16:53:40　来源：前瞻网　E9251G0

自GPT/Bert模型提出后，预训练模型迎来了爆发式发展。多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能的路径探索，其具有在无监督情况下自动学习不同任务、并快速迁移到不同领域数据的强大能力。

目前，已有的多模态预训练模型通常仅考虑两个模态（如图像和文本，或者视频和文本），忽视了周围环境中普遍存在的语音信息，并且模型极少兼具理解与生成能力，难以在生成任务与理解类任务中同时取得良好表现。

针对这些问题，中科院自动化所提出了全球首个图文音（视觉-文本-语音）三模态预训练模型（OPT-Omni-Perception pre-Trainer），同时具备跨模态理解与跨模态生成能力，取得了预训练模型突破性进展。

此次提出的视觉-文本-语音三模态预训练模型采用分别基于词条级别(Token-level)、模态级别(Modality-level)以及样本级别(Sample-level)的多层次、多任务子监督学习框架，更关注图-文-音三模态数据之间的关联特性以及跨模态转换问题，对更广泛、更多样的下游任务提供模型基础支撑。

该模型不仅可实现跨模态理解（比如图像识别、语音识别等任务），也能完成跨模态生成（比如从文本生成图像、从图像生成文本、语音生成图像等任务）。引入语音模态后的多模态预训练模型，可以突破性地直接实现三模态的统一表示，特别地首次实现了“以图生音”和“以音生图”。

在团队发布在arxiv的预印本上可以看到从文本生成图像成和文本生成的一些结果（包括图像：图像字幕，音频：音频识别，和两者：图像+音频的文本生成）第1栏显示的是真实图像，第2栏显示的是生成的图像。