Sorry, you have Javascript Disabled! To see this page as it is meant to appear, please enable your Javascript!

可将任意大模型实现多模态，苹果开源4M

发表评论
66,013 views

A+

所属分类：产业区块链

原文来源：AIGC开放社区

可将任意大模型实现多模态，苹果开源4M

图片来源：由无界 AI生成

随着ChatGPT等模型被广泛应用，用户对功能的需求也呈多模态发展，例如，在单一模型上既能生成文本也可以生成图片等。

但现有视觉模型通常仅针对单一模态和任务进行优化,缺乏能够处理多种模态和任务的通用能力。

为了解决这一难题，苹果的研究人员和全球著名公立大学EPFL（瑞士洛桑联邦理工学院）联合开发了4M框架并即将开源。4M可以把多种输入/输出模态，包括文本、图像、几何、语义模态以及神经网络特征图等，全部集成在大模型中（适用于Transformer架构）。

项目地址：https://4m.epfl.ch/

论文地址：https://arxiv.org/abs/2312.06647

可将任意大模型实现多模态，苹果开源4M

4M技术原理简单介绍

相比以往单一模态下的深度学习方法,4M最大的技术亮点在于使用了一种名为"Massively Multimodal Masked Modeling"(大规模多模态屏蔽建模)的训练方法。

可以同时处理图像、语义、几何等各类视觉模态,将影像、字幕、框架信息等，都能以离散 tokens 的形式完美“翻译”出来,实现各模态在表示空间上的统一。

为确保tokens之间协调一致,4M还在注意力机制中加入模态区分,禁止不同模态之间互相影响。同时4M训练采用掩码重建目标,实际上相当于进行模态间的预测编码。

可将任意大模型实现多模态，苹果开源4M

在训练过程中，模型会随机选择一小部分标记作为输入，另一小部分标记作为目标，通过解耦输入和目标标记的数量与模态数量的关系，实现了可扩展的训练目标。

简单来说，无论用户输入的内容是图片还是文本,对于4M来说都是一串标准化的数字标记。这种“通用语言”设计有效阻断了各模态特有信息对模型架构的影响,极大提升了模型的通用性。

训练数据和方法

4M将在训练过程中使用了全球最大的开源数据集之一CC12M，包含图像、深度图、语义信息、文本等各类数据集。

虽然CC12M的数据很多，但缺乏准确的标注信息。为了解决这个难题，研究人员使用了一种高效、成本又低的方法——弱监督伪标签。这个与前几天OpenAI开源的超级对齐方法很相似。

可将任意大模型实现多模态，苹果开源4M

通过利用CLIP、MaskRCNN等技术,对CC12M的图像数据集进行全面预测,然后得到语义、几何及视觉特征等丰富模态信息。

再使用转换“翻译”模块将所有伪标签信息，统一转化为离散表示的“tokens”。这为4M在不同模态之间实现统一的兼容奠定基础。

研究人员在广泛的实验和基准测试平台中对4M进行了测试，可以直接执行多模态任务，而无需进行大量的特定任务预训练或微调。

免责声明

免责声明：

本文不代表知点网立场，且不构成投资建议，请谨慎对待。用户由此造成的损失由用户自行承担，与知点网没有任何关系；

知点网不对网站所发布内容的准确性，真实性等任何方面做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，知点网对项目的真实性，准确性等任何方面均不做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，知点网不对其构成任何投资建议，用户由此造成的损失由用户自行承担，与知点网没有任何关系；

知点区块链研究院声明：知点区块链研究院内容由知点网发布，部分来源于互联网和行业分析师投稿收录，内容为知点区块链研究院加盟专职分析师独立观点，不代表知点网立场。

我的微信
这是我的微信扫一扫

我的电报
这是我的电报扫一扫

版权声明：本站原创文章，于2023年12月19日15:47:14，由知点发表，共 1432 字。
转载请注明：可将任意大模型实现多模态，苹果开源4M - 知点网

发表评论取消回复

您必须登录才能发表评论！

文章目录
繁