苹果AI团队发布新模型Depth Pro,能快速从2D图像推理生成3D深度图像

  • A+
所属分类:元宇宙

chatGPT账号

近日,据海外媒体报道,苹果公司的人工智能研究团队发布了一款全新的模型Depth Pro,该模型能够在几分之一秒内从单个2D图像中生成详细的3D深度图像,从而无需依赖传统相机数据预测。

在研究论文中,研究人员提到这是单目深度估计(monocular depth estimation)领域的一次重大飞跃,单目深度估计是一种仅使用一张图像深度推测的过程。研究人员也认为,这是同类系统中最快,最准确的系统之一。

苹果AI团队发布新模型Depth Pro,能快速从2D图像推理生成3D深度图像

Depth Pro、Marigold、Depth Anything v2和Metric3D的深度图像生成比较。Depth Pro擅长捕捉皮毛和鸟笼线条等细节,仅需0.3秒就能生成清晰、高分辨率的深度图,在准确性和细节上优于其他模型。

单目深度估计一直是一项具有挑战性的任务,需要多个图像或像焦距这样的元数据来准确测量深度。

但Depth Pro绕过了这些要求,在标准GPU上仅需0.3秒即可生成高分辨率深度图。该模型可以创建225万像素的地图,具有出色的清晰度,甚至可以捕捉到其他方法经常忽略的微小细节,如头发和植被。

研究人员在论文中解释道,这些特征是由许多技术贡献实现的,包括用于密集预测的高效多尺度视觉transformer。这种结构使模型能够同时处理图像的整体背景和更精细的细节.与之前速度较慢、精度较低的模型相比,这是一个巨大的飞跃。

苹果AI团队发布新模型Depth Pro,能快速从2D图像推理生成3D深度图像

真正让Depth Pro与众不同的是它能够估计相对和绝对深度,这种能力被称为“度量深度”(metric depth)。这意味着该模型可以提供真实世界的测量,这对于增强现实(AR)等应用至关重要,虚拟对象需要放置在物理空间中的精确位置。

而且Depth Pro不需要对特定领域的数据集进行广泛的训练就能做出准确的预测,这是一种被称为“zero-shot learning”的功能。这使得该模型具有很强的通用性。它可以应用于广泛的图像,而不需要深度估计模型中通常需要的相机特定数据。

研究人员称,Depth Pro在任意图像上生成具有绝对比例尺的深度图,而不需要诸如相机特性之类的元数据。从增强增强现实体验到提高自动驾驶汽车探测和导航障碍的能力,这种灵活性开辟了一个充满可能性的世界。

免责声明

免责声明:

本文不代表知点网立场,且不构成投资建议,请谨慎对待。用户由此造成的损失由用户自行承担,与知点网没有任何关系;

知点网不对网站所发布内容的准确性,真实性等任何方面做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,知点网对项目的真实性,准确性等任何方面均不做任何形式的承诺和保障;

网站内所有涉及到的区块链(衍生)项目,知点网不对其构成任何投资建议,用户由此造成的损失由用户自行承担,与知点网没有任何关系;

知点区块链研究院声明:知点区块链研究院内容由知点网发布,部分来源于互联网和行业分析师投稿收录,内容为知点区块链研究院加盟专职分析师独立观点,不代表知点网立场。

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的电报
  • 这是我的电报扫一扫
  • weinxin
chatGPT账号
知点

发表评论

您必须登录才能发表评论!