字节跳动与浙大联合推多模态大语言模型 Vista-LLaMA，可解读视频内容

发表评论
31 views

A+

据站长之家 1 月 8 日报道，字节跳动与浙江大学合作推出了多模态大语言模型 Vista-LLaMA，该模型专为视频内容理解而设计，能够输出高质量视频描述。通过创新的视觉与语言 token 处理方式，Vista-LLaMA 解决了在视频内容中出现“幻觉”现象的问题。

Vista-LLaMA 在多个开放式视频问答基准测试中表现卓越，尤其在 NExT-QA 和 MSRVTT-QA 测试中取得了突破性成绩。其在零样本 NExT-QA 测试中实现了 60.7% 的准确率，在 MSRVTT-QA 测试中达到了 60.5% 的准确率，超过了目前所有的 SOTA 方法。这些结果证明了 Vista-LLaMA 在视频内容理解和描述生成方面的高效性和精准性。

免责声明

免责声明：

本文不代表知点网立场，且不构成投资建议，请谨慎对待。用户由此造成的损失由用户自行承担，与知点网没有任何关系；

知点网不对网站所发布内容的准确性，真实性等任何方面做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，知点网对项目的真实性，准确性等任何方面均不做任何形式的承诺和保障；

网站内所有涉及到的区块链（衍生）项目，知点网不对其构成任何投资建议，用户由此造成的损失由用户自行承担，与知点网没有任何关系；

知点区块链研究院声明：知点区块链研究院内容由知点网发布，部分来源于互联网和行业分析师投稿收录，内容为知点区块链研究院加盟专职分析师独立观点，不代表知点网立场。