腾讯AI实验室联合剑桥大学推出大语言模型PandaGPT:支持文本图像音频等跨模态能力

2025-04-24 来源|AI图库吧

AI奇点网6月6日报道丨6月2日,来自英国剑桥大学、日本奈良先端科学技术大学院大学、腾讯AI Lab的多位研究人员们在网上公开发布了通用指令跟随大模型PandaGPT(直译过来就是:熊猫GPT)。

据介绍,PandaGPT可以执行复杂的任务,如生成详细的图像描述、编写受视频启发的故事、回答有关音频的问题。PandaGPT可同时接受多模态输入,并自然地组合它们的语义。

PandaGPT在文本、图像/视频、音频、深度、热度(thermal)和IMU六种模态上展示了跨模态能力,但由于ImageBind提供的共享嵌入空间,它只能使用对齐的图像-文本对进行训练。研究人员希望PandaGPT可以作为构建通用人工智能(AGI)的第一步,它可以像人类一样全面地感知和理解不同形式的输入。

值得强调的是,目前的 PandaGPT 版本只使用了对齐的图像 - 文本数据进行训练,但是继承了 ImageBind 编码器的六种模态理解能力,具备在所有模态之间跨模态能力。在实验中,论文作者展示了 PandaGPT 对不同模态的理解能力,包括基于图像 / 视频的问答,基于图像 / 视频的创意写作,基于视觉和听觉信息的推理等等,下面其中一个例子,PandaGPT可以很好的接合图像+音频来判断一个事物:

最新
更多

腾讯AI实验室联合剑桥大学推出大语言模型PandaGPT:支持文本图像音频等跨模态能力

来自英国剑桥大学、日本奈良先端科学技术大学院大学、腾讯AI Lab的多位研究人员发布了通用指令跟随大模型PandaGPT。

抢占应用落地先机:360智脑大模型应用发布会将于6月13日举行

360智脑是一种自研的千亿参数大语言模型,在测评中体现出了认知智能通用大模型能力。落地应用已陆续成熟,预计很快开放内测。

最高1000万元奖励激励计划!成都市发布人工智能产业发展扶持政策

6月1日,成都市经济和信息化局发布通知,提交《成都市关于进一步促进人工智能产业高质量发展的若干政策措施》征求意见稿

周鸿祎谈AI带来的改变:人工智能将重塑一个360公司

周鸿祎也是对这次科技革命反应最快的大佬之一。他将大模型比喻成“发电”技术一般的技术革命。它的影响不亚于人类发明电灯、人类发明计算机。

AI监管权争夺战打响:英国渴望牵头建立全球人工智能数据安全监管中心

日前,英国首相苏纳克访美时就提及此议题,他与美国总统拜登就人工智能(AI)监管方面的问题展开了讨论。

智源大会产品之一“悟道·视界”:点亮国内绘画通用模型科技树

“悟道·视界”由悟道3 0的视觉大模型团队打造,是一套具备通用场景感知和复杂任务处理能力的智能视觉和多模态大模型系列。6项国际领先技术中,前5个是基础模型,最后1个是应用技术。

网站地图