不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

1天前

近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比 …

快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

快手可灵团队提出MIDAS:压缩比64倍、延迟低于500ms,多模态互动数字人框架实现交互生成新突破

1个月前

数字人视频生成技术正迅速成为增强人机交互体验的核心手段之一。然而,现有方法在实现低延迟、多模态控制与长时序一致性方面仍存在显著挑战。大多数系统要么计算开销巨大,无法实时响应,要么只能处理单一模态输入, …

arXiv|南京大学符天凡等:用于化学的3D多模态大语言模型Chem3DLLM

arXiv|南京大学符天凡等:用于化学的3D多模态大语言模型Chem3DLLM

1个月前

与一维的SMILES序列和二维的分子图相比,三维分子提供了更丰富的模态信息。尽管自回归语言模型取得了快速进展,但它们仍然无法处理三维分子构象的生成,原因在于以下挑战:1)三维分子结构与大语言模型(LL …

商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁

商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁

3个月前

多模态信息感知与处理的能力,是AGI的核心要求,也是从语言模型迈向AGI的必由之路。 从多模态感知、推理,再到交互,多模态智能的演进将驱动AI下一阶段的发展。 2025年7月27日,由全国工商联人工智 …

2025人工智能十大趋势

2025人工智能十大趋势

3个月前

关于报告的所有内容,公众『行业报告智库』阅读原文或点击菜单获取报告下载查看。 AI正以前所未有的速度改变着我们的生活和工作方式。2025年,AI领域迎来了十大关键趋势,这些趋势不仅展示了技术的进步,更 …

深度图学习整合多模态脑网络以确定重度抑郁症的治疗预测性特征(含代码)

深度图学习整合多模态脑网络以确定重度抑郁症的治疗预测性特征(含代码)

3个月前

     重度抑郁症(MDD)治疗反应率低,造成了巨大的健康负担。由于MDD的神经病理学复杂多样,预测抗抑郁药的疗效具有挑战性。识别抗抑郁治疗的生物标志物需要对临床试验数据进行透彻分析。多模态神经影像 …

2025年中国大模型落地应用研究报告

2025年中国大模型落地应用研究报告

4个月前

关于报告的所有内容,公众『行业报告智库』阅读原文或点击菜单获取报告下载查看。 自2017年以来,大模型技术经历了多个关键发展阶段。2017至2021年是算法奠基期,以Transformer为代表的神经 …

徐英瑾 | 日常伦理规范性的哲学根基 ——

徐英瑾 | 日常伦理规范性的哲学根基 ——

4个月前

打开今日头条查看图片详情 打开今日头条查看图片详情 上海市社会科学界联合会主管主办 摘要: 所谓的“日常伦理规范”,无非“不得偷盗”“不得杀人”“必须照顾老幼”之类的世界各民族都承认的最基本的伦理规范 …

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

5个月前

机器之心报道 编辑:泽南、Panda 让大模型进入多模态模式,从而能够有效感知世界,是最近 AI 领域里人们一直的探索目标。 目前我们见到的很多多模态大模型应用是「组合式」的:其中集成了数个单独预训练 …

解码智能推荐:多模态大模型在网易云音乐的创新应用

解码智能推荐:多模态大模型在网易云音乐的创新应用

1年前

主要包括以下几大部分: 1. 背景介绍 2. 整体架构 3. 技术方案 4. LLM 助力音乐推荐业务 5. 未来展望 分享嘉宾|潘一飞 网易云音乐科技有限公司 资深算法工程师 编辑整理|苏磊 内容校 …