2026-04-06
湖人队记披露东契奇康复细节,詹姆斯面临职业生涯最大转型考验,战术专家解析无星体系下的破局之道,附加赛成最后救命稻草 ... [详细]
|
4月30日,徽声在线科技频道独家获悉,DeepSeek正式发布技术白皮书《视觉原语驱动的认知推理架构(Thinking with Visual Primitives)》,首次完整披露其革命性识图系统的技术实现路径。这项突破性技术使模型具备类似人类的视觉指向能力,标志着多模态AI进入空间坐标推理新纪元。 该系统基于2840亿参数的混合架构模型构建,采用130亿活跃参数的动态推理引擎,以DeepSeek-V4-Flash作为基础框架。技术团队创新性地将视觉定位模块深度整合到语言模型核心,形成全球首个具备原生空间感知能力的认知系统。据内部人士透露,该技术将于Q3季度通过OTA升级方式推送至全量用户。 传统AI推理系统依赖纯文本思维链,而DeepSeek团队突破性地构建了双轨认知架构。系统工程师王伟解释道:"我们开发了空间坐标编码器,将视觉元素转化为带有三维坐标属性的认知单元,使模型能够同时处理语义逻辑和空间关系。"这种创新架构使模型在处理复杂场景时,推理准确率提升37%。 在实测演示中,当输入一张包含23个物体的混乱场景图时,系统能精准标注出用户指定的"红色圆柱体右侧的蓝色方块",并在后续问答中持续引用该空间锚点。这种持续追踪能力得益于团队研发的动态视觉记忆机制,可实时更新物体位置信息。 技术白皮书披露的动图演示显示,模型在解决迷宫问题时,会通过坐标点标记行进路径,并在遇到死胡同时自动回溯。这种类人推理模式使其在Topological-8基准测试中取得92.3分的成绩,超越GPT-5.4的85.7分和Claude-Sonnet-4.6的88.1分。 ▲多模态推理过程可视化演示 在视觉问答挑战赛中,该系统展现出惊人的空间理解能力。面对"图中有多少个金属物体位于窗户下方且不接触地板"这类复合条件问题,其回答准确率达到89.4%,较Gemini-3-Flash提升21个百分点。这得益于团队构建的4D空间关系图谱,可同时处理物体的材质、位置、接触状态等12维属性。 <实测数据显示,在处理1024×768分辨率图像时,系统内存占用较传统方案降低82%,推理能耗减少67%。这种轻量化设计使其可在移动端设备实现实时空间推理,为AR导航、智能医疗等场景奠定基础。 开源项目地址: https://github.com/deepseek-ai/Visual-Primitives-Engine 技术白皮书下载: https://github.com/deepseek-ai/Visual-Primitives-Engine/releases/download/v1.0/Technical_Report.pdf 一、破解自然语言的指代困境:视觉锚点重构认知范式 研究团队在论文中深入剖析了现有系统的认知局限。传统模型在处理"左侧第三个物体"这类指令时,需通过滑动窗口遍历整个图像,导致计算复杂度呈指数级增长。DeepSeek提出的视觉原语理论,将空间坐标转化为认知基元,使模型能够直接操作空间关系而非像素矩阵。 在密集物体计数任务中,新系统展现出卓越的抗干扰能力。测试数据显示,当场景中存在50个相似物体时,其计数误差率仅为1.2%,而传统模型在相同条件下的误差率高达18.7%。这得益于团队开发的渐进式验证机制,模型会先框选所有候选对象,再通过特征匹配进行二次确认。 针对自然语言的模糊性,系统内置了指代消解引擎。当检测到"那个东西"等不确定表述时,会自动触发多模态交互流程,通过追问"您指的是蓝色包装的还是透明包装的?"来澄清意图。这种主动澄清机制使复杂场景下的任务完成率提升41%。 在拓扑推理测试中,系统展现出惊人的空间想象力。面对需要理解物体间遮挡关系的任务,其推理准确率达到88.6%,较Qwen3-VL提升29个百分点。这得益于团队构建的4D空间模型,可同时处理物体的三维坐标和时间维度变化。 架构创新方面,系统采用三明治式设计:底层是DeepSeek-ViT视觉编码器,中间层是空间关系推理引擎,顶层是自然语言生成模块。这种解耦设计使各组件可独立优化,研发效率提升3倍。特别值得关注的是空间关系引擎,其内置的几何代数模块可处理旋转、缩放等空间变换运算。 在数据构建方面,团队开发了自动化标注流水线。通过计算机视觉算法预标注后,再经人工校验确保数据质量。最终构建的4200万样本数据集包含87种空间关系类型,覆盖从简单定位到复杂拓扑的全场景需求。这种高质量数据使模型在冷启动阶段就具备强大的空间推理能力。 二、四阶训练体系:从空间感知到认知跃迁 为使模型真正掌握空间推理能力,团队设计了四阶段训练方案。在基础定位阶段,模型需在10万张合成图像中学习物体检测,掌握基本的框选能力。随后进入空间关系学习阶段,通过200万组对比数据理解上下、前后等基础方位。 第三阶段是复杂场景训练,模型需处理包含30个以上物体的真实场景,学习在干扰信息中提取关键空间关系。最终阶段是认知迁移训练,通过强化学习让模型自主发现最优推理路径。这种渐进式训练使模型的空间IQ从92提升至137(成人平均为100)。 在计数任务训练中,系统采用分治策略教学。首先学习批量框选所有目标,再通过特征聚类进行分组验证。这种教学方法使模型在处理100个以上物体的场景时,仍能保持95%以上的准确率。测试数据显示,其计数速度达到每秒28个物体,较传统方法提升5倍。 迷宫导航训练则引入了生存压力机制。模型每走错一步都会扣除奖励值,撞墙则直接终止当前回合。这种严苛的训练条件使模型学会谨慎规划路径,在复杂迷宫中的通关率达到91.3%,较基线模型提升34个百分点。特别值得关注的是,模型在训练过程中自主发现了"右手定则"等导航策略。 ▲迷宫导航训练数据示例 路径追踪训练采用动态难度调整机制。系统会根据模型表现实时增加障碍物密度和移动速度,确保训练强度始终处于模型能力边界。经过300万回合训练后,模型在动态场景中的追踪准确率达到87.6%,较初始状态提升52个百分点。 在强化学习阶段,团队创新性地提出稠密奖励模型。将任务分解为20个子目标,每个步骤的完成质量都会影响最终奖励。这种设计使模型必须认真对待每个推理环节,无法通过投机取巧获得高分。测试显示,稠密奖励机制使模型的策略收敛速度提升3倍。 三、视觉编码革命:7000倍压缩背后的技术突破 为实现高效空间推理,团队重构了视觉编码体系。传统方法将图像转化为数千个视觉标记,而DeepSeek方案通过三级压缩将其降至88个。首席工程师张磊解释:"我们开发了空间注意力聚合层,可将相邻标记的语义信息进行融合,在保持信息量的同时大幅减少计算量。" 在迷宫任务测试中,压缩后的视觉表示仍能保留98.7%的关键信息。这得益于团队提出的语义保持压缩算法,通过特征重要性评估确保关键信息不被丢失。实测显示,即使将压缩比提升至10000倍,模型仍能保持85%以上的任务完成率。 为验证压缩效果,团队进行了消融实验。当关闭空间压缩模块时,模型在720P图像上的推理延迟从87ms飙升至512ms,内存占用增加3.2倍。这充分证明三级压缩方案在保持性能的同时,实现了计算效率的质的飞跃。 在专家模型融合方面,团队采用渐进式蒸馏技术。先分别训练框定位专家和点指向专家,再通过动态权重调整实现能力融合。这种设计使融合后的模型在两项任务上的表现均超过单个专家,F1分数分别提升8.2%和11.7%。 特别值得关注的是稀疏注意力机制的创新。团队将传统密集注意力改为块稀疏模式,使计算复杂度从O(n²)降至O(n log n)。在处理1024个视觉标记时,这种优化使GPU利用率从48%提升至89%,推理速度提升2.3倍。 在视觉编码器选择上,团队经过对比实验发现,ViT-XL架构在空间关系建模方面表现最优。其自注意力机制能够捕捉长距离依赖关系,特别适合处理复杂场景。通过优化位置编码方案,使模型能够理解绝对位置和相对位置关系,空间推理准确率提升19%。 以756×756分辨率图像为例,传统方法需要处理2916个patch标记,而DeepSeek方案通过14×14分块、3×3空间压缩和4倍稀疏化,最终仅保留81个视觉KV条目。这种7056倍的压缩比使模型能够在移动端设备实现实时推理,为边缘计算场景开辟新可能。 在抗干扰能力测试中,系统展现出惊人的鲁棒性。当输入图像存在20%的遮挡时,其推理准确率仅下降3.7%,而传统模型在相同条件下的准确率下降28.4%。这得益于团队开发的多尺度特征融合机制,可同时利用局部细节和全局上下文进行推理。 结语:通往通用人工智能的新路径 研究团队在报告中也坦诚指出当前技术的局限性。在处理动态场景时,模型的时空预测能力仍有待提升;对于抽象空间关系的理解,如"A在B的东北方向且两者之间有障碍物",准确率仅为76.3%。这些边界将成为下一阶段的研究重点。 尽管如此,这项突破仍为多模态AI发展指明新方向。通过将空间坐标转化为认知基元,模型获得了类似人类的视觉指向能力,这被认为是通往系统2级认知的重要里程碑。随着视觉推理能力的不断提升,AI系统将能够处理更复杂的现实世界任务,从自动驾驶到智能医疗都将因此受益。 正如论文结尾所写:"当AI能够像人类一样用手指向物体并解释其空间关系时,我们离真正的智能理解又近了一步。"这项技术不仅重新定义了多模态推理的标准,更为通用人工智能的发展开辟了新的可能性空间。 |
苹果公司或将在地图应用中引入搜索广告引关注
Sora项目搁浅,OpenAI战略转向AI新领域 2026-04-06
湖人队记披露东契奇康复细节,詹姆斯面临职业生涯最大转型考验,战术专家解析无星体系下的破局之道,附加赛成最后救命稻草 ... [详细]
2026-04-03
徽声在线获悉,巴萨新星亚马尔续约后年薪达1600万欧,合同设置进球数、出场率等绩效条款,全部达成可获千万欧奖金,总薪资有望突破2600万欧。 ... [详细]
2026-03-27
NBA西部季后赛首轮对阵初露端倪,四组恩怨对决看点十足。雷霆勇士王朝旧怨重逢,马刺快船新老核心碰撞,湖人火箭老牌豪门对决,掘金森林狼季后赛恩怨重演。哪组对决最让你期待? ... [详细]
2026-04-18
北京时间4月15日,东部第九的黄蜂坐镇主场迎战第十的热火,这场比赛规则是一场定胜负,取胜的一方再战东部第七和第八之间的负者争夺一张季后赛门票。此役全场跌宕起伏、逆转、绝 ... [详细]
2026-03-27
世界杯欧洲区附加赛爆出大冷门,威尔士120分钟1-1战平波黑后点球告负,40岁老将哲科头球绝平成关键先生。 ... [详细]
啥病人看了这个都得好啊! 副标题 这胸是真的! 副标题 你赢了! 副标题 我是关心这是在哪里
乞丐装的最新境界! 副标题 买家你确定你不是阿宝?? 副标题 这裤子不敢坐下啊! 副标题 颜值
这鼠标垫你看到了什么?邪恶了吧! 副标题 毫无违和感! 副标题 小卖部的这女孩真会选呀! 副
女人真的不容易,怀孕后,内脏被挤压的严重,挺着大肚子干啥都不方便!近日,刘嘉姵和闺蜜集体拍
锤哥的替身也是辣么的帅气! 副标题 锤哥的替身好多啊! 副标题 你杀了你的替身,你可就没替
说起变性人,很多人都会想到泰国人妖,其实不光是在泰国,其他国家也有不少变性人,据资料表明
倪景阳于1979年4月11日出生于黑龙江省, 2001年时因在电视剧《老爸向前冲》中饰演乐乐一
位于北京中轴线上的故宫是我国的文化瑰宝,也是世界五大宫之首。几百年前,这座皇宫还是只