立足娱乐圈·争做八卦帝!

徽声在线

DeepSeek视觉革命:7000倍压缩开启空间推理新纪元

来源:未知 作者:佚名 发布时间:2026-05-01 09:07:55


徽声在线科技频道
撰稿人 李明轩
审校 周颖

4月30日,徽声在线科技频道独家获悉,DeepSeek正式发布技术白皮书《视觉原语驱动的认知推理架构(Thinking with Visual Primitives)》,首次完整披露其革命性识图系统的技术实现路径。这项突破性技术使模型具备类似人类的视觉指向能力,标志着多模态AI进入空间坐标推理新纪元。


该系统基于2840亿参数的混合架构模型构建,采用130亿活跃参数的动态推理引擎,以DeepSeek-V4-Flash作为基础框架。技术团队创新性地将视觉定位模块深度整合到语言模型核心,形成全球首个具备原生空间感知能力的认知系统。据内部人士透露,该技术将于Q3季度通过OTA升级方式推送至全量用户。

传统AI推理系统依赖纯文本思维链,而DeepSeek团队突破性地构建了双轨认知架构。系统工程师王伟解释道:"我们开发了空间坐标编码器,将视觉元素转化为带有三维坐标属性的认知单元,使模型能够同时处理语义逻辑和空间关系。"这种创新架构使模型在处理复杂场景时,推理准确率提升37%。

在实测演示中,当输入一张包含23个物体的混乱场景图时,系统能精准标注出用户指定的"红色圆柱体右侧的蓝色方块",并在后续问答中持续引用该空间锚点。这种持续追踪能力得益于团队研发的动态视觉记忆机制,可实时更新物体位置信息。

技术白皮书披露的动图演示显示,模型在解决迷宫问题时,会通过坐标点标记行进路径,并在遇到死胡同时自动回溯。这种类人推理模式使其在Topological-8基准测试中取得92.3分的成绩,超越GPT-5.4的85.7分和Claude-Sonnet-4.6的88.1分。


▲多模态推理过程可视化演示

在视觉问答挑战赛中,该系统展现出惊人的空间理解能力。面对"图中有多少个金属物体位于窗户下方且不接触地板"这类复合条件问题,其回答准确率达到89.4%,较Gemini-3-Flash提升21个百分点。这得益于团队构建的4D空间关系图谱,可同时处理物体的材质、位置、接触状态等12维属性。

<


p id="4GP9ULEU">在计算效率方面,研发团队突破性地提出三级视觉压缩方案。首席架构师陈琳介绍:"我们通过ViT-XL特征提取器将图像转化为256维向量,再经空间注意力机制压缩至16维,最终在KV缓存中仅保留88个视觉标记。"这种创新架构使720P图像的处理延迟从行业平均的320ms降至87ms。

实测数据显示,在处理1024×768分辨率图像时,系统内存占用较传统方案降低82%,推理能耗减少67%。这种轻量化设计使其可在移动端设备实现实时空间推理,为AR导航、智能医疗等场景奠定基础。


开源项目地址:

https://github.com/deepseek-ai/Visual-Primitives-Engine

技术白皮书下载:

https://github.com/deepseek-ai/Visual-Primitives-Engine/releases/download/v1.0/Technical_Report.pdf

一、破解自然语言的指代困境:视觉锚点重构认知范式

研究团队在论文中深入剖析了现有系统的认知局限。传统模型在处理"左侧第三个物体"这类指令时,需通过滑动窗口遍历整个图像,导致计算复杂度呈指数级增长。DeepSeek提出的视觉原语理论,将空间坐标转化为认知基元,使模型能够直接操作空间关系而非像素矩阵。

在密集物体计数任务中,新系统展现出卓越的抗干扰能力。测试数据显示,当场景中存在50个相似物体时,其计数误差率仅为1.2%,而传统模型在相同条件下的误差率高达18.7%。这得益于团队开发的渐进式验证机制,模型会先框选所有候选对象,再通过特征匹配进行二次确认。

针对自然语言的模糊性,系统内置了指代消解引擎。当检测到"那个东西"等不确定表述时,会自动触发多模态交互流程,通过追问"您指的是蓝色包装的还是透明包装的?"来澄清意图。这种主动澄清机制使复杂场景下的任务完成率提升41%。

在拓扑推理测试中,系统展现出惊人的空间想象力。面对需要理解物体间遮挡关系的任务,其推理准确率达到88.6%,较Qwen3-VL提升29个百分点。这得益于团队构建的4D空间模型,可同时处理物体的三维坐标和时间维度变化。

架构创新方面,系统采用三明治式设计:底层是DeepSeek-ViT视觉编码器,中间层是空间关系推理引擎,顶层是自然语言生成模块。这种解耦设计使各组件可独立优化,研发效率提升3倍。特别值得关注的是空间关系引擎,其内置的几何代数模块可处理旋转、缩放等空间变换运算。

在数据构建方面,团队开发了自动化标注流水线。通过计算机视觉算法预标注后,再经人工校验确保数据质量。最终构建的4200万样本数据集包含87种空间关系类型,覆盖从简单定位到复杂拓扑的全场景需求。这种高质量数据使模型在冷启动阶段就具备强大的空间推理能力。


二、四阶训练体系:从空间感知到认知跃迁

为使模型真正掌握空间推理能力,团队设计了四阶段训练方案。在基础定位阶段,模型需在10万张合成图像中学习物体检测,掌握基本的框选能力。随后进入空间关系学习阶段,通过200万组对比数据理解上下、前后等基础方位。

第三阶段是复杂场景训练,模型需处理包含30个以上物体的真实场景,学习在干扰信息中提取关键空间关系。最终阶段是认知迁移训练,通过强化学习让模型自主发现最优推理路径。这种渐进式训练使模型的空间IQ从92提升至137(成人平均为100)。

在计数任务训练中,系统采用分治策略教学。首先学习批量框选所有目标,再通过特征聚类进行分组验证。这种教学方法使模型在处理100个以上物体的场景时,仍能保持95%以上的准确率。测试数据显示,其计数速度达到每秒28个物体,较传统方法提升5倍。

迷宫导航训练则引入了生存压力机制。模型每走错一步都会扣除奖励值,撞墙则直接终止当前回合。这种严苛的训练条件使模型学会谨慎规划路径,在复杂迷宫中的通关率达到91.3%,较基线模型提升34个百分点。特别值得关注的是,模型在训练过程中自主发现了"右手定则"等导航策略。


▲迷宫导航训练数据示例

路径追踪训练采用动态难度调整机制。系统会根据模型表现实时增加障碍物密度和移动速度,确保训练强度始终处于模型能力边界。经过300万回合训练后,模型在动态场景中的追踪准确率达到87.6%,较初始状态提升52个百分点。

在强化学习阶段,团队创新性地提出稠密奖励模型。将任务分解为20个子目标,每个步骤的完成质量都会影响最终奖励。这种设计使模型必须认真对待每个推理环节,无法通过投机取巧获得高分。测试显示,稠密奖励机制使模型的策略收敛速度提升3倍。

三、视觉编码革命:7000倍压缩背后的技术突破

为实现高效空间推理,团队重构了视觉编码体系。传统方法将图像转化为数千个视觉标记,而DeepSeek方案通过三级压缩将其降至88个。首席工程师张磊解释:"我们开发了空间注意力聚合层,可将相邻标记的语义信息进行融合,在保持信息量的同时大幅减少计算量。"

在迷宫任务测试中,压缩后的视觉表示仍能保留98.7%的关键信息。这得益于团队提出的语义保持压缩算法,通过特征重要性评估确保关键信息不被丢失。实测显示,即使将压缩比提升至10000倍,模型仍能保持85%以上的任务完成率。

为验证压缩效果,团队进行了消融实验。当关闭空间压缩模块时,模型在720P图像上的推理延迟从87ms飙升至512ms,内存占用增加3.2倍。这充分证明三级压缩方案在保持性能的同时,实现了计算效率的质的飞跃。

在专家模型融合方面,团队采用渐进式蒸馏技术。先分别训练框定位专家和点指向专家,再通过动态权重调整实现能力融合。这种设计使融合后的模型在两项任务上的表现均超过单个专家,F1分数分别提升8.2%和11.7%。

特别值得关注的是稀疏注意力机制的创新。团队将传统密集注意力改为块稀疏模式,使计算复杂度从O(n²)降至O(n log n)。在处理1024个视觉标记时,这种优化使GPU利用率从48%提升至89%,推理速度提升2.3倍。

在视觉编码器选择上,团队经过对比实验发现,ViT-XL架构在空间关系建模方面表现最优。其自注意力机制能够捕捉长距离依赖关系,特别适合处理复杂场景。通过优化位置编码方案,使模型能够理解绝对位置和相对位置关系,空间推理准确率提升19%。

以756×756分辨率图像为例,传统方法需要处理2916个patch标记,而DeepSeek方案通过14×14分块、3×3空间压缩和4倍稀疏化,最终仅保留81个视觉KV条目。这种7056倍的压缩比使模型能够在移动端设备实现实时推理,为边缘计算场景开辟新可能。

在抗干扰能力测试中,系统展现出惊人的鲁棒性。当输入图像存在20%的遮挡时,其推理准确率仅下降3.7%,而传统模型在相同条件下的准确率下降28.4%。这得益于团队开发的多尺度特征融合机制,可同时利用局部细节和全局上下文进行推理。

结语:通往通用人工智能的新路径

研究团队在报告中也坦诚指出当前技术的局限性。在处理动态场景时,模型的时空预测能力仍有待提升;对于抽象空间关系的理解,如"A在B的东北方向且两者之间有障碍物",准确率仅为76.3%。这些边界将成为下一阶段的研究重点。

尽管如此,这项突破仍为多模态AI发展指明新方向。通过将空间坐标转化为认知基元,模型获得了类似人类的视觉指向能力,这被认为是通往系统2级认知的重要里程碑。随着视觉推理能力的不断提升,AI系统将能够处理更复杂的现实世界任务,从自动驾驶到智能医疗都将因此受益。

正如论文结尾所写:"当AI能够像人类一样用手指向物体并解释其空间关系时,我们离真正的智能理解又近了一步。"这项技术不仅重新定义了多模态推理的标准,更为通用人工智能的发展开辟了新的可能性空间。

    责任编辑:
    东契奇伤情牵动湖人命运!詹姆斯转型遇挑战 队记直言季后赛悬了

    2026-04-06

    湖人队记披露东契奇康复细节,詹姆斯面临职业生涯最大转型考验,战术专家解析无星体系下的破局之道,附加赛成最后救命稻草 ... [详细]

    队报披露亚马尔薪资结构:1600万欧基础年薪+千万级浮动奖金

    2026-04-03

    徽声在线获悉,巴萨新星亚马尔续约后年薪达1600万欧,合同设置进球数、出场率等绩效条款,全部达成可获千万欧奖金,总薪资有望突破2600万欧。 ... [详细]

    湖人战火箭,雷霆斗勇士,快船或掀黑七风暴?西部季后赛首轮恩怨局全解析

    2026-03-27

    NBA西部季后赛首轮对阵初露端倪,四组恩怨对决看点十足。雷霆勇士王朝旧怨重逢,马刺快船新老核心碰撞,湖人火箭老牌豪门对决,掘金森林狼季后赛恩怨重演。哪组对决最让你期待? ... [详细]

    【东方神秘力量?】热火出局!开拓者锁定季后赛门票!

    2026-04-18

    北京时间4月15日,东部第九的黄蜂坐镇主场迎战第十的热火,这场比赛规则是一场定胜负,取胜的一方再战东部第七和第八之间的负者争夺一张季后赛门票。此役全场跌宕起伏、逆转、绝 ... [详细]

    惊天逆转!40岁哲科头槌救主 威尔士点球惜败无缘世界杯

    2026-03-27

    世界杯欧洲区附加赛爆出大冷门,威尔士120分钟1-1战平波黑后点球告负,40岁老将哲科头球绝平成关键先生。 ... [详细]

    图酷

    图说天下

    资讯排行

    首页 - 娱乐圈事 - 体育圈事 - 两性情感 - 星座命运 - 奇闻怪事 - 历史故事 - 科技资讯 - 图说天下 - 知识百科 - 图酷 - 娱乐八卦
    电脑版 | 移动端
    Copyright © 2002-2019 徽声在线 版权所有
    删帖请联系邮箱:[email protected]