探寻AI算力新出口：高额Token时代下的端侧智能破局之道

来源：未知作者：佚名发布时间：2026-06-12 12:22:57

6月1日，微软旗下的GitHub Copilot宣布了一项重大变革：全面废除原有的固定月费模式，转而采用基于Token实际用量的计费方式。这一变动，被业界广泛视为大模型行业“低价包月时代”落幕的标志性事件。

回顾过去两年，众多企业沉浸在大模型赋能业务、降低运营成本的乐观预期中，然而，在年度财务核算时，却遭遇了残酷的现实：AI相关支出不降反增。这一成本悖论的背后，是AI技术正从简单的“一问一答”交互模式，迅速迈向全天候自主规划、循环调用的智能体（Agent）时代。当智能体在后台默默执行全天候的屏幕监控、日志分析以及长文本轮询任务时，每一次自动化决策都伴随着千万级Token的高频消耗。

这场由技术进步引发的“推理成本危机”，正迫使大模型的落地应用进入一个新的思考阶段：当云端提供的无限智能变得难以承受其高昂费用时，企业究竟该何处寻找算力的“第二出口”？

一、告别“免费午餐”：AI从吞噬软件到吞噬预算

“市场对智能的需求近乎无限，但能源与算力将成为制约发展的真正瓶颈。”Coinbase首席执行官Brian Armstrong的这番言论，揭示了AI行业生产力逻辑的深刻转变。

行业已形成共识：过去，企业经营AI的重点在于训练端，追求的是参数的“涌现效应”；而据FinOps基金会最新发布的数据预测，到2026年，AI推理成本在企业AI总预算中的占比将超过八成。大模型正从“吞噬参数”的研发巨兽，转变为“吞噬预算”的推理猛虎。

Gartner高级分析师Arun Chandrasekaran在接受Business Insider采访时也直言不讳，GitHub Copilot的案例只是冰山一角。随着高级推理模型和智能体工作流的普及，AI已进入全天候运行状态。每一次自动化决策背后，都是千万级token的高频交互，这必然推动市场向更严格的按量计费模式转变。

在智能体时代，技术可行性不再是唯一追求，企业投资回报率（ROI）才是检验AI应用成效的真正标准。若推理成本无法得到有效控制，AI将难以真正融入企业经营的核心网络，成为推动业务发展的关键力量。

二、回归边缘：端侧智能或成未来主流

面对云端API的高昂费用，行业内的非共识正迅速凝聚成新的共识：即摆脱单一的云端中心化大模型依赖，转向更具弹性的分布式端侧算力。

斯坦福大学的研究数据显示，本地化小模型在真实对话与复杂推理查询中的准确率，已从两年前的低谷期大幅提升至目前的71.3%左右。同时，其运行能耗与单次推理成本也大幅下降。有业内专家预测，未来约八成的工作负载将迁移至本地化、开源且成本更低的小模型上，仅剩两成触及智能上限的极限任务才需调用前沿的云端API。

这种算力向端侧集中的趋势，实质上是企业在经济、安全与效率之间寻求新平衡的过程：在经济层面：它将不可控的“云端流量计费”转变为可预测的“本地硬件资产投入”，有效缓解了企业的Token账单压力；在安全层面：企业核心敏感数据与用户图形界面（GUI）交互流得以在终端本地处理，从物理层面降低了机密泄露的风险；在效率层面：它规避了网络延迟与带宽限制，使设备端能够实现毫秒级实时反馈。

英伟达首席执行官黄仁勋在GTC大会上也表达了类似观点，他认为数以亿计的智能体需要自主观察屏幕并理解图形界面，将这些高频运行的数字员工完全部署在云端在工程上并不现实，端侧基础设施正成为智能体规模化落地的理想选择。

走向端侧并非技术倒退，而是一场算力红利的物理级重新分配。企业通过布局端侧智能，正在将数字化成本从“变动费用”转变为“固定资产”。

三、从“模型压缩”到“智能买断”：基础设施层的自救之路

当前，全球科技力量正竞相将更强大的“大模型引擎”嵌入端侧设备。在海外，微软与芯片厂商携手推出Copilot+ PC标准，旨在端侧直接处理日常语义搜索与文本摘要任务；谷歌则通过Gemini Nano将轻量大模型直接集成至操作系统底层。而在国内，腾讯混元推出的极小端侧模型将内存占用压缩至600MB以内，智谱AI的端侧智能体产品也开始应用于智能座舱领域。

在这场将大模型“做小、嵌入设备”的激烈竞争中，徽声在线注意到，明略科技（2718.HK）则选择了一条面向基础设施层面的创新之路。明略科技创始人吴明辉曾提出行业洞察，他认为集中式路线（Scaling Up）将单个大模型做大正面临边际效应与成本的天花板，未来真正的解决方案在于分布式协同（Scaling Out）——让多个专精智能体在端侧与私有网络中进行网状协作。

基于这一技术判断，明略科技通过对硬件终端与端侧软件的闭环改造，提供了一种切实可行的解决方案。

首先是突破从“文本对话”到“视觉交互”的界限。真实办公场景中，图形界面（GUI）占据主导地位。明略科技开源自研的Mano-P是一款端侧视觉-语言-动作智能体模型，其轻量化版本能够以纯视觉方式直接理解并操作复杂桌面软件与网页系统。在Apple M5和M5 Pro芯片上的实测显示，其预填充速度表现优异，峰值内存占用仅约4.3GB。这意味着，跨系统、跨App的自动化办公操作完全有可能在员工本地终端上运行，从而在特定环节使云端大模型接口费用降至零。

其次是实现端侧推理引擎的底层重构。为使模型在Apple Silicon生态上运行更高效、更节省资源，明略科技自研了专为macOS优化的推理加速SDK——Cider。该框架深入计算算子与硬件调用机制的底层，在相关量化模式下，其算子运行速度相比部分原生框架有显著提升，不仅降低了权重内存占用，还大幅提高了多模态小模型的端侧预填充速度。

最终，这种成本与安全的解决方案，沉淀为组织形态的重构。明略科技打造了Octo开源可信智能体协作网络，作为组织运转的底层支撑。目前，在其内部实际工作流中，正运行着数千个AI Agent，智能体数量已是人类员工的两倍。这不再是一个简单的人机对话场景，而是多个专精智能体在同一个私有网络中实时协作、互相纠错的分布式架构。

未来的方向已逐渐清晰，当大家还在竞相提升云端参数时，像明略科技这样切入端侧基础设施、倡导“分布式协作（Scaling Out）”的探索，为行业指明了一条明智的出路：高频、具体的日常办公交互，都将由端侧视觉智能体在本地消化处理。

这不仅是帮助企业节省了昂贵的云端费用，更是一次商业模式的深刻重构——将AI从一种“持续计费、无法停歇”的变动成本，转变为企业可以掌控、一次性买断的“数字固定资产”。只有将智能赋予终端，技术才能真正轻盈、稳健地融入每一家企业的日常运营之中。