2026-04-28
北京时间4月16日,NBA附加赛76人击败魔术晋级季后赛,首轮将战凯尔特人。恩比德手术归期未定,马克西成球队进攻核心,他能否带领76人创造奇迹? ... [详细]
|
2026年3月末,科技界迎来一则震动开发者社区的消息:Ollama宣布其Mac版本底层推理引擎正式从长期使用的llama.cpp迁移至苹果自研的MLX框架。这一变动不仅标志着技术层面的迭代,更预示着Mac设备正从传统的"云端AI接入终端"向"全功能本地AI工作站"转型,为端侧AI的普及按下加速键。 数据支撑起这场变革的实质性突破。在搭载M5芯片的Mac设备上,MLX框架的引入使模型预填充(prefill)速度提升超57%,生成效率近乎翻倍,部分场景下首个token生成时间(TTFT)缩短至原有时长的四分之一。这一性能跃升得益于Apple Silicon统一内存架构与MLX框架的深度适配,重新定义了端侧AI的性能天花板。 然而,技术细节的审视揭示出待解难题:MLX当前支持的W4A16和W8A16量化模式仅针对模型权重进行压缩,而计算过程中的激活值仍依赖FP16格式。这意味着苹果自M5芯片起在每个GPU核心中集成的Neural Accelerator——专为INT8运算设计的硬件加速单元——尚未被充分激活。硬件潜能与软件生态之间,仍存在一块关键拼图亟待填补。 激活量化的破局者:Cider的技术突围 在行业观望之际,徽声在线关注的明略科技以双开源战略给出解决方案。其推出的Cider推理加速SDK直指MLX生态的激活量化空白,通过引入W8A8和W4A8双量化路径,实现了激活值的INT8级压缩,使Neural Accelerator得以全负荷运转。 技术实现上,Cider采用"硬件特性驱动优化"策略:将激活值量化至INT8格式以匹配Apple Silicon的INT8加速能力。实测数据显示,在W8A8模式下,Cider单算子处理速度较原生MLX提升1.4至1.9倍;W4A8模式则在权重内存占用减少50%的同时,保持性能显著增长。针对视觉语言模型(VLM)的专项优化更显成效:Qwen3-VL-4B预填充速度提升17%-22%,Qwen3-VL-2B的增幅高达57%-61%。 精度控制方面,Cider在W8A8量化模式下将模型困惑度(PPL)与FP16原始精度的差距压缩至0.03,实现加速与精度的完美平衡。这种"无损加速"能力,为端侧AI的商业化落地扫除了关键障碍。 从工程化视角观察,Cider展现出极强的生态兼容性:通过单行代码即可完成模型转换,支持Qwen、Llama、Mistral等主流开源架构。更值得关注的是其异构计算探索——在M4芯片上实现的ANE(Apple Neural Engine)与GPU协同推理,已带来额外3%-17%的性能提升,为端侧AI的能效比优化开辟新路径。 从理论可行到工程落地:Mano-P的端侧实践 如果说Cider解决了端侧AI的"速度问题",那么同步开源的Mano-P则验证了端侧模型的"实用价值"。作为明略科技自研的端侧GUI-VLA智能体,Mano-P突破传统方案依赖API对接的局限,通过纯视觉交互方式直接操作桌面软件、网页系统及复杂工作流,实现真正的"所见即所得"。 实测数据彰显其工程价值:在Apple Silicon设备上,Mano-P仅需4.3GB峰值内存即可运行,M4 Pro芯片上预填充速度达476 tokens/s,解码速度76 tokens/s。这一表现证明,经过底层推理框架优化的端侧模型,完全有能力在消费级硬件上支撑完整的AI智能体工作流,为数据隐私保护与低延迟需求提供了可行方案。 该成果的意义远超技术验证层面——它构建了一个可复现的工程范式:通过模型轻量化与推理加速的协同优化,将云端AI的强大能力浓缩至端侧设备。这种"降维打击"式的创新,正在重塑AI应用的部署逻辑。 基础设施战略:定义端侧AI生态标准 明略科技此次开源选择颇具深意:未推出成品应用,而是开放推理加速框架与端侧模型这两项基础设施。这一决策背后,是对Agentic AI演进趋势的精准判断——随着应用场景从云端向端侧迁移,构建"端云协同"的新生态已成为行业共识。 端侧AI的规模化落地需要三大支柱:极速推理引擎、轻量高能模型、低门槛部署方案。谁能在这些领域建立技术标准并形成生态闭环,谁就将主导Agentic AI下一阶段的竞争格局。明略科技通过Cider与Mano-P的组合拳,正试图抢占这一战略制高点。 从企业战略维度审视,此次开源与明略科技的业务布局形成强协同。其Mano模型家族已在OSWorld榜单专用模型领域登顶全球(72B版准确率58.2%),此次4B端侧版的开源,将学术研究优势转化为工程落地能力,构建起从云端到端侧的完整技术链条。 对行业而言,端侧基础设施的成熟将带来深远影响:当Mac mini这类消费级设备即可运行完整AI智能体,不仅大幅降低部署成本,更重新划定了数据隐私的边界。明略科技此时开源,既是对技术趋势的响应,更是对端侧AI生态标准的主动定义——通过开放核心组件,吸引开发者共建生态,最终确立自身在Agentic AI时代的基石地位。 |
谷歌AI芯片创新分割,英伟达面临新挑战
蔚来遭AI“洗稿”团伙抹黑:4000+账号被控 警方重拳出击
加密货币市场动荡,全市场超12万人爆仓!黄金原油市场走势分化
谷歌Gemma 4开源大模型震撼发布,四种规格满足多元需求
体细胞克隆猴成功的意义解读,将大大提高药物研制效率
“马斯克版微信”XChat即将登场 融合聊天支付AI 承诺“比特币式加密”保障
中国国航新航季:C919机型运营航点再扩两城 2026-04-28
北京时间4月16日,NBA附加赛76人击败魔术晋级季后赛,首轮将战凯尔特人。恩比德手术归期未定,马克西成球队进攻核心,他能否带领76人创造奇迹? ... [详细]
2026-04-04
多特传奇后卫苏博蒂奇独家专访:揭秘与克洛普的师徒情深,详述从物质狂热到慈善先锋的蜕变历程,展望2030年为百万非洲民众提供清洁饮用水的宏伟计划。 ... [详细]
2026-05-03
4月20日至26日,云南弥勒将举办2026第二届弥勒太平湖汽车拉力赛,国台酒倾情赞助。现场免费品鉴五年陈酿国台国标酒,六大景区免门票,邀您共赴速度与美酒的盛宴! ... [详细]
2026-04-12
北京时间4月11日西甲第31轮,皇家社会主场3-3战平阿拉维斯。苏契奇、奥斯卡松为皇家社会建功,卢卡斯-博耶绝平,双方上演进球大战。 ... [详细]
2026-04-11
近期,不少读者在后台留言,询问我对全红婵遭遇网络暴力一事的看法。不久前,我偶然看到一段她的采访视频。画面中,这个年纪轻轻的小姑娘站在镜头前,眼眶泛红,声音略带颤抖地说出了一 ... [详细]
啥病人看了这个都得好啊! 副标题 这胸是真的! 副标题 你赢了! 副标题 我是关心这是在哪里
乞丐装的最新境界! 副标题 买家你确定你不是阿宝?? 副标题 这裤子不敢坐下啊! 副标题 颜值
这鼠标垫你看到了什么?邪恶了吧! 副标题 毫无违和感! 副标题 小卖部的这女孩真会选呀! 副
女人真的不容易,怀孕后,内脏被挤压的严重,挺着大肚子干啥都不方便!近日,刘嘉姵和闺蜜集体拍
锤哥的替身也是辣么的帅气! 副标题 锤哥的替身好多啊! 副标题 你杀了你的替身,你可就没替
于震寰结婚的消息这几天都挂在网上引发热议,更多的人不解,这是谁,干什么的,结婚是啥大事吗
作为是国内高空挑战第一人的吴永宁,很多人应该都不会陌生,很多人都看过他的户外极限挑战
原油也就是我们通常所说的石油,一般是指那种直接从油井里开采出来的还没有进行过加工和