Skip to main content

AI 的未来

我现在对 AI 的未来有一个越来越明确的判断:它不会只是更大的云端模型,也不会只是一个更会聊天的网页窗口。真正会改变日常生活的,是 AI 开始长期运行在我们自己的设备里,变成一种安静、持续、贴近个人生活的基础设施。

最强的模型仍然会存在,但它们不会承担所有事情。越来越多的小模型会进入本地设备,成为手机、电脑、家用服务器、汽车、眼镜、机器人里的常驻能力。它们不一定是最聪明的 AI,却可能是离我们最近、最常用、最值得信任的 AI。

未来的 AI 不是一个你偶尔打开的聊天窗口,而是一套长期运行在你身边的本地智能基础设施。

小模型会成为设备的本能

过去我们很容易把 AI 的进步理解为模型越来越大。参数更多,训练数据更多,显卡更多,数据中心更大。这条路线当然还会继续,但它不是唯一的路线。

Qwen 3.5 这类小模型说明了一件事:4B 到 9B 级别的模型已经开始有实际用途。它们不一定能替代最强的云端模型,但已经足以承担很多本地任务:分类、摘要、意图识别、简单规划、OCR、图片理解、隐私过滤、工具路由、个人文件检索。

这很重要。因为一旦小模型足够有用,它就不需要每次都作为一个 app 被打开。它可以变成设备的一部分。

就像摄像头里有 ISP,手机里有安全芯片,耳机里有音频 DSP,未来的设备里也会有一个或多个本地模型。它们不负责解决世界上最难的问题,只负责持续理解用户身边的环境。

小模型的意义不是替代大模型,而是让智能变得日常。它们像设备的反射神经,时刻在本地完成那些不值得上传到云端、也不需要最强模型介入的事情。

模型会逐渐靠近硬件

Taalas 的方案给了一个很好的方向感:模型不一定永远只是内存里的权重文件,它也可以被硬件化。

今天大模型推理的主要问题,不只是算力不够,而是数据搬运太贵。GPU 很强,但它是通用设备。模型权重要从显存里读出来,经过矩阵计算,再写回中间状态。对 LLM 来说,很多时候瓶颈不是乘法本身,而是内存带宽、缓存层级和调度开销。

Taalas 的思路激进得多:既然某个模型已经确定,那就不要每次把它当作软件加载。把模型结构和权重尽可能推向硅片,让“运行模型”变成“芯片天然会做的事”。它的 HC1 技术展示跑的是 Llama 3.1 8B,公开规格是 TSMC 6nm、约 815mm²、约 53B 晶体管,标称 17k tokens/s per user。这个形态当然不是消费级产品,但它把方向说明白了:如果模型足够稳定,专用硬件可以把推理从“计算任务”变成“硬件路径”。

这个方案好在三点。

第一,能效会更好。通用 GPU 为了灵活性保留了大量不必要的通用逻辑,而固定模型推理可以去掉很多调度和数据搬运开销。

第二,延迟会更低。权重更靠近计算,甚至部分权重本身就变成硬件结构,token 生成不再被传统显存访问拖住。

第三,成本结构会变。GPU 的价值来自通用性,一块卡可以跑很多模型;Taalas 式芯片牺牲通用性,换取某个模型上的极致性价比。如果一个 4B 或 9B 模型会在几千万台设备上长期运行,专用芯片就有意义。

消费级设备不会一开始就把完整大模型烧进芯片。更可能的路线是温和得多的:

  • 把小模型推理中最稳定、最耗能的部分做成专用加速路径。
  • 用统一内存承载可更新的模型权重。
  • 用专用 NPU、ASIC 或 chiplet 来加速特定结构。
  • 让本地模型负责那些每天都会发生、需要低延迟和隐私保护的任务。

单颗巨大的模型芯片很难消费化,因为良率、功耗、散热和模型过时风险都太高。更现实的是 chiplet。

9B 模型如果照着 Taalas HC1 的单 die 方式做,会非常接近一颗超大芯片。8B 已经用了 815mm² 级别的 6nm die,9B 再往上走,良率会难看,成本也会变得很不稳定。chiplet 的好处是把一个危险的大芯片拆成几个更容易制造的小芯片。

一个本地 9B 模型加速器可以这样拆:

  • 一个或多个 weight chiplet,负责存放低比特量化后的模型权重。
  • 一个 compute chiplet,负责矩阵运算、激活函数和 token decode。
  • 一个 memory/cache chiplet,负责 KV cache、上下文窗口和高频中间状态。
  • 一个 vision chiplet,负责图片、OCR、视频帧等多模态输入。
  • 一个 controller/security chiplet,负责权限、工具调用、审计和本地 agent 调度。

如果模型是 MoE,拆法会更自然。不同 expert 可以放在不同 chiplet 上,每次只激活其中一部分。这样本地设备不需要每次唤醒整个大模型,而是只唤醒需要的那几块。对个人电脑、NAS、Mac mini 这种长时间运行的设备来说,这比单颗巨芯片更合理。

chiplet 不一定让第一代产品更便宜,因为先进封装、互连和测试都会增加成本。但它让产品更容易量产,也更容易分档。

入门款可以只有 1 到 2 个 AI chiplet,跑 4B 或轻量 9B。中配可以有 4 个 chiplet,跑完整 9B 和多个常驻 agent。高配可以有更多 chiplet,跑 30B MoE 或多模型并行。这样 Mac mini 每一代硬件升级就不只是 CPU 更快、GPU 更强,而是本地智能容量增加。

成本会降到消费级可以接受

9B 专用推理芯片听起来很贵,但它不是一定贵到不能消费化。关键在于不能用数据中心 Taalas HC1 的形态直接估消费设备。

HC1 是技术展示:大 die、高功耗、服务器级封装和系统。它证明性能,不证明消费成本。真正进入 Mac mini 这类产品时,目标不会是 17k tokens/s,而是低功耗、低延迟、长期运行、足够便宜。

粗略估算,一个 9B 专用推理模块的成本可以分成三层:

  • 裸芯片成本:成熟量产后可能在 300 到 800 美元之间。这个范围取决于工艺节点、die 面积、良率、量化方式和是否使用 chiplet。
  • 模块成本:加上封装、测试、电源、散热、互连和板级成本,独立模块可能在 500 到 1500 美元。
  • 苹果级内置成本:如果和 Mac mini 主板、统一内存、电源、散热一起设计,且出货量足够大,增量 BOM 可能压到 150 到 400 美元。

这里最关键的是出货量。专用芯片的一次性研发、验证和流片成本很高。小公司如果只卖几万颗,每颗要摊很多钱;苹果如果卖几百万台,摊销成本会迅速下降。

所以我不认为消费级产品会先出现一块“完整硬编码 9B 模型”的独立芯片。更可能出现的是混合方案:一部分模型仍然在统一内存里,保持可更新;一部分高频结构被专用硬件加速;再用 chiplet 做产品分档。这样既保留软件更新能力,又能把本地 agent 的日常推理成本打下来。

最终可接受的价格大概是:

  • 入门 AI Mac mini:比普通款贵 200 到 300 美元,跑 4B/轻量 9B,本地索引和基础 agent。
  • 中配 AI Mac mini:比普通款贵 400 到 700 美元,跑完整 9B,多 agent 常驻。
  • 高配个人 AI 节点:贵 1000 美元以上,面向开发者、小团队、家庭服务器和本地私有 AI。

这不是离谱的价格。很多人已经愿意为更大内存、更大 SSD、更强 GPU 付出这个差价。如果这个差价买到的是“更多任务可以本地完成、更多隐私数据不离开设备、个人 agent 可以长期运行”,它会比传统性能升级更容易被普通用户理解。

Agent 会长期运行

OpenClaw 这样的 agent 助理说明,AI 本地化的意义不只是“离线聊天”。真正重要的是长时间运行。

一个本地 agent 可以像后台进程一样驻留在个人电脑、NAS、手机或家庭服务器中。它可以连接文件系统、shell、浏览器、日历、邮件、消息软件、照片库和个人知识库。它不只是回答问题,而是维护任务队列、调用工具、整理记忆、观察变化,并在合适的时候向更强的模型请求帮助。

短会话里的 AI 是顾问。常驻本地的 AI 是管家、秘书、后台服务,甚至是个人操作系统外面的一层智能。

这会改变 AI 的形态。今天的聊天机器人像一个窗口;未来的个人 AI 更像一个长期运行的环境。它每天都在,知道哪些项目还没完成,哪些文件刚刚变化,哪些邮件需要处理,哪些任务可以在晚上自动跑完。

但这也带来新的问题。一个能读文件、执行命令、登录浏览器、发消息的 agent,本质上是一个有行动能力的软件主体。它必须有清晰的权限边界、审计日志、任务恢复机制和可回滚的操作记录。

本地化解决了隐私和成本的一部分问题,但没有自动解决信任问题。

Mac mini 会变成个人 AI 节点

如果沿着这条路线往下看,Mac mini 这种设备会变得非常有趣。

Mac mini 本来只是一个小型桌面电脑。但在 AI 时代,它可能变成个人 AI 节点:常插电、低噪音、低功耗、长期在线,负责运行本地模型和常驻 agent。

iPhone 是传感器,Mac 是工作界面,Mac mini 是本地大脑,云端模型是远程专家。

这个架构很自然。手机和笔记本受电池、散热和使用场景限制,不适合永远跑重任务。但 Mac mini 可以放在家里或办公室,像路由器、NAS 或 Time Machine 一样长期运行。它可以索引个人文件、照片、邮件、日历和代码项目,在本地完成大量轻量智能任务。

这也会让 Mac mini 的硬件升级重新有故事。

过去的升级是 CPU 快 20%,GPU 快 30%,内存带宽更高。专业用户懂,但普通人不一定关心。未来的升级可以变成:

  • 这一代可以在本地运行更大的模型。
  • 这一代可以同时运行更多 agent。
  • 这一代可以保留更长的个人上下文。
  • 这一代可以让更多隐私数据不离开设备。
  • 这一代可以更快整理照片、邮件、文件和代码。

AI 不是让硬件不重要,而是让硬件重新变得有故事。

AI 会从服务变成环境

我不认为未来每个人都会拥有一个最大、最强、完全本地化的模型。这在成本和更新速度上都不现实。但我也不认为未来的 AI 会永远只是云端服务。

更可能发生的是,AI 会慢慢从服务变成环境。

今天我们打开一个聊天窗口,问一个问题,得到一个回答。这个过程仍然像在访问一个网站。未来的个人 AI 会更像一台长期运行的机器:它知道你的文件在哪里,知道你最近在做什么,知道哪些任务还没有完成,知道什么时候该安静,什么时候该提醒,什么时候该帮你把事情推进一步。

这不要求它每一刻都拥有最强智能。它只需要足够贴近你的生活,足够稳定地运行,足够便宜地陪在本地。

未来的个人 AI 不一定住在手机里。它可能住在家里的一台小盒子里,像路由器一样长期在线,像 Time Machine 一样保存个人上下文,像 Siri 原本承诺的那样理解你的生活。

最终,每个人拥有的可能不是一个最大的模型,而是一个贴近自己生活、长期运行、能理解自己数字环境的本地智能。

模型会变小,agent 会变长,硬件会更专用。