AI 的未来

我现在对 AI 的未来有一个越来越明确的判断：它不会只是更大的云端模型，也不会只是一个更会聊天的网页窗口。真正会改变日常生活的，是 AI 开始长期运行在我们自己的设备里，变成一种安静、持续、贴近个人生活的基础设施。

最强的模型仍然会存在，但它们不会承担所有事情。越来越多的小模型会进入本地设备，成为手机、电脑、家用服务器、汽车、眼镜、机器人里的常驻能力。它们不一定是最聪明的 AI，却可能是离我们最近、最常用、最值得信任的 AI。

未来的 AI 不是一个你偶尔打开的聊天窗口，而是一套长期运行在你身边的本地智能基础设施。

小模型会成为设备的本能

过去我们很容易把 AI 的进步理解为模型越来越大。参数更多，训练数据更多，显卡更多，数据中心更大。这条路线当然还会继续，但它不是唯一的路线。

Qwen 3.5 这类小模型说明了一件事：4B 到 9B 级别的模型已经开始有实际用途。它们不一定能替代最强的云端模型，但已经足以承担很多本地任务：分类、摘要、意图识别、简单规划、OCR、图片理解、隐私过滤、工具路由、个人文件检索。

这很重要。因为一旦小模型足够有用，它就不需要每次都作为一个 app 被打开。它可以变成设备的一部分。

就像摄像头里有 ISP，手机里有安全芯片，耳机里有音频 DSP，未来的设备里也会有一个或多个本地模型。它们不负责解决世界上最难的问题，只负责持续理解用户身边的环境。

小模型的意义不是替代大模型，而是让智能变得日常。它们像设备的反射神经，时刻在本地完成那些不值得上传到云端、也不需要最强模型介入的事情。

模型会逐渐靠近硬件

Taalas 的方案给了一个很好的方向感：模型不一定永远只是内存里的权重文件，它也可以被硬件化。

今天大模型推理的主要问题，不只是算力不够，而是数据搬运太贵。GPU 很强，但它是通用设备。模型权重要从显存里读出来，经过矩阵计算，再写回中间状态。对 LLM 来说，很多时候瓶颈不是乘法本身，而是内存带宽、缓存层级和调度开销。

Taalas 的思路激进得多：既然某个模型已经确定，那就不要每次把它当作软件加载。把模型结构和权重尽可能推向硅片，让“运行模型”变成“芯片天然会做的事”。它的 HC1 技术展示跑的是 Llama 3.1 8B，公开规格是 TSMC 6nm、约 815mm²、约 53B 晶体管，标称 17k tokens/s per user。这个形态当然不是消费级产品，但它把方向说明白了：如果模型足够稳定，专用硬件可以把推理从“计算任务”变成“硬件路径”。

这个方案好在三点。

第一，能效会更好。通用 GPU 为了灵活性保留了大量不必要的通用逻辑，而固定模型推理可以去掉很多调度和数据搬运开销。

第二，延迟会更低。权重更靠近计算，甚至部分权重本身就变成硬件结构，token 生成不再被传统显存访问拖住。

第三，成本结构会变。GPU 的价值来自通用性，一块卡可以跑很多模型；Taalas 式芯片牺牲通用性，换取某个模型上的极致性价比。如果一个 4B 或 9B 模型会在几千万台设备上长期运行，专用芯片就有意义。

消费级设备不会一开始就把完整大模型烧进芯片。更可能的路线是温和得多的：

把小模型推理中最稳定、最耗能的部分做成专用加速路径。
用统一内存承载可更新的模型权重。
用专用 NPU、ASIC 或 chiplet 来加速特定结构。
让本地模型负责那些每天都会发生、需要低延迟和隐私保护的任务。

单颗巨大的模型芯片很难消费化，因为良率、功耗、散热和模型过时风险都太高。更现实的是 chiplet。

9B 模型如果照着 Taalas HC1 的单 die 方式做，会非常接近一颗超大芯片。8B 已经用了 815mm² 级别的 6nm die，9B 再往上走，良率会难看，成本也会变得很不稳定。chiplet 的好处是把一个危险的大芯片拆成几个更容易制造的小芯片。

一个本地 9B 模型加速器可以这样拆：

一个或多个 weight chiplet，负责存放低比特量化后的模型权重。
一个 compute chiplet，负责矩阵运算、激活函数和 token decode。
一个 memory/cache chiplet，负责 KV cache、上下文窗口和高频中间状态。
一个 vision chiplet，负责图片、OCR、视频帧等多模态输入。
一个 controller/security chiplet，负责权限、工具调用、审计和本地 agent 调度。

如果模型是 MoE，拆法会更自然。不同 expert 可以放在不同 chiplet 上，每次只激活其中一部分。这样本地设备不需要每次唤醒整个大模型，而是只唤醒需要的那几块。对个人电脑、NAS、Mac mini 这种长时间运行的设备来说，这比单颗巨芯片更合理。

chiplet 不一定让第一代产品更便宜，因为先进封装、互连和测试都会增加成本。但它让产品更容易量产，也更容易分档。

入门款可以只有 1 到 2 个 AI chiplet，跑 4B 或轻量 9B。中配可以有 4 个 chiplet，跑完整 9B 和多个常驻 agent。高配可以有更多 chiplet，跑 30B MoE 或多模型并行。这样 Mac mini 每一代硬件升级就不只是 CPU 更快、GPU 更强，而是本地智能容量增加。

成本会降到消费级可以接受

9B 专用推理芯片听起来很贵，但它不是一定贵到不能消费化。关键在于不能用数据中心 Taalas HC1 的形态直接估消费设备。

HC1 是技术展示：大 die、高功耗、服务器级封装和系统。它证明性能，不证明消费成本。真正进入 Mac mini 这类产品时，目标不会是 17k tokens/s，而是低功耗、低延迟、长期运行、足够便宜。

粗略估算，一个 9B 专用推理模块的成本可以分成三层：

裸芯片成本：成熟量产后可能在 300 到 800 美元之间。这个范围取决于工艺节点、die 面积、良率、量化方式和是否使用 chiplet。
模块成本：加上封装、测试、电源、散热、互连和板级成本，独立模块可能在 500 到 1500 美元。
苹果级内置成本：如果和 Mac mini 主板、统一内存、电源、散热一起设计，且出货量足够大，增量 BOM 可能压到 150 到 400 美元。

这里最关键的是出货量。专用芯片的一次性研发、验证和流片成本很高。小公司如果只卖几万颗，每颗要摊很多钱；苹果如果卖几百万台，摊销成本会迅速下降。

所以我不认为消费级产品会先出现一块“完整硬编码 9B 模型”的独立芯片。更可能出现的是混合方案：一部分模型仍然在统一内存里，保持可更新；一部分高频结构被专用硬件加速；再用 chiplet 做产品分档。这样既保留软件更新能力，又能把本地 agent 的日常推理成本打下来。

最终可接受的价格大概是：

入门 AI Mac mini：比普通款贵 200 到 300 美元，跑 4B/轻量 9B，本地索引和基础 agent。
中配 AI Mac mini：比普通款贵 400 到 700 美元，跑完整 9B，多 agent 常驻。
高配个人 AI 节点：贵 1000 美元以上，面向开发者、小团队、家庭服务器和本地私有 AI。

这不是离谱的价格。很多人已经愿意为更大内存、更大 SSD、更强 GPU 付出这个差价。如果这个差价买到的是“更多任务可以本地完成、更多隐私数据不离开设备、个人 agent 可以长期运行”，它会比传统性能升级更容易被普通用户理解。

Agent 会长期运行

OpenClaw 这样的 agent 助理说明，AI 本地化的意义不只是“离线聊天”。真正重要的是长时间运行。

一个本地 agent 可以像后台进程一样驻留在个人电脑、NAS、手机或家庭服务器中。它可以连接文件系统、shell、浏览器、日历、邮件、消息软件、照片库和个人知识库。它不只是回答问题，而是维护任务队列、调用工具、整理记忆、观察变化，并在合适的时候向更强的模型请求帮助。

短会话里的 AI 是顾问。常驻本地的 AI 是管家、秘书、后台服务，甚至是个人操作系统外面的一层智能。

这会改变 AI 的形态。今天的聊天机器人像一个窗口；未来的个人 AI 更像一个长期运行的环境。它每天都在，知道哪些项目还没完成，哪些文件刚刚变化，哪些邮件需要处理，哪些任务可以在晚上自动跑完。

但这也带来新的问题。一个能读文件、执行命令、登录浏览器、发消息的 agent，本质上是一个有行动能力的软件主体。它必须有清晰的权限边界、审计日志、任务恢复机制和可回滚的操作记录。

本地化解决了隐私和成本的一部分问题，但没有自动解决信任问题。

Mac mini 会变成个人 AI 节点

如果沿着这条路线往下看，Mac mini 这种设备会变得非常有趣。

Mac mini 本来只是一个小型桌面电脑。但在 AI 时代，它可能变成个人 AI 节点：常插电、低噪音、低功耗、长期在线，负责运行本地模型和常驻 agent。

iPhone 是传感器，Mac 是工作界面，Mac mini 是本地大脑，云端模型是远程专家。

这个架构很自然。手机和笔记本受电池、散热和使用场景限制，不适合永远跑重任务。但 Mac mini 可以放在家里或办公室，像路由器、NAS 或 Time Machine 一样长期运行。它可以索引个人文件、照片、邮件、日历和代码项目，在本地完成大量轻量智能任务。

这也会让 Mac mini 的硬件升级重新有故事。

过去的升级是 CPU 快 20%，GPU 快 30%，内存带宽更高。专业用户懂，但普通人不一定关心。未来的升级可以变成：

这一代可以在本地运行更大的模型。
这一代可以同时运行更多 agent。
这一代可以保留更长的个人上下文。
这一代可以让更多隐私数据不离开设备。
这一代可以更快整理照片、邮件、文件和代码。

AI 不是让硬件不重要，而是让硬件重新变得有故事。

AI 会从服务变成环境

我不认为未来每个人都会拥有一个最大、最强、完全本地化的模型。这在成本和更新速度上都不现实。但我也不认为未来的 AI 会永远只是云端服务。

更可能发生的是，AI 会慢慢从服务变成环境。

今天我们打开一个聊天窗口，问一个问题，得到一个回答。这个过程仍然像在访问一个网站。未来的个人 AI 会更像一台长期运行的机器：它知道你的文件在哪里，知道你最近在做什么，知道哪些任务还没有完成，知道什么时候该安静，什么时候该提醒，什么时候该帮你把事情推进一步。

这不要求它每一刻都拥有最强智能。它只需要足够贴近你的生活，足够稳定地运行，足够便宜地陪在本地。

未来的个人 AI 不一定住在手机里。它可能住在家里的一台小盒子里，像路由器一样长期在线，像 Time Machine 一样保存个人上下文，像 Siri 原本承诺的那样理解你的生活。

最终，每个人拥有的可能不是一个最大的模型，而是一个贴近自己生活、长期运行、能理解自己数字环境的本地智能。

模型会变小，agent 会变长，硬件会更专用。

小模型会成为设备的本能​

模型会逐渐靠近硬件​

成本会降到消费级可以接受​

Agent 会长期运行​

Mac mini 会变成个人 AI 节点​

AI 会从服务变成环境​