LLM通往AGI的直觉缺失与workaround困境

今日碎碎念：

回顾到( https://weibo.com/7402396589/Qbd6REMQn )这条微博。

当时只是从个人感受和直觉上否定了“LLM是通往AGI的正确路径”，并且只是从体验上阐述了认为LLM缺了什么，并想了一下更加接近AGI的系统应该有哪些“能力”。

当时我认为LLM的缺失与局限性：

缺乏主动性
缺乏内在记忆
缺乏主动学习和技能沉淀的能力
依赖用户的输入质量

我想象中更接近AGI的系统应具备的“能力”：

具备主动输出的能力
能够持续感知或带有中断触发机制的系统
模型能够自主控制的精确寻址的记忆
有内部输出和外显输出
24小时保持激活、持续行动

原微博写于25年10月，那时候还没有OpenClaw和Hermes Agent，我当时还在LLM的辅助下完成了“纸巾上迷宫”的本地求解器。这个“开发”过程全靠自己拆解任务里程碑，让LLM一步一步地写Python脚本，00_xxx.py到16_xxx.py按顺序跑下来后，纸巾上的迷宫就被解出来并反投影答案到原照片上。

我为了求解个迷宫拆分那么多步骤，一来是想遵循瀑布流开发的思路，二来是也方便自己复习一些记不太清的知识点。更重要的原因可能是当时对全自动编码的Agent有一种不信任的感觉，“感觉Agent完不成任务，还浪费钱”。至今这个案例我也还没用Agent跑过，感兴趣的朋友或许可以从 ( https://weibo.com/7402396589/Q99ifnIM9 )保存第一张配图，让你认为足够强大的Agent尝试一下？

OpenClaw和Hermes Agent出来之后，按照我之前的“直觉”，其实有不少功能是更加靠近我想象中的AGI，比方说记忆系统和技能沉淀。但“缺乏主动性”似乎只能依赖定时任务来“假装”一下。假如24小时都有安排定时任务，那倒也算得上“24小时保持激活、持续行动”。不过这些“靠近”更多还是一种workaround，服务的进程是24小时运行，但在不在干活还得看用户的安排。

又想起以前瞎想过的AGI-PDA概念( https://weibo.com/7402396589/PcBBjai5n )。当时的想法是先放弃本地大模型去拥抱API，而且要跑在各种小硬件上。现在各种小龙虾都可以跑在嵌入式开发板上，这个想法似乎又更加有可行性了。结合之前看到做那种随身携带一直录音的AI设备，我在想是不是可以有这样的硬件：

随身携带，有麦克风有摄像头，实时ASR和图像识别，内置小Agent来识别“需要帮助/需要记录”的意图，把信息整理后发送给在家部署的Hermes，Hermes根据收到的“情报”判断要不要主动联系用户。再加上一些传感器，判断用户现在在什么终端接收信息更加方便。不过这个硬件似乎用手机来实现更加好？甚至有些操作就可以在手机里面执行。

﹥﹥
但不管怎么设计，基于LLM的Agent依旧有点workaround的感觉。毕竟LLM是一种基于香农熵的预测引擎，训练出来的模型不管多大、多好，可能还是无法很好地处理柯尔莫哥洛夫复杂度任务。如果我们想要的“智能”是像现在LLM那样模仿人类的行为和语言，LLM或许就足够了。但如果我们真的希望通过“智能”能从头构造解决未知问题的逻辑算法，LLM在复杂度高的任务上成功率还是太低了。

我曾经想过把“我们距离AGI有多远”类比成：能用“AI”解决等价BB(n)问题的阶数。细想当然是不合理的，但这其中也和我的体验有些微妙的相似之处。

多用Agent之后，会发现Agent执行任务的时候更像一个不公开配置的图灵机，而图灵机的纸带初态就相当于是我们输入的Prompt。我们很难预测Agent会跳到什么状态，会不会停机，什么时候停机。即便已经停机，可能终态并不是我们想要的结果，于是又修改了一下纸带让图灵机继续运行。(不知道大家有没有遇到过那种抽风一直复读不会停下来的LLM)

另一方面就是目前对LLM的跑分是有局限性的，很难评估模型面对用户真实世界中各种问题的解题能力。不会有LLM在发布后宣布模型达到通杀BB(6)等价问题的水平，假若是真的，那任何一个用户都可以问这个模型“请输出解决哥德巴赫猜想的完整过程”。