今日碎碎念:
回顾到( https://weibo.com/7402396589/Qbd6REMQn )这条微博。
当时只是从个人感受和直觉上否定了“LLM是通往AGI的正确路径”,并且只是从体验上阐述了认为LLM缺了什么,并想了一下更加接近AGI的系统应该有哪些“能力”。
当时我认为LLM的缺失与局限性:
- 缺乏主动性
- 缺乏内在记忆
- 缺乏主动学习和技能沉淀的能力
- 依赖用户的输入质量
我想象中更接近AGI的系统应具备的“能力”:
- 具备主动输出的能力
- 能够持续感知或带有中断触发机制的系统
- 模型能够自主控制的精确寻址的记忆
- 有内部输出和外显输出
- 24小时保持激活、持续行动
原微博写于25年10月,那时候还没有OpenClaw和Hermes Agent,我当时还在LLM的辅助下完成了“纸巾上迷宫”的本地求解器。这个“开发”过程全靠自己拆解任务里程碑,让LLM一步一步地写Python脚本,00_xxx.py到16_xxx.py按顺序跑下来后,纸巾上的迷宫就被解出来并反投影答案到原照片上。
我为了求解个迷宫拆分那么多步骤,一来是想遵循瀑布流开发的思路,二来是也方便自己复习一些记不太清的知识点。更重要的原因可能是当时对全自动编码的Agent有一种不信任的感觉,“感觉Agent完不成任务,还浪费钱”。至今这个案例我也还没用Agent跑过,感兴趣的朋友或许可以从 ( https://weibo.com/7402396589/Q99ifnIM9 )保存第一张配图,让你认为足够强大的Agent尝试一下?
OpenClaw和Hermes Agent出来之后,按照我之前的“直觉”,其实有不少功能是更加靠近我想象中的AGI,比方说记忆系统和技能沉淀。但“缺乏主动性”似乎只能依赖定时任务来“假装”一下。假如24小时都有安排定时任务,那倒也算得上“24小时保持激活、持续行动”。不过这些“靠近”更多还是一种workaround,服务的进程是24小时运行,但在不在干活还得看用户的安排。
又想起以前瞎想过的AGI-PDA概念( https://weibo.com/7402396589/PcBBjai5n )。当时的想法是先放弃本地大模型去拥抱API,而且要跑在各种小硬件上。现在各种小龙虾都可以跑在嵌入式开发板上,这个想法似乎又更加有可行性了。结合之前看到做那种随身携带一直录音的AI设备,我在想是不是可以有这样的硬件:
随身携带,有麦克风有摄像头,实时ASR和图像识别,内置小Agent来识别“需要帮助/需要记录”的意图,把信息整理后发送给在家部署的Hermes,Hermes根据收到的“情报”判断要不要主动联系用户。再加上一些传感器,判断用户现在在什么终端接收信息更加方便。不过这个硬件似乎用手机来实现更加好?甚至有些操作就可以在手机里面执行。
﹥﹥
但不管怎么设计,基于LLM的Agent依旧有点workaround的感觉。毕竟LLM是一种基于香农熵的预测引擎,训练出来的模型不管多大、多好,可能还是无法很好地处理柯尔莫哥洛夫复杂度任务。如果我们想要的“智能”是像现在LLM那样模仿人类的行为和语言,LLM或许就足够了。但如果我们真的希望通过“智能”能从头构造解决未知问题的逻辑算法,LLM在复杂度高的任务上成功率还是太低了。
我曾经想过把“我们距离AGI有多远”类比成:能用“AI”解决等价BB(n)问题的阶数。细想当然是不合理的,但这其中也和我的体验有些微妙的相似之处。
多用Agent之后,会发现Agent执行任务的时候更像一个不公开配置的图灵机,而图灵机的纸带初态就相当于是我们输入的Prompt。我们很难预测Agent会跳到什么状态,会不会停机,什么时候停机。即便已经停机,可能终态并不是我们想要的结果,于是又修改了一下纸带让图灵机继续运行。(不知道大家有没有遇到过那种抽风一直复读不会停下来的LLM)
另一方面就是目前对LLM的跑分是有局限性的,很难评估模型面对用户真实世界中各种问题的解题能力。不会有LLM在发布后宣布模型达到通杀BB(6)等价问题的水平,假若是真的,那任何一个用户都可以问这个模型“请输出解决哥德巴赫猜想的完整过程”。