← 返回首页

AI输出内容溯源的有趣尝试

发布时间: 2026-06-27 13:52(北京时间)

摘要: 作者在Hermes桌面端添加了一个实验性功能,可以追溯AI输出内容的来源并检测篡改,但承认该功能非官方实现,且缺乏加密,易于伪造。文章进一步反思了通过提示词诱导AI输出的可能性,并提出未来或有更可靠的溯源方法,整体语气冷静、实验性。

标签: AI溯源, 文本验证, 实验性, 反思, 冷静, 提示词诱导

字数: 346

原文链接: /7402396589/R635sFaxo

我魔改了下 Hermes 的桌面端,实现了一个似乎没什么用的功能。在 Agent 说完一段话之后复制,然后通过网页工具验证这段话是哪个Agent输出的,内容有没有篡改痕迹。

我说“没什么用”主要原因是这个功能不是模型供应商本身提供的,全世界只有我的 Hermes app 可以实现这种效果。而且,因为只是打算简单Demo一下,也没有使用到加密,我自己也可以伪造。

“这段话是我的Hermes说的,我一个字都没改”并不具备说服力。以后或许会有办法证明一段话不是我自己说的,而是某个特定AI输出的内容。

↑ 但是,我们通过提示词本身就可以诱导AI去说一些话,所以这个东西或许也没有那么重要。不过既然想到了,那我就去实现一下看看,感觉也是蛮有趣的。

image

image

image