前两天我说“我觉得维护一份属于自己的“上下文”真的越来越重要了。”
这几天考虑了很多,但思维束缚在“一份”上了。刚锻炼走神的时候灵光一现,“一份”其实可以是结果,也就是说这份“上下文”可以是动态的。动态我想到有两种方式,压缩和筛选。所以构想出了一个“动态魂器”想法,不谈具体实现,简单阐述下。
一个“动态魂器”的魂,来源是一个的特定人。可以粗略分为两个部分:人设和痕迹。
先讨论痕迹,痕迹就是这个特定人输出的图文信息,可以是微博、博客、日记、笔记…但如果不处理直接用一来可能混杂了噪声,二来是总会有撑爆上下文的时候。所以信息压缩和筛选可以提前做。
压缩可以让LLM来遍历,主要是压缩成两个或更多的粒度,譬如:概要、关键词。然后每总粒度的文本用tokenizer简单估算一下Token数。
但文本怎么筛选?我想到的是评分机制。但具体要多少种维度去评分,我还没考虑清楚。但我认为一段文本是可以在指定维度下打分的,这个也可以由LLM来遍历。
所以现在就有:RAW,概要,关键词,评分1,评分2,评分3,Token数。都存进数据库。
有了这个数据库,“动态魂器”生成就简单多了,结合评分和总的Token数可以生成适配各种场景下的上下文需求。比如“最多200K,评分2优先,仅RAW”“最多50K,评分1优先,概要+关键词”
人设的话,其实就是全数据库的一次压缩,用来定基调和记一些比较特殊且重要的信息,具体是生成还是手写,或许都可以。
我可能不那么喜欢全自动化,所以应该做成一个筛选器+输出md的形式就差不多了。