先说说社群信息的洞察/记忆提取工具,昨天决定抛弃「用工具修改(编纂)Living Archive文档」的思路。
我实现的工具效果很差,经常定位错误或者修改后产生冗余的信息,而且这是一种“比较难规范描述”的输出要求,对LLM的负担我觉得也比较差。总有一种LLM对这个任务不那么积极的感觉。
另外是就算能精确维护Living Archive文档,那么文档本身的增量也是蛮大的,等到了一定的篇幅势必会影响到后面的输出质量。(因为是“修改”所以原文档也要塞进Prompt的)
所以我紧急刹车,推倒重来了。改用的思路就是让LLM输出json对象然后存入数据库。提取的信息在json中体现成不同的type,然后具体的信息放在Payload字段下。这样数据库就只是一个增量的过程,而Living Archive中的Living可以体现到“报告”上。也就是说,数据是数据,怎么展示报表是可以从数据库里面取出、分析或不分析直接展现。
这个思路的好处是大部分LLM都支持指定输出为可靠的json对象,那json对象入桶数据库的过程也会比较可靠(相对之前的让LLM输出怎么修改文档来说)。而不同Type的数据有了之后,怎么展示怎么分析也就更加灵活了。
今天把流程都跑通,并且全量走了一遍,调用了300余次的LLM,最终落盘到数据库的条目有561条。细分到不同的类型,比如说话题就有136个,这些都是这一个月来群里聊过的“话题”。而类型为Term的是从群聊信息中提取出来的一些“术语与概念”有些词汇看到就能回想起当时聊天的细节。
细节就等我慢慢打磨了,这属于比较长线的事情。
昨天微博有朋友建议我可以记录下时间,看下每天做不同事情的占比。我今天是第一天记录,还不那么熟悉记录的工具,但初有成效。看着比例再回想,似乎找到了一些问题。
我发现自己没有“主动打断”的能力/习惯。我虽然做事情在启动上不会有太大困难,但实际做事情的时候,只要没做完可能就会一直沉下心去做,很容易导致一天就做那么一两件事情,等反应过来的时候又该去睡觉休息了(比如今天就花比较多的时间去琢磨上面的工具)。于是我想到或许可以捡回一个已抛弃的工具:番茄闹钟。
番茄工作法我在最初工作的几年比较喜爱,简单说就是45分钟就算“完成一个番茄”,然后休息一定时间再继续另一个番茄。类似的还有种树app之类的,原理都差不多。当时抛弃的原因是意识到自己有些热衷于番茄完成的数量,我觉得不太好。但现在看来,我可能需要一个45分钟就打断提醒我的闹钟,让我有一个机会去判断自己是不是应该切换一下要做的事情。
然后是觉得自己状态/心态不是那么好。但有些困倦就等明天再详细写写捋一下了。大概方向就是觉得有些悲观和消极。晚安。