群友问题:想做一个基于关键词的联网搜索并形成总结报告的系统,大概功能是基于提供的关键词抓取网络上新闻报告内容,并且总结相关报告,后面形成日报的内容我有些思路,但是前面抓取部分有点茫然。
基于关键词的联网搜索并形成总结报告,首先是要明确联网搜索的来源是什么。如果你知道信息源是什么,可以去找有没有开放的API,没有就自己爬。如果没有限定信息源,可能就要依赖搜索引擎,比如bing,这方面可以找下有没有好用的MCP或接口。我印象中有一些付费的服务,但因为没这方面需求一直没体验过。我体验过的是kimi的搜索工具,具体是调用一个$web_search的工具,这个工具单次服务费是0.03元,搜索到的token另外算,具体参考:platform.moonshot.cn/docs/guide/use-web-search
moonshot的搜索工具的上架我是见证了全过程,那时候是LLM还没那么火,但是kimi的搜索大家觉得做得都很好,很多“开发者”因此就付费买API额度了。但是充值后发现怎么kimi模型的api没有搜索功能?kimi就说这个是tool_calls功能,具体的tool得大家写。大家还是不服。后来似乎kimi就把这个tool内置到服务器上,给大家调用了。
不过要注意下搜索的api就是相当于一轮对话而已,LLM根据用户意图去搜索关键词,然后[原始问题+搜索结果]一起进行总结回答。如果对搜索结果质量有要求,可能就得写个小agent的感觉,自动换关键词多次搜索直到“觉得够了”。
报告的质量由input决定。像群聊日报这种有个base然后自己可以有方向去清洗和补全信息的就比较好掌控。但联网搜索意外太多了。
但群聊信息本来就是很高质量的,我做的就是把图片也拓展一下,把url也处理一下,这样信息上下联系更加紧密、丰富。报告自然就好了。所以input的信息质量很重要。
而且场景确定的话也能总结出一个流程。譬如是做求职意向公司的背调,第一步去找什么,然后看什么,最后看什么。这样就可以限定到一些特定网站,逐个攻破。