← 返回首页

群友提问:基于关键词的联网搜索报告系统

发布时间: 2025-10-28 11:55(北京时间)

摘要: 作者针对群友关于基于关键词的联网搜索报告系统的提问,提供了从明确信息源、利用API或爬虫获取数据,到优化搜索策略和提升报告质量的实用建议。强调输入信息质量对输出报告的决定性作用,并以求职背调为例说明流程化处理的重要性。整体语调冷静、经验性,带有对技术实现细节的反思。

标签: 联网搜索, 报告系统, API集成, 信息质量, 流程优化, 反思, 冷静, 技术建议

字数: 871

状态: note

群友问题:想做一个基于关键词的联网搜索并形成总结报告的系统,大概功能是基于提供的关键词抓取网络上新闻报告内容,并且总结相关报告,后面形成日报的内容我有些思路,但是前面抓取部分有点茫然。


基于关键词的联网搜索并形成总结报告,首先是要明确联网搜索的来源是什么。如果你知道信息源是什么,可以去找有没有开放的API,没有就自己爬。如果没有限定信息源,可能就要依赖搜索引擎,比如bing,这方面可以找下有没有好用的MCP或接口。我印象中有一些付费的服务,但因为没这方面需求一直没体验过。我体验过的是kimi的搜索工具,具体是调用一个$web_search的工具,这个工具单次服务费是0.03元,搜索到的token另外算,具体参考:platform.moonshot.cn/docs/guide/use-web-search

moonshot的搜索工具的上架我是见证了全过程,那时候是LLM还没那么火,但是kimi的搜索大家觉得做得都很好,很多“开发者”因此就付费买API额度了。但是充值后发现怎么kimi模型的api没有搜索功能?kimi就说这个是tool_calls功能,具体的tool得大家写。大家还是不服。后来似乎kimi就把这个tool内置到服务器上,给大家调用了。

不过要注意下搜索的api就是相当于一轮对话而已,LLM根据用户意图去搜索关键词,然后[原始问题+搜索结果]一起进行总结回答。如果对搜索结果质量有要求,可能就得写个小agent的感觉,自动换关键词多次搜索直到“觉得够了”。

报告的质量由input决定。像群聊日报这种有个base然后自己可以有方向去清洗和补全信息的就比较好掌控。但联网搜索意外太多了。

但群聊信息本来就是很高质量的,我做的就是把图片也拓展一下,把url也处理一下,这样信息上下联系更加紧密、丰富。报告自然就好了。所以input的信息质量很重要。

而且场景确定的话也能总结出一个流程。譬如是做求职意向公司的背调,第一步去找什么,然后看什么,最后看什么。这样就可以限定到一些特定网站,逐个攻破。