tk老师发起的投票已经结束,最后导出一份“流感疫苗效力监测看板”截图。做“这件事”也迭代了很多版本,现在暂告一段落那就顺便复盘下。
第一版:https://weibo.com/7402396589/Qi38JlL5U
这版就是简单F12找了下API,只抓取了投票中的四个选项,分析和数据展示也比较粗糙。在tk老师提醒下才用截图的办法简单分析了下“南北差异”。
第二版:https://weibo.com/7402396589/Qic763fG5
这版主要打算死磕南北数据,但我对爬取客户端数据并不了解。通过Gemini学习了如何利用reqable监听并转储模拟器内的请求数据。这时候的南北数据就是可以随时更新的了。因为监听到的数据里还有年龄组别,就顺便加上了,然后发现“80后队列”的VE是负值。
第三版:https://weibo.com/7402396589/Qif6qylHz
是我注意到全局的VE比南方或北方的VE都要低,最后揪出了“未知区域”的一组数据。然后查阅《2025年第49周第886期中国流感监测周报.pdf》了解到一些关于疫苗和今年流感的一些信息,基于此,在页面最下面新增了“多源数据校准与重构”板块。
这几天来也了解到不少新东西,了解到有reqable这样的工具,了解到CDC的周报原来包含了这么多信息。最近几个月做事很喜欢问自己“你尽力了吗”,但我发现这个问题自己来回答似乎就变味了。我觉得更重要的是如果换别人来“尽力”做,我还欠缺了什么。←不过我自己也拿不到这样的答案。
但真要回答一下,那我答案可能是“几乎尽力了”。也遇到过在一些细节上明明可以继续探索下去但被我轻易“否定”掉的思路,或是折腾到一半感觉没什么希望就封路倒回去的时刻。也不能叫“知难而退”,我遇到的其实并不难,只是从经验上比较抵触在某些路上再努力一把,想的是“大概率行不通”或“意义不大”。
这种“经验性劝退”真的很难抵抗,置信区间没有研究,抓了时域上很多组数据也没做时域上的分析,抓包偷懒没做成定时自动化,贝叶斯推断似乎也没用上。