“流感疫苗效力监测看板”又迭代了一版。
早上那版我想应该没什么可以往下挖的吧,就只是过一段时间更新一下数据。但我突然注意到,为什么全局的VE会比南方、北方的VE都要低呢?
我首先想到的是辛普森悖论,那纸笔手算了一遍南北的权重,怎么算都怎么不对。到底是什么拉低了全局的VE呢?然后把南北的样本数量一加,坏事了,和全局的样本数不对,差了有百来号人。
review了一下脚本,原来区分南北是依赖硬编码的字典 dict[str, list[str]] ,但忽略了可能有海外IP的投票者,在抓到的数据里面,没有不匹配这个字典的数据存在。
那就单独拎出来,也算一下感染率和VE。一算就惊呆了,未知区域的VE是-10.71%。虽然权重不高,但这就拉低了全局的VE值。难道这一百来号人是在国内接种了流感疫苗,然后在国外“感冒”了?那就和之前我判断EV低的原因有关,就是投票“已患流感”的不一定就是流感。所以我需要一些信息来揪出这些“乱投”的人。
我下载了完整的《2025年第49周第886期中国流感监测周报.pdf》里面有很多数据都有用,能进一步分析投票的数据。
——————
根据第49周监测数据,我国南方省份流感检测阳性率为54.5%,北方为44.3%,全国平均为49.8%。(也就是说,每两个发烧咳嗽去医院的人,就有一个真的是流感。)
同期国外,有93%的“感冒症状”都不是流感。
目前国内A型流感中,A(H3N2)亚型占比高达99.6%,是绝对的流行优势株。但国内主流的鸡胚株疫苗,对当前流行毒株的匹配度仅为49.9%。(这可能是VE的天花板)
——————
所以我让Gemini在页面的最下面,套用流感检测阳性率,去推算投票中“真·流感”的感染率。VE就不更新了,因为分子分母一起乘,VE也不会改变。而未知区域的一百来号人,很可能都是在国外,如果确实如此,那么这部分数据中有93%的“已感染票”都可以作废。