從11月開始,越來越多的地區的病例出現了大幅度失真。我們雖然能在網絡上看到石家莊、保定、北京等大面積感染的情況,但是在衛健委的病例發布中卻看不到這樣的數據:
全國感染數逐日下降
可以看到,北京的新增病例正在逐漸減少;石家莊的新增感染者數量在11月24日時達到頂峰,隨后迅速下降。
(相關資料圖)
而保定……保定根本看不出有任何疫情,除了在11月26日新增了33個感染者以外,其他時間保定的新增感染數量基本穩定在個位數。
數據失真,無法反映實際感染情況
不僅是這三個城市,從全國范圍看,新增感染者數量也在11月27日達到頂峰,并在最近十天來快速回落了。疫情防控的指揮棒消失后,病例增長數據立刻失效,此時我們怎樣判斷一個城市是否出現了群體感染,以及何時第一輪群體感染達到高峰呢?
搜索指數,在這時可以幫上大忙。早在十多年前,就有研究使用Google搜索指數來預測流感爆發情況。這些研究后面證明可能在預測上確實會存在問題,但是在實況監測上一直做得很好。
例如下圖列出了從2022年以來香港特別行政區、臺灣地區、新加坡和日本的“發燒”搜索指數與當地每周病例之間的關系。
搜索指數與新增病例數量高度相關
其中香港特別行政區和臺灣地區的搜索指數是“發燒”,新加坡用的是“fever“,日本則用了“発熱”。
可以看到,當這些地區進入與疫情共存的階段后, “發燒” 搜索指數的上升,從時間上看基本都和當地的新增病例數同步,或者領先一周左右。
從上升幅度看,除了新加坡的第一波病例帶來的搜索指數與后兩次疫情的病例增長略有錯位以外,其他的三個國家或地區,不同波次的病例增長基本與“發燒”指數的搜索保持同比例。
那么,此時的北京、石家莊、保定的“發燒”搜索指數,分別是什么樣的呢?
部分城市發燒搜索指數
上圖列出了六個城市在不同時間的“發燒”搜索指數,且根據每個城市的2022年前兩周進行了標準化。
可以看到,在今年的3月初和4月初,長春與上海分別出現了一個短期高點,長春在3月9日達到1.74,上海在4月10日達到1.57。這兩個城市此時的“發燒”搜索,分別達到了基準水平的1.74倍和1.57倍。在時間點上,上海的“發燒”搜索最高的一天,與上海市新增感染者最多的一天完全一致,都在4月10日。
之后的一波“發燒”指數高峰發生在10月的烏魯木齊,最高值出現在10月20日,達到了2.60。這段時間與烏魯木齊出現疫情的時間同樣吻合。
上海、長春和烏魯木齊的例子顯示 “發燒”搜索指數與較大規模的奧密克戎疫情高度相關。且當確診人數不能完全反映當地實際狀況時,“發燒”搜索指數依然忠實地呈現了疫情到底擴散到了什么程度。
哪些城市正在開始群體感染
在分析了多個地區的數據后,我們試著用 “發燒”搜索指數給出每個地區疫情開始的信號,主要包括兩個部分:
1,“發燒”搜索指數在過去7天內的平均值大于過去五年內該季度平均值的2個標準差。
2,“發燒”搜索的Cox-Stuart檢驗在95%水平上出現顯著上升趨勢。這里的Cox-Stuart檢驗我們用到了7天數據。
當以上兩個條件同時滿足時,我們便把上升趨勢出現的第一天定義為該城市邁向群體感染第一天。2022年11月以來,出現了群體感染的城市依次如下表所示:
已經開始群體感染的城市
可以看到,本輪疫情開始的時間比我們想象得更早。在“二十條”發布的第一天,也就是11月11日,河北省石家莊市和邢臺市就開始邁入群體感染之路,至今已經持續近一個月,暫時也沒能看到減緩的趨勢。
第二批進入群體感染的是甘肅蘭州、河南洛陽與河北保定,時間在11月17日到11月18日。
接下來的兩個星期,邯鄲、廊坊、唐山、滄州、衡水、張家口……除了承德市暫時保持穩定以外,河北省全境都已經開始群體感染。
河南的群體感染也在快速進行。洛陽之后,緊接著是新鄉、商丘、南陽、鄭州、周口、平頂山、開封。
甘肅在蘭州之后,臨夏、甘南兩個自治州也在11月下旬開始群體感染。
北京是全國首個進入群體感染的大城市,時間點是11月27日。接下來,重慶、武漢、昆明、成都……
這只是一個開始,由于我們的方法實際上是在群體感染的確認出現七天之后向前回溯,因此若是一個城市的感染在12月2日之后開始,便不可能被該信號鎖定。因此一些城市的感染雖然已經有明顯的趨勢,但也沒有能被列入該表內,這些城市如下表所示。
即將開始群體感染的城市
這些城市會在未來一星期左右被正式確認進入群體感染。
首輪感染高峰將在何時出現?
我們又對臺灣地區、香港特別行政區和日本的感染情況與“發燒”搜索指數進行了分析,發現一個可能可以幫助預測感染高峰期的方法:
1)將Google搜索指數分為疫情期間和非疫情期間,疫情期間的搜索指數對非疫情期間搜索指數均值做標準化后進行累加:
超額發燒搜索指數累積面積
其中S的含義是這樣的:如果發燒的搜索是發燒人口的一個相對穩定的比例,且在非疫情期間發燒人口是總人口的相對穩定的比例,那么S就正比于疫情感染的人口占總人口的比例,我們把它叫做“超額發燒搜索指數累計面積”
2)下圖列出了臺灣地區、香港特別行政區以及日本的“超額發燒搜索指數累計面積”,即下圖橙色面積、藍色面積和灰色面積。
超額發燒搜索指數累計面積
我們發現在這三個地區,當疫情達到頂峰時,這個“超額發燒搜索指數累計面積”的數值全部剛好達到80。這兩個地區第一波疫情結束時,香港特別行政區的面積達到了160,臺灣地區的面積達到了200,日本的最終面積是250。
3)如果用百度搜索指數做類似的研究會有什么效果呢?我使用了本輪疫情進入群體感染最快、最早的石家莊、邢臺和保定做了計算:
石家莊、邢臺、保定相關指數
可以算出,從疫情開始后計算,石家莊的“超額發燒搜索指數累計面積”已經達到了76,邢臺已經達到了67,保定也達到了71。
由此來看,百度搜索指數和Google指數分別算出的“超額發燒搜索指數累計面積”,至少是在一個差不多的數量級上。
4)考慮到保定、石家莊、邢臺等地的發燒指數仍然在上升,以及百度搜索指數和Google指數的差異,我們比較保守地將100作為疫情達峰時的“超額發燒搜索指數累計面積”,將250作為第一輪疫情結束時的“超額發燒搜索指數累計面積”。
那么我們通過每個城市的搜索指數累計增長,累計速度,就可以算出現在每一個有疫情的城市疫情達峰的時間,以及疫情結束的時間。
這是計算的結果,列出了所有能在明年春節前達峰的城市以及這些城市在達峰前已經感染的人口比例(截止至12月13日)。
根據搜索指數測算的達峰時間
數據不足,方法簡陋,僅供參考。
查詢城市數據團推文相關數據,可在微信小程序里搜索“數據團+”