從11月開始,越來越多的地區(qū)的病例出現(xiàn)了大幅度失真。我們雖然能在網(wǎng)絡(luò)上看到石家莊、保定、北京等大面積感染的情況,但是在衛(wèi)健委的病例發(fā)布中卻看不到這樣的數(shù)據(jù):
全國(guó)感染數(shù)逐日下降
可以看到,北京的新增病例正在逐漸減少;石家莊的新增感染者數(shù)量在11月24日時(shí)達(dá)到頂峰,隨后迅速下降。
(相關(guān)資料圖)
而保定……保定根本看不出有任何疫情,除了在11月26日新增了33個(gè)感染者以外,其他時(shí)間保定的新增感染數(shù)量基本穩(wěn)定在個(gè)位數(shù)。
數(shù)據(jù)失真,無法反映實(shí)際感染情況
不僅是這三個(gè)城市,從全國(guó)范圍看,新增感染者數(shù)量也在11月27日達(dá)到頂峰,并在最近十天來快速回落了。疫情防控的指揮棒消失后,病例增長(zhǎng)數(shù)據(jù)立刻失效,此時(shí)我們?cè)鯓优袛嘁粋€(gè)城市是否出現(xiàn)了群體感染,以及何時(shí)第一輪群體感染達(dá)到高峰呢?
搜索指數(shù),在這時(shí)可以幫上大忙。早在十多年前,就有研究使用Google搜索指數(shù)來預(yù)測(cè)流感爆發(fā)情況。這些研究后面證明可能在預(yù)測(cè)上確實(shí)會(huì)存在問題,但是在實(shí)況監(jiān)測(cè)上一直做得很好。
例如下圖列出了從2022年以來香港特別行政區(qū)、臺(tái)灣地區(qū)、新加坡和日本的“發(fā)燒”搜索指數(shù)與當(dāng)?shù)孛恐懿±g的關(guān)系。
搜索指數(shù)與新增病例數(shù)量高度相關(guān)
其中香港特別行政區(qū)和臺(tái)灣地區(qū)的搜索指數(shù)是“發(fā)燒”,新加坡用的是“fever“,日本則用了“発熱”。
可以看到,當(dāng)這些地區(qū)進(jìn)入與疫情共存的階段后, “發(fā)燒” 搜索指數(shù)的上升,從時(shí)間上看基本都和當(dāng)?shù)氐男略霾±龜?shù)同步,或者領(lǐng)先一周左右。
從上升幅度看,除了新加坡的第一波病例帶來的搜索指數(shù)與后兩次疫情的病例增長(zhǎng)略有錯(cuò)位以外,其他的三個(gè)國(guó)家或地區(qū),不同波次的病例增長(zhǎng)基本與“發(fā)燒”指數(shù)的搜索保持同比例。
那么,此時(shí)的北京、石家莊、保定的“發(fā)燒”搜索指數(shù),分別是什么樣的呢?
部分城市發(fā)燒搜索指數(shù)
上圖列出了六個(gè)城市在不同時(shí)間的“發(fā)燒”搜索指數(shù),且根據(jù)每個(gè)城市的2022年前兩周進(jìn)行了標(biāo)準(zhǔn)化。
可以看到,在今年的3月初和4月初,長(zhǎng)春與上海分別出現(xiàn)了一個(gè)短期高點(diǎn),長(zhǎng)春在3月9日達(dá)到1.74,上海在4月10日達(dá)到1.57。這兩個(gè)城市此時(shí)的“發(fā)燒”搜索,分別達(dá)到了基準(zhǔn)水平的1.74倍和1.57倍。在時(shí)間點(diǎn)上,上海的“發(fā)燒”搜索最高的一天,與上海市新增感染者最多的一天完全一致,都在4月10日。
之后的一波“發(fā)燒”指數(shù)高峰發(fā)生在10月的烏魯木齊,最高值出現(xiàn)在10月20日,達(dá)到了2.60。這段時(shí)間與烏魯木齊出現(xiàn)疫情的時(shí)間同樣吻合。
上海、長(zhǎng)春和烏魯木齊的例子顯示 “發(fā)燒”搜索指數(shù)與較大規(guī)模的奧密克戎疫情高度相關(guān)。且當(dāng)確診人數(shù)不能完全反映當(dāng)?shù)貙?shí)際狀況時(shí),“發(fā)燒”搜索指數(shù)依然忠實(shí)地呈現(xiàn)了疫情到底擴(kuò)散到了什么程度。
哪些城市正在開始群體感染
在分析了多個(gè)地區(qū)的數(shù)據(jù)后,我們?cè)囍?“發(fā)燒”搜索指數(shù)給出每個(gè)地區(qū)疫情開始的信號(hào),主要包括兩個(gè)部分:
1,“發(fā)燒”搜索指數(shù)在過去7天內(nèi)的平均值大于過去五年內(nèi)該季度平均值的2個(gè)標(biāo)準(zhǔn)差。
2,“發(fā)燒”搜索的Cox-Stuart檢驗(yàn)在95%水平上出現(xiàn)顯著上升趨勢(shì)。這里的Cox-Stuart檢驗(yàn)我們用到了7天數(shù)據(jù)。
當(dāng)以上兩個(gè)條件同時(shí)滿足時(shí),我們便把上升趨勢(shì)出現(xiàn)的第一天定義為該城市邁向群體感染第一天。2022年11月以來,出現(xiàn)了群體感染的城市依次如下表所示:
已經(jīng)開始群體感染的城市
可以看到,本輪疫情開始的時(shí)間比我們想象得更早。在“二十條”發(fā)布的第一天,也就是11月11日,河北省石家莊市和邢臺(tái)市就開始邁入群體感染之路,至今已經(jīng)持續(xù)近一個(gè)月,暫時(shí)也沒能看到減緩的趨勢(shì)。
第二批進(jìn)入群體感染的是甘肅蘭州、河南洛陽(yáng)與河北保定,時(shí)間在11月17日到11月18日。
接下來的兩個(gè)星期,邯鄲、廊坊、唐山、滄州、衡水、張家口……除了承德市暫時(shí)保持穩(wěn)定以外,河北省全境都已經(jīng)開始群體感染。
河南的群體感染也在快速進(jìn)行。洛陽(yáng)之后,緊接著是新鄉(xiāng)、商丘、南陽(yáng)、鄭州、周口、平頂山、開封。
甘肅在蘭州之后,臨夏、甘南兩個(gè)自治州也在11月下旬開始群體感染。
北京是全國(guó)首個(gè)進(jìn)入群體感染的大城市,時(shí)間點(diǎn)是11月27日。接下來,重慶、武漢、昆明、成都……
這只是一個(gè)開始,由于我們的方法實(shí)際上是在群體感染的確認(rèn)出現(xiàn)七天之后向前回溯,因此若是一個(gè)城市的感染在12月2日之后開始,便不可能被該信號(hào)鎖定。因此一些城市的感染雖然已經(jīng)有明顯的趨勢(shì),但也沒有能被列入該表內(nèi),這些城市如下表所示。
即將開始群體感染的城市
這些城市會(huì)在未來一星期左右被正式確認(rèn)進(jìn)入群體感染。
首輪感染高峰將在何時(shí)出現(xiàn)?
我們又對(duì)臺(tái)灣地區(qū)、香港特別行政區(qū)和日本的感染情況與“發(fā)燒”搜索指數(shù)進(jìn)行了分析,發(fā)現(xiàn)一個(gè)可能可以幫助預(yù)測(cè)感染高峰期的方法:
1)將Google搜索指數(shù)分為疫情期間和非疫情期間,疫情期間的搜索指數(shù)對(duì)非疫情期間搜索指數(shù)均值做標(biāo)準(zhǔn)化后進(jìn)行累加:
超額發(fā)燒搜索指數(shù)累積面積
其中S的含義是這樣的:如果發(fā)燒的搜索是發(fā)燒人口的一個(gè)相對(duì)穩(wěn)定的比例,且在非疫情期間發(fā)燒人口是總?cè)丝诘南鄬?duì)穩(wěn)定的比例,那么S就正比于疫情感染的人口占總?cè)丝诘谋壤覀儼阉凶觥俺~發(fā)燒搜索指數(shù)累計(jì)面積”
2)下圖列出了臺(tái)灣地區(qū)、香港特別行政區(qū)以及日本的“超額發(fā)燒搜索指數(shù)累計(jì)面積”,即下圖橙色面積、藍(lán)色面積和灰色面積。
超額發(fā)燒搜索指數(shù)累計(jì)面積
我們發(fā)現(xiàn)在這三個(gè)地區(qū),當(dāng)疫情達(dá)到頂峰時(shí),這個(gè)“超額發(fā)燒搜索指數(shù)累計(jì)面積”的數(shù)值全部剛好達(dá)到80。這兩個(gè)地區(qū)第一波疫情結(jié)束時(shí),香港特別行政區(qū)的面積達(dá)到了160,臺(tái)灣地區(qū)的面積達(dá)到了200,日本的最終面積是250。
3)如果用百度搜索指數(shù)做類似的研究會(huì)有什么效果呢?我使用了本輪疫情進(jìn)入群體感染最快、最早的石家莊、邢臺(tái)和保定做了計(jì)算:
石家莊、邢臺(tái)、保定相關(guān)指數(shù)
可以算出,從疫情開始后計(jì)算,石家莊的“超額發(fā)燒搜索指數(shù)累計(jì)面積”已經(jīng)達(dá)到了76,邢臺(tái)已經(jīng)達(dá)到了67,保定也達(dá)到了71。
由此來看,百度搜索指數(shù)和Google指數(shù)分別算出的“超額發(fā)燒搜索指數(shù)累計(jì)面積”,至少是在一個(gè)差不多的數(shù)量級(jí)上。
4)考慮到保定、石家莊、邢臺(tái)等地的發(fā)燒指數(shù)仍然在上升,以及百度搜索指數(shù)和Google指數(shù)的差異,我們比較保守地將100作為疫情達(dá)峰時(shí)的“超額發(fā)燒搜索指數(shù)累計(jì)面積”,將250作為第一輪疫情結(jié)束時(shí)的“超額發(fā)燒搜索指數(shù)累計(jì)面積”。
那么我們通過每個(gè)城市的搜索指數(shù)累計(jì)增長(zhǎng),累計(jì)速度,就可以算出現(xiàn)在每一個(gè)有疫情的城市疫情達(dá)峰的時(shí)間,以及疫情結(jié)束的時(shí)間。
這是計(jì)算的結(jié)果,列出了所有能在明年春節(jié)前達(dá)峰的城市以及這些城市在達(dá)峰前已經(jīng)感染的人口比例(截止至12月13日)。
根據(jù)搜索指數(shù)測(cè)算的達(dá)峰時(shí)間
數(shù)據(jù)不足,方法簡(jiǎn)陋,僅供參考。
查詢城市數(shù)據(jù)團(tuán)推文相關(guān)數(shù)據(jù),可在微信小程序里搜索“數(shù)據(jù)團(tuán)+”