據(jù)中央廣播電視總臺經(jīng)濟之聲《天下財經(jīng)》報道,生成式人工智能大模型誕生在海量數(shù)據(jù)的基礎上,而統(tǒng)計也是一項收集和處理數(shù)據(jù)的工作,那么大模型對統(tǒng)計有什么影響?兩者怎樣結合?對外經(jīng)濟貿易大學智慧數(shù)據(jù)研究中心日前舉辦“人工智能與統(tǒng)計:理論與實務”專題學術交流活動,多位統(tǒng)計專家在會上發(fā)表了觀點。
專題學術交流活動現(xiàn)場(記者呂紅橋 攝)
“設定幾個指標,弄一份調查問卷,發(fā)放和回收問卷,記錄和分析結果”在不少人的印象中,這就是統(tǒng)計。實際上,統(tǒng)計工作遠比這科學和復雜得多,涉及數(shù)據(jù)收集、清洗、分析、建模、驗證等多個流程。而AI大模型誕生后,統(tǒng)計工作正迎來變革。統(tǒng)計專家施建軍在研討會上表示,大部分統(tǒng)計環(huán)節(jié)大模型都可以完成,而且效率非常高。以統(tǒng)計年鑒編寫為例,只要輸入數(shù)據(jù)和格式,就能快速自動生成。那么,有了大模型,傳統(tǒng)統(tǒng)計會不會慢慢消亡?
施建軍表示:“我個人認為統(tǒng)計不會消亡,但是方法手段要更新,要在短時間內大規(guī)模更新到新的知識體系。傳統(tǒng)統(tǒng)計人員如果不能迎接AI的挑戰(zhàn),不能更新知識體系,他們可能面臨著轉型壓力,這是一個自然的、歷史的過程。 ”
字節(jié)跳動資深AI專家李檀認為,當前正在經(jīng)歷統(tǒng)計研究的“伽利略時刻”,當傳統(tǒng)抽樣調查遭遇大模型的千萬億級參數(shù)訓練,統(tǒng)計工作者需要重新思考,如何駕馭這種新型生產(chǎn)力工具。在施建軍看來,統(tǒng)計工作者駕馭大模型首先要應對數(shù)據(jù)隱私和安全挑戰(zhàn)。
施建軍說:“統(tǒng)計面臨的最大挑戰(zhàn)是數(shù)據(jù)隱私和安全。因為統(tǒng)計數(shù)據(jù)要保密,但是太保密了也收集不到數(shù)據(jù),大規(guī)模數(shù)據(jù)采集可能侵犯公民個人隱私。還有算法的‘黑箱’和公信力,將來AI如果缺乏透明度,(統(tǒng)計結果)可信度就會受到猜疑。 ”
施建軍建議強化數(shù)據(jù)治理和隱私保護、數(shù)據(jù)審計,提升算法透明度與公信力。
目前,一些高校正在建設應用經(jīng)濟學等垂類大模型和智能體,以更好地完成統(tǒng)計等各類工作。對外經(jīng)濟貿易大學副校長黃薇表示,這個過程中目前最有挑戰(zhàn)的就是語料庫的建設。
黃薇說:“在建大模型智能體的過程當中,一個最深刻的感受就是高質量語料庫的建設挑戰(zhàn)。要喂進去什么樣的東西?數(shù)據(jù)的質量怎么樣?所以在高質量語料庫的把握上,可能要很考驗數(shù)據(jù)科學家的前瞻性。如果喂進去的是‘精飼料’,我覺得出來的結果可能會減少一些大模型幻覺。 ”
對于如何提高數(shù)據(jù)質量,專家建議加強數(shù)據(jù)清洗整理,把數(shù)據(jù)場景化,按照用途給數(shù)據(jù)打上標簽,提高數(shù)據(jù)的實用性。
此外,用大模型做統(tǒng)計,還要解決非結構化數(shù)據(jù)處理難題。數(shù)據(jù)載體不光是文本、數(shù)字,還有聲音、圖像等,這些多模態(tài)數(shù)據(jù)如何系統(tǒng)收集和處理,也需要進一步改進。國務院參事鮮祖德指出,用大模型提高統(tǒng)計水平,需要加強人工智能與統(tǒng)計生產(chǎn)方式的深層融合。
鮮祖德介紹:“人工智能不是簡單的技術外掛,而是未來統(tǒng)計體系的重要組成部分。從調查設計、數(shù)據(jù)采集,數(shù)據(jù)處理、數(shù)據(jù)發(fā)布、數(shù)據(jù)分析各個環(huán)節(jié),人工智能要與各個環(huán)節(jié)協(xié)同,建立跨部門協(xié)調機制,統(tǒng)籌推進人工智能與統(tǒng)計制度、標準、調查方法、分析方法、監(jiān)督方法系統(tǒng)融合。”