ChatGPT對統計學發展的影響

我局官微“上海統計”已開設專欄“理論應用”,內容聚焦前沿理論、立足全球視野,以傳播現代統計方法、實踐和成功案例爲主,助推統計人科研水平提高和統計事業的改革發展,歡迎大家及時關注分享。

本期推送“ChatGPT對統計學發展的影響”。ChatGPT作爲大模型的一種應用,可以處理非結構化的文本數據,從中提取有用的信息,展現了其在文本數據分析中的強大能力。本文簡要介紹了ChatGPT的迭代歷程、主要特徵和功能,說明了其在統計學分析中的應用場景。總的來說,ChatGPT不僅可以實現定性分析與定量分析的相互結合,還可以作爲輔助工具,幫助統計學工作者在編程、文獻綜述和報告撰寫等方面提高工作效率,是一個強大的助手。

ChatGPT是一個典型的大模型。其第一個版本GPT-1,其參數數量爲1.17億,這已經是非常龐大的數量了。在GPT-2版本中,參數數量上升到15億。在GPT-3版本中,參數數量達到1750億。2022年11月,OpenAI正式推出了ChatGPT,即GPT-3的強化學習版本GPT-3.5。其主要方式是通過人機對話,當機器產生一定的輸出時,人類告訴它哪些是正確的,哪些是錯誤的,以此反饋信息給機器進行修正,極大改進了ChatGPT的學習效果。2023年4月,OpenAI進一步推出GPT-4,其重要突破是訓練數據從單一模態的文本數據變成多模態的文本與圖像數據,相應的參數維數也顯著增加。

ChatGPT的訓練之所以成爲可能,是計算機科學特別是算力與算法快速發展的結果。

ChatGPT具有幾個顯著的特徵。首先是智能性。目前全世界都在使用ChatGPT併爲其提供免費訓練,因此ChatGPT改進、迭代與完善的速度非常快,將逐漸接近人類的智能水平,並在許多方面超越人類。

其次是相關性。ChatGPT是一種生成式人工智能技術,其所生成的文字內容是大模型根據互聯網大數據中單詞詞組同時出現的概率來預測生成,這本質上是一種推測歸納的方法,而並不是因果推斷,或者說進行的是人工智能的因果推斷。

最後是通用性。ChatGPT使用的信息是互聯網公開信息,可以執行各種任務,包括生成結構化知識、提供解決問題的方案以及進行邏輯推理等,幫助提升人類的決策能力與決策水平。ChatGPT的這些重要特徵都是基於互聯網海量大數據與大語言模型而實現的。

ChatGPT作爲大語言模型的代表,展示了其在處理文本數據方面的強大能力。它通過深度學習算法,能夠對海量的文本數據進行訓練和分析,並生成高質量的自然語言輸出。對於統計學工作者而言,這種能力爲文本數據的定量分析提供了全新的工具。

ChatGPT能夠從非結構化的文本數據中提取出有價值的信息,這在傳統的統計分析中是難以實現的。通過自然語言處理技術,ChatGPT可以識別文本中的語義關係、情感傾向等,從而爲統計分析提供更多的維度。這對於需要分析大量文本數據的領域(如輿情分析、市場研究等)尤其重要。這種多維度的信息可以更好的刻畫模型中的異質性,從而使模型具有更好的泛化能力。例如,如果在一個文本數據中,一半的人是悲觀情緒,另一半的人是樂觀情緒,則基於關鍵詞加總而得到的情緒指數可能在整體上既不表示悲觀也不表示樂觀,原有的異質性情緒消失了,而ChatGPT可用於構建微觀層面(如每個消費者、投資者)的心理變量,避免由於加總而導致異質性心理信息的損失。

在統計學的實際工作中,ChatGPT可以在多個方面發揮作用。例如,在數據處理階段,統計學工作者通常需要清理、整理和預處理大量的數據。ChatGPT可以通過自然語言處理技術,幫助工作者更快、更準確地處理非結構化數據。ChatGPT還可以用於生成統計報告、撰寫研究論文等任務。統計學工作者可以利用ChatGPT生成初步的文本內容,並在此基礎上進行修改和完善。這不僅提高了工作效率,還減少了重複性勞動,使統計學家能夠將更多時間和精力投入到複雜的分析工作中。

ChatGPT的一個顯著特點是其在定性分析與定量分析之間的橋樑作用。傳統的統計學分析通常集中在定量數據的處理和分析上,而定性數據往往被忽略或僅作輔助分析。然而,ChatGPT能夠將定性數據轉化爲定量分析的輸入,從而實現定性與定量分析的統一。

例如,在市場研究中,傳統的定量分析可能只關注銷售數據、消費者行爲數據等結構化數據,而忽視了消費者評論、社交媒體討論等非結構化文本數據中的信息。ChatGPT能夠從這些文本數據中提取出消費者情緒、偏好等信息,並將其量化,從而爲市場分析提供更加全面的視角。

通過這種方式,ChatGPT使得統計學分析不再侷限於傳統的定量數據,而是能夠結合定性數據,提供更加豐富和多維的分析結果。這種能力對於需要綜合多種數據來源的研究尤其重要,如社會科學研究、政策分析等領域。

ChatGPT還可以成爲統計學工作者的一個強大的助手。對於統計學工作者而言,編程是日常工作中不可或缺的一部分。無論是數據處理、模型構建,還是結果分析,都需要依賴編程來實現。ChatGPT可以在這一過程中提供重要的幫助。例如,當工作者在編寫代碼時遇到困難,ChatGPT可以提供代碼示例、錯誤調試建議,甚至是整段代碼的生成。

此外,在進行文獻綜述時,ChatGPT可以快速梳理和總結相關領域的研究進展。這不僅能夠節省大量的時間和精力,還可以幫助統計學工作者更快地把握研究熱點和趨勢,從而在撰寫論文時更加得心應手。

資料來源:《ChatGPT 與大模型將對經濟學研究範式產生什麼影響?》,計量經濟學報,2024年第1期,作者:洪永淼,汪壽陽

編撰:上海社會科學院 馬博然

供稿:市統計學會

責編:薛依宜

審覈:楊榮

特別聲明:本文經上觀新聞客戶端的“上觀號”入駐單位授權發佈,僅代表該入駐單位觀點,“上觀新聞”僅爲信息發佈平臺,如您認爲發佈內容侵犯您的相關權益,請聯繫刪除!