1月20日,在特朗普宣布啟動(dòng)總投資5000億美元的“星際之門(mén)” (Stargate)AI基礎設施計劃前一天,杭州深度求索人工智能基礎技術(shù)研究有限公司——一家此前名不見(jiàn)經(jīng)傳的中國企業(yè),將其開(kāi)發(fā)的大語(yǔ)言推理模型DeepSeek-R1以開(kāi)源形式上線(xiàn)。憑借高性能、低成本優(yōu)勢,這個(gè)初出茅廬的大模型立刻成為科技圈、投資圈和媒體圈乃至全網(wǎng)關(guān)注的焦點(diǎn)。
《中國化工報》記者注意到,春節假期后第 一周,多家上市企業(yè)宣布接入DeepSeek,帶動(dòng)上證科創(chuàng )板50成份指數和創(chuàng )業(yè)板指數均漲超5%。但這場(chǎng)帶著(zhù)全網(wǎng)起飛的“龍卷風(fēng)”,吹到石油和化工行業(yè)時(shí)卻好像減了速——迄今為止,鮮少有石油和化工企業(yè)加入這場(chǎng)狂歡。
對此,工業(yè)智能化、AI等研究領(lǐng)域的多位專(zhuān)家近日接受記者采訪(fǎng)時(shí)表示,DeepSeek橫空出世令人鼓舞,但要解決AI大模型在流程工業(yè)垂直應用的諸多難題并非易事,能否帶飛石油和化工行業(yè),仍需時(shí)間檢驗。
訓練便宜≠成本低 基礎設施花費仍然較高
DeepSeek能在網(wǎng)絡(luò )上掀起巨浪,甚至引發(fā)美國股市中英偉達等科技股出現“歷史性”大跌的核心“殺手锏”,在于其顛覆性的低成本與高 效 率。
根據深度求索公司官方放出的數據,DeepSeek僅用2048塊英偉達 H800圖形處理器(GPU)和557.6萬(wàn)美元的投入,就訓練出了規模達6710億參數的DeepSeek-V3。Open AI創(chuàng )始成員之一Andrej Karpathy表示,按照以往經(jīng)驗,行業(yè)內類(lèi)似能力級別的大模型大多使用約10萬(wàn)張GPU。例如,Llama 3 405B模型消耗了3080萬(wàn)GPU小時(shí),而DeepSeek-V3則用了280萬(wàn)GPU小時(shí),計算需求僅為前者的十一分之一。
此前,市場(chǎng)上也普遍認為同等參數規模的GPT-4訓練花費高達10億美元。而DeepSeek推出的DeepSeek-R1模型,推理成本僅為OpenAI新模型(o1)的三十分之一。許多后續研究團隊更是用較低的成本成功復現了DeepSeek的模型樣本。
從用戶(hù)端來(lái)看,這樣的數據似乎意味著(zhù)企業(yè)部署AI大模型的花費從“腳脖子打折”,個(gè)人用戶(hù)部署一個(gè)自有大模型好像也不再是夢(mèng)想。但這真的意味著(zhù)誰(shuí)都“用得起”大模型的時(shí)代到來(lái)了嗎?
“部署和訓練成本并不等同于應用成本?!币晃籌CT從業(yè)人士表示,DeepSeek成本的降低,主要是靠算法創(chuàng )新對訓練成本進(jìn)行了壓縮。根據官方數據,研究團隊在訓練模型時(shí)同時(shí)使用了8浮點(diǎn)混合精度訓練技術(shù)(FP8)、混合專(zhuān)家模型(MoE)以及自主研發(fā)的多頭潛在注意力(MLA)機制,解決了傳統Transformer模型在處理長(cháng)輸入序列時(shí)的內存瓶頸問(wèn)題,可將顯存占用降至傳統模型的5%~13%。
而應用成本則包括計算設施、傳輸設施的建設成本,數據收集與存儲成本等。以煉廠(chǎng)為例,一套催化裂化裝置每秒產(chǎn)生的數據點(diǎn)可能就多達上千個(gè),其中既包括每秒或幾分鐘就要采集一次的溫度和壓力數據,也包括需要長(cháng)期連續測定的催化劑活性數據,還有一些動(dòng)設備如泵的噪音、振動(dòng)幅度等其他數據,一家大型煉廠(chǎng)每年產(chǎn)生的數據量可能在千億級字節。即使DeepSeek依靠算法降低了對GPU服務(wù)器集群等計算設施的需求,其數據存儲與傳輸設施的剛性投入也難以降低,中小企業(yè)搭建自有大模型仍然存在困難。
圖靈獎得主、Meta AI科學(xué)家楊立昆(Yann LeCun)也公開(kāi)發(fā)聲強調,許多投資者對AI基礎設施投資存在“重大誤解”?!澳切凳畠|美元的資金中,很大一部分都投入到了推理基礎設施中,而不是訓練。數十億人運行 AI助手服務(wù)需要大量的計算,一旦你將視頻理解、推理、大規模內存和其他功能納入AI系統,推理成本就會(huì )增加?!睏盍⒗フf(shuō)。
模型幻覺(jué)難除 輸出內容并不完全可靠
此前,DeepSeek憑借一句“打動(dòng)你的是人類(lèi)集體智慧的回聲”在網(wǎng)絡(luò )上引起無(wú)數轉發(fā)和討論。出于好奇,記者也嘗試讓它進(jìn)行了多種風(fēng)格的寫(xiě)作,在情感及純文學(xué)寫(xiě)作中表現出色的DeepSeek,在涉及專(zhuān)業(yè)數據時(shí)卻有些“不知所云”,它給出了歐洲某家煉油廠(chǎng)應用AI優(yōu)化運維的案例,但記者按其給出的數據無(wú)法查證該煉油廠(chǎng)是否真實(shí)存在,“追問(wèn)” DeepSeek也無(wú)法得到該煉油廠(chǎng)更具體的信息。
“這就是大語(yǔ)言模型(LLM)目前應用的一個(gè)大問(wèn)題——模型幻覺(jué)?!敝谢畔⒓夹g(shù)有限公司專(zhuān)家委員會(huì )副主任、華東理工大學(xué)講席教授馮恩波告訴記者,目前LLM僅能勝任知識或數據管理方面的工作,但如果讓它產(chǎn)生專(zhuān)業(yè)程度較強的新知識、新內容,就需要十分小心,因為“模型幻覺(jué)”目前在A(yíng)I深度學(xué)習領(lǐng)域中,仍是難以根除的問(wèn)題。
其中,一部分幻覺(jué)數據可以通過(guò)核對輸入內容和生成內容發(fā)現,并通過(guò)調整輸入關(guān)鍵詞來(lái)修正。例如,向AI詢(xún)問(wèn)“中國第 一家化工企業(yè)的名字是什么?”,AI可能會(huì )由于抓取關(guān)鍵詞的不同,給出“1880年成立的上海江蘇藥水廠(chǎng)是中國第 一家化工廠(chǎng)”或“始建于1954年的吉林化學(xué)工業(yè)公司(中國石油吉林石化分公司前身),是我國第 一家化工企業(yè)”的答案,用戶(hù)可以通過(guò)添加例如“新中國成立前/后”等關(guān)鍵詞再進(jìn)行篩選。
另一部分的幻覺(jué)則更加“危險”?!坝锌赡蹵I會(huì )給你一個(gè)語(yǔ)言華麗、數據漂亮的成果報告,但其中‘融化’了大量不確定性高,甚至在專(zhuān)業(yè)人士看來(lái)是謬論的數據?!瘪T恩波強調,尤其要謹防AI講話(huà)“真假參半”,將虛假的數據掩藏在大量專(zhuān)業(yè)詞匯和華麗的語(yǔ)言之后,因為即使是對相關(guān)從業(yè)者來(lái)說(shuō),一一核對與辨別這些案例和數據的不合理之處,也是非常困難的事情。如果這些摻雜“幻覺(jué)”的數據和知識進(jìn)入數據庫,被用在流程行業(yè)實(shí)際生產(chǎn)系統的實(shí)時(shí)優(yōu)化、實(shí)時(shí)控制等方面,可能造成嚴重后果。
對此,他建議,行業(yè)可以先利用大數據,建立較為準確的反應機理模型作為“司令員”,在此基礎上應用大語(yǔ)言推理模型作為“參謀長(cháng)”進(jìn)行輔助判斷,再由有經(jīng)驗的操作員***終驗證和確定反應流程的實(shí)時(shí)優(yōu)化與控制該如何進(jìn)行,從而提高模型應用的準確性與可靠性。
“目前,DeepSeek這樣的大模型也會(huì )造成很多‘幻覺(jué)’,但企業(yè)需要大模型在決策過(guò)程中能保證百分之百的準確性?!北本┲嘘P(guān)村科金技術(shù)有限公司總裁喻友平說(shuō):“大模型在面向企業(yè)端(To B)的應用離理想狀態(tài)還有很大距離,這比面對終端消費者(To C)場(chǎng)景的挑戰要大得多?!?/span>
數據“地基”不穩 廣泛應用尚有待時(shí)日
近年來(lái),能源化工行業(yè)AI大模型應用已經(jīng)取得了初步成績(jì),例如中國石油700億參數昆侖大模型、中控石化化工大模型、中國海油“海能”人工智能模型,但要實(shí)現更加廣泛的應用,仍在可用性與易用性方面面臨挑戰。多位業(yè)內專(zhuān)家表示,大語(yǔ)言推理模型在流程行業(yè)的應用仍然需要夯實(shí)數據和機理的“地基”,以保障其安全性與可靠性。
中國工程院院士、中國石油勘探開(kāi)發(fā)研究院正高級工程師劉合此前表示,數據治理是油氣行業(yè)AI大模型應用的關(guān)鍵,如何在保證數據安全和保密的前提下,充分整合分散的數據并訓練行業(yè)模型,是行業(yè)一直在探索的一個(gè)“大問(wèn)題”。
但對于石化行業(yè)來(lái)說(shuō),推動(dòng)數據治理,打牢大語(yǔ)言模型應用的“地基”并不容易。一方面,石化行業(yè)的數據環(huán)境極為復雜、數據來(lái)源廣,且受外部環(huán)境影響噪聲高,容易出現數據不完整的情況;另一方面,主流深度學(xué)習的模型通常在靜態(tài)數據集上進(jìn)行訓練,而實(shí)際生產(chǎn)是“牽一發(fā)而動(dòng)全身”,催化劑中毒、不同批次原料成分的細微改變,都會(huì )使設備狀態(tài)及工藝參數發(fā)生漂移,導致數據集逐漸“過(guò)期”,優(yōu)化模型也不再有效。劉合在其署名文章《油氣大模型破局需從三方面發(fā)力》中也提出,油氣企業(yè)必須強化數據全生命周期管理,從數據源頭、數據采集、數據清洗、數據融合和匹配、數據完整性增強、數據標注等環(huán)節嚴格規范,建立高質(zhì)量的訓練樣本庫,提升數據治理能力,從而為行業(yè)大模型提供堅實(shí)的數據基礎。
“除了挖掘數據與場(chǎng)景價(jià)值點(diǎn)外,石化企業(yè)應用大模型的另一個(gè)重點(diǎn)是安全性和保密性問(wèn)題?!闭憬潞统晒煞萦邢薰具\營(yíng)首席專(zhuān)家鄭根土認為,數據安全治理也是企業(yè)所擔憂(yōu)的問(wèn)題,目前國家已經(jīng)出臺了數據流通安全治理的相關(guān)法案,但數據流通安全治理體系仍然有待構建,相關(guān)機制也并不完善,需要企業(yè)、行業(yè)與相關(guān)部門(mén)多方協(xié)同,提高行業(yè)數據流通與應用的監管效能。
喻友平表示:“展望未來(lái),AI在To B領(lǐng)域的應用將面臨轉型與創(chuàng )新的雙重挑戰。企業(yè)需要逐步建立基于大模型的智能決策系統,同時(shí)考慮如何增強系統的透明性,確保AI生成內容的可追溯性與可靠性。此外,還應密切關(guān)注相關(guān)法規政策,以預防不當使用AI技術(shù)可能帶來(lái)的法律和倫理問(wèn)題?!?/span>
如有侵權 請聯(lián)系刪除