近日,北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合計(jì)算中心、計(jì)算機(jī)學(xué)院、元培學(xué)院發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem。該基準(zhǔn)針對(duì)當(dāng)前化學(xué)知識(shí)水平評(píng)測(cè)中題目難度有限、多模態(tài)與推理過程評(píng)估缺失等不足,系統(tǒng)構(gòu)建了專注評(píng)估大語言模型(LLM)化學(xué)推理分析能力的新體系,旨在推動(dòng)化學(xué)智能評(píng)測(cè)的深入發(fā)展。
2025年,隨著開源推理模型DeepSeek-R1推出,LLM在“深度思考”范式下快速發(fā)展,其在自然科學(xué)領(lǐng)域的應(yīng)用已從簡(jiǎn)單問答轉(zhuǎn)向復(fù)雜推理。然而,現(xiàn)有通用科學(xué)基準(zhǔn)趨于飽和,化學(xué)專用基準(zhǔn)多關(guān)注基礎(chǔ)能力與化學(xué)信息學(xué)任務(wù),缺乏對(duì)深度推理的系統(tǒng)考察。
從基礎(chǔ)教育、化學(xué)奧賽到高等教育,化學(xué)學(xué)習(xí)強(qiáng)調(diào)知識(shí)綜合運(yùn)用與多步推理,是評(píng)估推理分析能力的理想場(chǎng)景。設(shè)計(jì)高質(zhì)量評(píng)估題目需融合抽象概念與具體情境,構(gòu)建層層遞進(jìn)的推理鏈,對(duì)出題者專業(yè)素養(yǎng)要求極高。
研究團(tuán)隊(duì)依托北京大學(xué)化學(xué)與分子工程學(xué)院高水平的學(xué)生群體,充分發(fā)揮其扎實(shí)學(xué)科功底與豐富解題命題經(jīng)驗(yàn),對(duì)已有題目素材進(jìn)行準(zhǔn)確評(píng)估與合理優(yōu)化,共同構(gòu)建了SUPERChem基準(zhǔn),填補(bǔ)了化學(xué)深度推理評(píng)估的空白。

SUPERChem總覽與例題

SUPERChem題庫的三階段審核流程
SUPERChem題庫由北大化學(xué)專業(yè)近百名師生共建,涵蓋題目編寫、解析撰寫及嚴(yán)格評(píng)審的三階段審核。題目源自專業(yè)改編,并采用防泄漏設(shè)計(jì),避免LLM依賴記憶或從選項(xiàng)逆推。針對(duì)化學(xué)信息的多模態(tài)特點(diǎn),同步提供圖文交錯(cuò)與純文本版本的對(duì)齊數(shù)據(jù)集,支持探究視覺信息對(duì)推理的影響。
目前,SUPERChem先期發(fā)布500道專家級(jí)精選題目,覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計(jì)算、實(shí)驗(yàn)設(shè)計(jì)與分析等四大化學(xué)核心領(lǐng)域。為細(xì)粒度評(píng)估LLM思考過程,SUPERChem引入推理路徑一致性(Reasoning Path Fidelity,RPF)指標(biāo):團(tuán)隊(duì)為每道題目撰寫了含關(guān)鍵檢查點(diǎn)的詳細(xì)解析,通過自動(dòng)化評(píng)估模型思維鏈與解析的一致性,判別模型是否真正“理解”化學(xué)。

前沿模型在SUPERChem上的表現(xiàn)
評(píng)測(cè)結(jié)果顯示,SUPERChem具有較高難度與區(qū)分度。在化學(xué)專業(yè)低年級(jí)本科生閉卷測(cè)試中,人類準(zhǔn)確率為40.3%。參與評(píng)測(cè)的前沿模型中,表現(xiàn)最佳的GPT-5(High)準(zhǔn)確率為38.5%,表明其化學(xué)推理能力與低年級(jí)本科生水平相當(dāng),尚未超越人類基礎(chǔ)專業(yè)認(rèn)知。

前沿模型的正確率與RPF關(guān)系
分析RPF指標(biāo)可見,不同模型推理過程質(zhì)量差異明顯:Gemini-2.5-Pro和GPT-5(High)在取得較高準(zhǔn)確率的同時(shí),其推理邏輯也更符合專家路徑;而DeepSeek-V3.1-Think雖然準(zhǔn)確率相近,但RPF得分相對(duì)較低,反映其更傾向通過啟發(fā)式路徑得出結(jié)論。

輸入模態(tài)對(duì)不同模型的影響
在依賴多模態(tài)輸入的題目中,視覺信息對(duì)不同模型影響各異。對(duì)Gemini-2.5-Pro等強(qiáng)推理模型,圖像輸入可提升準(zhǔn)確率;而對(duì)GPT-4o等推理能力較弱的模型,圖像信息會(huì)造成干擾。這表明在科學(xué)任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。
為進(jìn)一步探究LLM推理失敗的深層原因,研究團(tuán)隊(duì)進(jìn)行了推理斷點(diǎn)分析。結(jié)果表明,前沿模型的推理斷點(diǎn)集中于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別、構(gòu)效關(guān)系分析等高階化學(xué)推理環(huán)節(jié)。這反映出當(dāng)前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。

推理斷點(diǎn)所屬化學(xué)能力分布
綜上所述,SUPERChem為系統(tǒng)評(píng)估大語言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。評(píng)測(cè)結(jié)果指出,當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平,在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限,為后續(xù)模型的針對(duì)性優(yōu)化提供了明確方向。
SUPERChem項(xiàng)目由北京大學(xué)化學(xué)與分子工程學(xué)院和元培學(xué)院的趙澤華、黃志賢、李雋仁、林思宇同學(xué)領(lǐng)銜完成。近百位化學(xué)與分子工程學(xué)院博士生和高年級(jí)本科生參與題庫構(gòu)建與審核,其中包括多位國(guó)際與中國(guó)化學(xué)奧林匹克決賽獲獎(jiǎng)選手。174位北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生參與了人類基線測(cè)試。
SUPERChem項(xiàng)目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅(jiān)、高珍老師,計(jì)算中心馬皓老師,計(jì)算機(jī)學(xué)院楊仝老師的指導(dǎo)下開展。項(xiàng)目獲得北京大學(xué)計(jì)算中心與高性能計(jì)算平臺(tái)資源支持,來自Chemy、好未來、質(zhì)心教育等機(jī)構(gòu)和化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等多位教授的題目素材支持以及高楊、龍汀汀老師的專業(yè)協(xié)助。
信息來源: 北大化學(xué)與分子工程學(xué)院


