网址你懂的免费在线观看成人,中文字幕日韩人妻视频一区

近日，北京大學(xué)化學(xué)與分子工程學(xué)院聯(lián)合計(jì)算中心、計(jì)算機(jī)學(xué)院、元培學(xué)院發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem。該基準(zhǔn)針對(duì)當(dāng)前化學(xué)知識(shí)水平評(píng)測(cè)中題目難度有限、多模態(tài)與推理過程評(píng)估缺失等不足，系統(tǒng)構(gòu)建了專注評(píng)估大語言模型（LLM）化學(xué)推理分析能力的新體系，旨在推動(dòng)化學(xué)智能評(píng)測(cè)的深入發(fā)展。

2025年，隨著開源推理模型DeepSeek-R1推出，LLM在“深度思考”范式下快速發(fā)展，其在自然科學(xué)領(lǐng)域的應(yīng)用已從簡(jiǎn)單問答轉(zhuǎn)向復(fù)雜推理。然而，現(xiàn)有通用科學(xué)基準(zhǔn)趨于飽和，化學(xué)專用基準(zhǔn)多關(guān)注基礎(chǔ)能力與化學(xué)信息學(xué)任務(wù)，缺乏對(duì)深度推理的系統(tǒng)考察。

從基礎(chǔ)教育、化學(xué)奧賽到高等教育，化學(xué)學(xué)習(xí)強(qiáng)調(diào)知識(shí)綜合運(yùn)用與多步推理，是評(píng)估推理分析能力的理想場(chǎng)景。設(shè)計(jì)高質(zhì)量評(píng)估題目需融合抽象概念與具體情境，構(gòu)建層層遞進(jìn)的推理鏈，對(duì)出題者專業(yè)素養(yǎng)要求極高。

研究團(tuán)隊(duì)依托北京大學(xué)化學(xué)與分子工程學(xué)院高水平的學(xué)生群體，充分發(fā)揮其扎實(shí)學(xué)科功底與豐富解題命題經(jīng)驗(yàn)，對(duì)已有題目素材進(jìn)行準(zhǔn)確評(píng)估與合理優(yōu)化，共同構(gòu)建了SUPERChem基準(zhǔn)，填補(bǔ)了化學(xué)深度推理評(píng)估的空白。

SUPERChem總覽與例題

SUPERChem題庫的三階段審核流程

SUPERChem題庫由北大化學(xué)專業(yè)近百名師生共建，涵蓋題目編寫、解析撰寫及嚴(yán)格評(píng)審的三階段審核。題目源自專業(yè)改編，并采用防泄漏設(shè)計(jì)，避免LLM依賴記憶或從選項(xiàng)逆推。針對(duì)化學(xué)信息的多模態(tài)特點(diǎn)，同步提供圖文交錯(cuò)與純文本版本的對(duì)齊數(shù)據(jù)集，支持探究視覺信息對(duì)推理的影響。

目前，SUPERChem先期發(fā)布500道專家級(jí)精選題目，覆蓋結(jié)構(gòu)與性質(zhì)、化學(xué)反應(yīng)與合成、化學(xué)原理與計(jì)算、實(shí)驗(yàn)設(shè)計(jì)與分析等四大化學(xué)核心領(lǐng)域。為細(xì)粒度評(píng)估LLM思考過程，SUPERChem引入推理路徑一致性（Reasoning Path Fidelity，RPF）指標(biāo)：團(tuán)隊(duì)為每道題目撰寫了含關(guān)鍵檢查點(diǎn)的詳細(xì)解析，通過自動(dòng)化評(píng)估模型思維鏈與解析的一致性，判別模型是否真正“理解”化學(xué)。

前沿模型在SUPERChem上的表現(xiàn)

評(píng)測(cè)結(jié)果顯示，SUPERChem具有較高難度與區(qū)分度。在化學(xué)專業(yè)低年級(jí)本科生閉卷測(cè)試中，人類準(zhǔn)確率為40.3%。參與評(píng)測(cè)的前沿模型中，表現(xiàn)最佳的GPT-5（High）準(zhǔn)確率為38.5%，表明其化學(xué)推理能力與低年級(jí)本科生水平相當(dāng)，尚未超越人類基礎(chǔ)專業(yè)認(rèn)知。

前沿模型的正確率與RPF關(guān)系

分析RPF指標(biāo)可見，不同模型推理過程質(zhì)量差異明顯：Gemini-2.5-Pro和GPT-5（High）在取得較高準(zhǔn)確率的同時(shí)，其推理邏輯也更符合專家路徑；而DeepSeek-V3.1-Think雖然準(zhǔn)確率相近，但RPF得分相對(duì)較低，反映其更傾向通過啟發(fā)式路徑得出結(jié)論。

輸入模態(tài)對(duì)不同模型的影響

在依賴多模態(tài)輸入的題目中，視覺信息對(duì)不同模型影響各異。對(duì)Gemini-2.5-Pro等強(qiáng)推理模型，圖像輸入可提升準(zhǔn)確率；而對(duì)GPT-4o等推理能力較弱的模型，圖像信息會(huì)造成干擾。這表明在科學(xué)任務(wù)中需根據(jù)模型能力匹配合適的輸入模態(tài)。

為進(jìn)一步探究LLM推理失敗的深層原因，研究團(tuán)隊(duì)進(jìn)行了推理斷點(diǎn)分析。結(jié)果表明，前沿模型的推理斷點(diǎn)集中于產(chǎn)物結(jié)構(gòu)預(yù)測(cè)、反應(yīng)機(jī)理識(shí)別、構(gòu)效關(guān)系分析等高階化學(xué)推理環(huán)節(jié)。這反映出當(dāng)前LLM在涉及反應(yīng)性與分子結(jié)構(gòu)理解的核心任務(wù)上仍存在短板。

推理斷點(diǎn)所屬化學(xué)能力分布

綜上所述，SUPERChem為系統(tǒng)評(píng)估大語言模型的化學(xué)推理能力提供了細(xì)致、可靠的基準(zhǔn)。評(píng)測(cè)結(jié)果指出，當(dāng)前前沿模型的化學(xué)能力仍處于基礎(chǔ)水平，在涉及高階化學(xué)推理能力的任務(wù)上存在明顯局限，為后續(xù)模型的針對(duì)性優(yōu)化提供了明確方向。

SUPERChem項(xiàng)目由北京大學(xué)化學(xué)與分子工程學(xué)院和元培學(xué)院的趙澤華、黃志賢、李雋仁、林思宇同學(xué)領(lǐng)銜完成。近百位化學(xué)與分子工程學(xué)院博士生和高年級(jí)本科生參與題庫構(gòu)建與審核，其中包括多位國(guó)際與中國(guó)化學(xué)奧林匹克決賽獲獎(jiǎng)選手。174位北京大學(xué)化學(xué)專業(yè)低年級(jí)本科生參與了人類基線測(cè)試。

SUPERChem項(xiàng)目在北京大學(xué)化學(xué)與分子工程學(xué)院裴堅(jiān)、高珍老師，計(jì)算中心馬皓老師，計(jì)算機(jī)學(xué)院楊仝老師的指導(dǎo)下開展。項(xiàng)目獲得北京大學(xué)計(jì)算中心與高性能計(jì)算平臺(tái)資源支持，來自Chemy、好未來、質(zhì)心教育等機(jī)構(gòu)和化學(xué)與分子工程學(xué)院鄒鵬、鄭捷等多位教授的題目素材支持以及高楊、龍汀汀老師的專業(yè)協(xié)助。
信息來源：北大化學(xué)與分子工程學(xué)院

久久国产一区色婷日韩精品,精品久久久久久久久久久AⅤ,午夜福利精品视频免费看,欧美国产一区二区三区小说

教學(xué)設(shè)備

產(chǎn)品分類

北大團(tuán)隊(duì)發(fā)布化學(xué)大模型基準(zhǔn)SUPERChem