測評榜單MathEval發布,大(dà)模型數學能力有了(le/liǎo)“風向标”
2024-03-05
近日,大(dà)模型數學能力測評基準MathEval上(shàng)線(官網:https://matheval.ai),并已在(zài)官網發布最新測評榜單,學而(ér)思旗下九章大(dà)模型奪得冠軍。
圖:MathEval官網測評榜單
根據官網信息,MathEval由智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台聯合暨南大(dà)學、北京師範大(dà)學、華東師範大(dà)學、西安交通大(dà)學、香港城市大(dà)學共同發起,是(shì)一(yī / yì /yí)個(gè)專注于(yú)全面評估大(dà)模型數學能力的(de)測評基準,共包含19個(gè)數學領域測評集、近30K道(dào)數學題目,旨在(zài)全面評估大(dà)模型在(zài)包含算術,小初高競賽和(hé / huò)部分高等數學分支在(zài)内的(de)各階段、難度和(hé / huò)數學子(zǐ)領域的(de)解題能力表現。
目前,涉及數學的(de)應用領域正在(zài)越來(lái)越多地(dì / de)使用大(dà)模型,包括直接用大(dà)模型解決數學問題、使用大(dà)模型進行數據分析和(hé / huò)學術研究、幫助學習輔導等。但行業内此前還沒有較爲(wéi / wèi)全面、能覆蓋各國(guó)主流通用大(dà)模型和(hé / huò)垂類模型的(de)數學能力測評榜單。數學能力評測通常被包含在(zài)通用榜單或推理能力、自然科學能力的(de)排行之(zhī)中,缺乏一(yī / yì /yí)緻的(de)标準。因此,MathEval作爲(wéi / wèi)專注于(yú)大(dà)模型數學能力的(de)測評基準能夠及時(shí)上(shàng)線,彌補了(le/liǎo)行業空白,對大(dà)模型領域在(zài)數學能力上(shàng)的(de)進一(yī / yì /yí)步探索提升,可以(yǐ)提供非常有價值的(de)參考。
對大(dà)模型進行數學能力測評有一(yī / yì /yí)些公認的(de)難點:首先,各數據集的(de)字段需要(yào / yāo)進行統一(yī / yì /yí),每個(gè)大(dà)模型也(yě)都有自己的(de)一(yī / yì /yí)套Prompt模闆和(hé / huò)答案形式,要(yào / yāo)想給“思維方式”不(bù)同的(de)大(dà)模型進行統一(yī / yì /yí)的(de)測試和(hé / huò)比較,需要(yào / yāo)測評基準根據具體情況,設計符合需求的(de)抽取打分規則,才能從模型輸出(chū)的(de)内容中批量抽取出(chū)可以(yǐ)進一(yī / yì /yí)步對比的(de)答案。這(zhè)對專業能力的(de)要(yào / yāo)求很高,因爲(wéi / wèi)抽取規則的(de)一(yī / yì /yí)點點改動,都會影響到(dào)最終的(de)測評結果。
其次,要(yào / yāo)讓測評榜單的(de)結果具備足夠的(de)可參考性,就(jiù)要(yào / yāo)使用足夠豐富全面的(de)數據集,并盡量全面的(de)測評市面上(shàng)的(de)大(dà)模型,這(zhè)對測評方的(de)算力也(yě)提出(chū)了(le/liǎo)很高的(de)要(yào / yāo)求。
據悉,MathEval截至目前已測試了(le/liǎo)30個(gè)大(dà)模型(含同一(yī / yì /yí)模型的(de)不(bù)同版本),且未來(lái)會加入新出(chū)現的(de)大(dà)模型,不(bù)定期更新榜單。在(zài)評測過程中,MathEval團隊使用了(le/liǎo)GPT4大(dà)模型來(lái)進行答案抽取和(hé / huò)答案的(de)匹配,減少基于(yú)規則進行評測所帶來(lái)的(de)誤差,并根據每個(gè)模型的(de)Prompt模闆進行了(le/liǎo)适配,以(yǐ)激發每個(gè)模型本身能達到(dào)的(de)最佳效果。
從MathEval已發布的(de)測評榜單來(lái)看,學而(ér)思旗下九章大(dà)模型在(zài)整體表現和(hé / huò)中文、英文、各學段子(zǐ)榜單中,都具備領先優勢,作爲(wéi / wèi)少有的(de)專注于(yú)數學解題和(hé / huò)講題能力的(de)大(dà)模型,九章大(dà)模型的(de)這(zhè)一(yī / yì /yí)表現可以(yǐ)說(shuō)是(shì)并不(bù)意外。而(ér)作爲(wéi / wèi)通用大(dà)模型的(de)文心一(yī / yì /yí)言4.0、訊飛星火V3.5在(zài)測評中的(de)表現也(yě)頗爲(wéi / wèi)亮眼,占據了(le/liǎo)第二、三位,均優于(yú)GPT-4。可以(yǐ)說(shuō),國(guó)産大(dà)模型在(zài)數學方面的(de)能力已經實現了(le/liǎo)趕超,未來(lái)還将如何提升及落地(dì / de)在(zài)應用場景,值得期待。
本文轉自:中國(guó)網 http://szjj.china.com.cn/2024-03/04/content_42712491.html
上(shàng)一(yī / yì /yí)篇:用AI教會孩子(zǐ)獨立思考?學而(ér)思“随時(shí)問”已經邁出(chū)關鍵一(yī / yì /yí)步
下一(yī / yì /yí)篇:學而(ér)思聯合谷歌等發起全球大(dà)模型數學解題競賽,120支隊伍同場競技