測評榜單MathEval發布，大(dà)模型數學能力有了(le／liǎo)“風向标”

2024-03-05

近日，大(dà)模型數學能力測評基準MathEval上(shàng)線（官網：https://matheval.ai)，并已在(zài)官網發布最新測評榜單，學而(ér)思旗下九章大(dà)模型奪得冠軍。

ad7f83df1f8261ad047fd560e7e4472b_html_66b721575c260f72.png

圖：MathEval官網測評榜單

根據官網信息，MathEval由智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台聯合暨南大(dà)學、北京師範大(dà)學、華東師範大(dà)學、西安交通大(dà)學、香港城市大(dà)學共同發起，是(shì)一(yī / yì ／yí)個(gè)專注于(yú)全面評估大(dà)模型數學能力的(de)測評基準，共包含19個(gè)數學領域測評集、近30K道(dào)數學題目，旨在(zài)全面評估大(dà)模型在(zài)包含算術，小初高競賽和(hé / huò)部分高等數學分支在(zài)内的(de)各階段、難度和(hé / huò)數學子(zǐ)領域的(de)解題能力表現。

目前，涉及數學的(de)應用領域正在(zài)越來(lái)越多地(dì / de)使用大(dà)模型，包括直接用大(dà)模型解決數學問題、使用大(dà)模型進行數據分析和(hé / huò)學術研究、幫助學習輔導等。但行業内此前還沒有較爲(wéi / wèi)全面、能覆蓋各國(guó)主流通用大(dà)模型和(hé / huò)垂類模型的(de)數學能力測評榜單。數學能力評測通常被包含在(zài)通用榜單或推理能力、自然科學能力的(de)排行之(zhī)中，缺乏一(yī / yì ／yí)緻的(de)标準。因此，MathEval作爲(wéi / wèi)專注于(yú)大(dà)模型數學能力的(de)測評基準能夠及時(shí)上(shàng)線，彌補了(le／liǎo)行業空白，對大(dà)模型領域在(zài)數學能力上(shàng)的(de)進一(yī / yì ／yí)步探索提升，可以(yǐ)提供非常有價值的(de)參考。

對大(dà)模型進行數學能力測評有一(yī / yì ／yí)些公認的(de)難點：首先，各數據集的(de)字段需要(yào / yāo)進行統一(yī / yì ／yí)，每個(gè)大(dà)模型也(yě)都有自己的(de)一(yī / yì ／yí)套Prompt模闆和(hé / huò)答案形式，要(yào / yāo)想給“思維方式”不(bù)同的(de)大(dà)模型進行統一(yī / yì ／yí)的(de)測試和(hé / huò)比較，需要(yào / yāo)測評基準根據具體情況，設計符合需求的(de)抽取打分規則，才能從模型輸出(chū)的(de)内容中批量抽取出(chū)可以(yǐ)進一(yī / yì ／yí)步對比的(de)答案。這(zhè)對專業能力的(de)要(yào / yāo)求很高，因爲(wéi / wèi)抽取規則的(de)一(yī / yì ／yí)點點改動，都會影響到(dào)最終的(de)測評結果。

其次，要(yào / yāo)讓測評榜單的(de)結果具備足夠的(de)可參考性，就(jiù)要(yào / yāo)使用足夠豐富全面的(de)數據集，并盡量全面的(de)測評市面上(shàng)的(de)大(dà)模型，這(zhè)對測評方的(de)算力也(yě)提出(chū)了(le／liǎo)很高的(de)要(yào / yāo)求。

據悉，MathEval截至目前已測試了(le／liǎo)30個(gè)大(dà)模型（含同一(yī / yì ／yí)模型的(de)不(bù)同版本），且未來(lái)會加入新出(chū)現的(de)大(dà)模型，不(bù)定期更新榜單。在(zài)評測過程中，MathEval團隊使用了(le／liǎo)GPT4大(dà)模型來(lái)進行答案抽取和(hé / huò)答案的(de)匹配，減少基于(yú)規則進行評測所帶來(lái)的(de)誤差，并根據每個(gè)模型的(de)Prompt模闆進行了(le／liǎo)适配，以(yǐ)激發每個(gè)模型本身能達到(dào)的(de)最佳效果。

從MathEval已發布的(de)測評榜單來(lái)看，學而(ér)思旗下九章大(dà)模型在(zài)整體表現和(hé / huò)中文、英文、各學段子(zǐ)榜單中，都具備領先優勢，作爲(wéi / wèi)少有的(de)專注于(yú)數學解題和(hé / huò)講題能力的(de)大(dà)模型，九章大(dà)模型的(de)這(zhè)一(yī / yì ／yí)表現可以(yǐ)說(shuō)是(shì)并不(bù)意外。而(ér)作爲(wéi / wèi)通用大(dà)模型的(de)文心一(yī / yì ／yí)言4.0、訊飛星火V3.5在(zài)測評中的(de)表現也(yě)頗爲(wéi / wèi)亮眼，占據了(le／liǎo)第二、三位，均優于(yú)GPT-4。可以(yǐ)說(shuō)，國(guó)産大(dà)模型在(zài)數學方面的(de)能力已經實現了(le／liǎo)趕超，未來(lái)還将如何提升及落地(dì / de)在(zài)應用場景，值得期待。

本文轉自：中國(guó)網 http://szjj.china.com.cn/2024-03/04/content_42712491.html

上(shàng)一(yī / yì ／yí)篇：用AI教會孩子(zǐ)獨立思考？學而(ér)思“随時(shí)問”已經邁出(chū)關鍵一(yī / yì ／yí)步

下一(yī / yì ／yí)篇：學而(ér)思聯合谷歌等發起全球大(dà)模型數學解題競賽，120支隊伍同場競技

新聞中心

News center

測評榜單MathEval發布，大(dà)模型數學能力有了(le／liǎo)“風向标”