網站地(dì / de)圖
關于(yú)我們
企業簡介
文化與價值觀
人(rén)才招聘
聯系我們
科技創新
教育科技
投資者關系
公司治理
新聞及活動
股票信息
财務信息
戰略投資
投資策略
投資方向
投資優勢
投資品牌
ESG
ESG戰略
ESG管理
定期報告
誠聘英才
社會招聘
校園招聘
GlobalTalent
法律聲明
職業準則
廉政合規

新聞中心

News center

測評榜單MathEval發布,大(dà)模型數學能力有了(le/liǎo)“風向标”

2024-03-05

近日,大(dà)模型數學能力測評基準MathEval上(shàng)線(官網:https://matheval.ai),并已在(zài)官網發布最新測評榜單,學而(ér)思旗下九章大(dà)模型奪得冠軍。

ad7f83df1f8261ad047fd560e7e4472b_html_66b721575c260f72.png

圖:MathEval官網測評榜單

根據官網信息,MathEval由智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台聯合暨南大(dà)學、北京師範大(dà)學、華東師範大(dà)學、西安交通大(dà)學、香港城市大(dà)學共同發起,是(shì)一(yī / yì /yí)個(gè)專注于(yú)全面評估大(dà)模型數學能力的(de)測評基準,共包含19個(gè)數學領域測評集、近30K道(dào)數學題目,旨在(zài)全面評估大(dà)模型在(zài)包含算術,小初高競賽和(hé / huò)部分高等數學分支在(zài)内的(de)各階段、難度和(hé / huò)數學子(zǐ)領域的(de)解題能力表現。

目前,涉及數學的(de)應用領域正在(zài)越來(lái)越多地(dì / de)使用大(dà)模型,包括直接用大(dà)模型解決數學問題、使用大(dà)模型進行數據分析和(hé / huò)學術研究、幫助學習輔導等。但行業内此前還沒有較爲(wéi / wèi)全面、能覆蓋各國(guó)主流通用大(dà)模型和(hé / huò)垂類模型的(de)數學能力測評榜單。數學能力評測通常被包含在(zài)通用榜單或推理能力、自然科學能力的(de)排行之(zhī)中,缺乏一(yī / yì /yí)緻的(de)标準。因此,MathEval作爲(wéi / wèi)專注于(yú)大(dà)模型數學能力的(de)測評基準能夠及時(shí)上(shàng)線,彌補了(le/liǎo)行業空白,對大(dà)模型領域在(zài)數學能力上(shàng)的(de)進一(yī / yì /yí)步探索提升,可以(yǐ)提供非常有價值的(de)參考。

對大(dà)模型進行數學能力測評有一(yī / yì /yí)些公認的(de)難點:首先,各數據集的(de)字段需要(yào / yāo)進行統一(yī / yì /yí),每個(gè)大(dà)模型也(yě)都有自己的(de)一(yī / yì /yí)套Prompt模闆和(hé / huò)答案形式,要(yào / yāo)想給“思維方式”不(bù)同的(de)大(dà)模型進行統一(yī / yì /yí)的(de)測試和(hé / huò)比較,需要(yào / yāo)測評基準根據具體情況,設計符合需求的(de)抽取打分規則,才能從模型輸出(chū)的(de)内容中批量抽取出(chū)可以(yǐ)進一(yī / yì /yí)步對比的(de)答案。這(zhè)對專業能力的(de)要(yào / yāo)求很高,因爲(wéi / wèi)抽取規則的(de)一(yī / yì /yí)點點改動,都會影響到(dào)最終的(de)測評結果。

其次,要(yào / yāo)讓測評榜單的(de)結果具備足夠的(de)可參考性,就(jiù)要(yào / yāo)使用足夠豐富全面的(de)數據集,并盡量全面的(de)測評市面上(shàng)的(de)大(dà)模型,這(zhè)對測評方的(de)算力也(yě)提出(chū)了(le/liǎo)很高的(de)要(yào / yāo)求。

據悉,MathEval截至目前已測試了(le/liǎo)30個(gè)大(dà)模型(含同一(yī / yì /yí)模型的(de)不(bù)同版本),且未來(lái)會加入新出(chū)現的(de)大(dà)模型,不(bù)定期更新榜單。在(zài)評測過程中,MathEval團隊使用了(le/liǎo)GPT4大(dà)模型來(lái)進行答案抽取和(hé / huò)答案的(de)匹配,減少基于(yú)規則進行評測所帶來(lái)的(de)誤差,并根據每個(gè)模型的(de)Prompt模闆進行了(le/liǎo)适配,以(yǐ)激發每個(gè)模型本身能達到(dào)的(de)最佳效果。

從MathEval已發布的(de)測評榜單來(lái)看,學而(ér)思旗下九章大(dà)模型在(zài)整體表現和(hé / huò)中文、英文、各學段子(zǐ)榜單中,都具備領先優勢,作爲(wéi / wèi)少有的(de)專注于(yú)數學解題和(hé / huò)講題能力的(de)大(dà)模型,九章大(dà)模型的(de)這(zhè)一(yī / yì /yí)表現可以(yǐ)說(shuō)是(shì)并不(bù)意外。而(ér)作爲(wéi / wèi)通用大(dà)模型的(de)文心一(yī / yì /yí)言4.0、訊飛星火V3.5在(zài)測評中的(de)表現也(yě)頗爲(wéi / wèi)亮眼,占據了(le/liǎo)第二、三位,均優于(yú)GPT-4。可以(yǐ)說(shuō),國(guó)産大(dà)模型在(zài)數學方面的(de)能力已經實現了(le/liǎo)趕超,未來(lái)還将如何提升及落地(dì / de)在(zài)應用場景,值得期待。

本文轉自:中國(guó)網 http://szjj.china.com.cn/2024-03/04/content_42712491.html