網站地(dì / de)圖
關于(yú)我們
企業簡介
文化與價值觀
人(rén)才招聘
聯系我們
科技創新
教育科技
投資者關系
公司治理
新聞及活動
股票信息
财務信息
戰略投資
投資策略
投資方向
投資優勢
投資品牌
ESG
ESG戰略
ESG管理
定期報告
誠聘英才
社會招聘
校園招聘
GlobalTalent
法律聲明
職業準則
廉政合規

新聞中心

News center

學而(ér)思聯手谷歌、暨南大(dà)學發起全球大(dà)模型數學解題競賽

2023-10-11


數學一(yī / yì /yí)直被視爲(wéi / wèi)人(rén)工智能的(de)試金石。當大(dà)語言模型突破其“先天性的(de)缺陷”(如缺乏複雜推理能力、數值計算不(bù)夠準确等),成功應對數學推理方面的(de)挑戰時(shí),人(rén)工智能将進入新的(de)紀元。如何提升大(dà)語言模型數學推理能力,突破語言模型的(de)先天不(bù)足,成爲(wéi / wèi)當下全球人(rén)工智能領域關注的(de)重點。

探索人(rén)工智能數學推理無人(rén)區

松果财經獲悉,日前,由學而(ér)思牽頭,聯合谷歌、暨南大(dà)學等多家知名科技企業及高校的(de)專家學者,依托智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台,共同舉辦的(de)AAAI2024 全球大(dà)模型數學推理競賽,邀請全球人(rén)工智能專家、開發者以(yǐ)及愛好者一(yī / yì /yí)起用大(dà)模型自動解答中小學數學難題,旨在(zài)探索、解決人(rén)工智能在(zài)數學領域的(de)挑戰。1.jpg

AAAI(Association for the Advancement of Artificial Intelligence)由計算機科學和(hé / huò)人(rén)工智能科學家Allen Newell、 Marvin Minsky 和(hé / huò)John McCarthy等創辦,是(shì)國(guó)際人(rén)工智能領域最爲(wéi / wèi)權威與重要(yào / yāo)的(de)協會之(zhī)一(yī / yì /yí),AAAI會議被中國(guó)計算機學會(CCF)推薦爲(wéi / wèi)A類會議。

比賽期間,參賽者需使用大(dà)模型對給定的(de)數學題目,生成推理步驟與答案。主辦方将通過對比參賽者的(de)模型輸出(chū)答案與正确答案之(zhī)間的(de)準确率,來(lái)爲(wéi / wèi)參賽者進行排名。準确率最高的(de)參賽者将會赢得此次比賽。

爲(wéi / wèi)了(le/liǎo)更充分地(dì / de)探究各類大(dà)模型的(de)數學推理能力,此次比賽分爲(wéi / wèi)中文數學解題和(hé / huò)英文數學解題兩個(gè)賽道(dào)。由學而(ér)思提供比賽所用的(de)中英文數據集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數據集囊括了(le/liǎo)國(guó)内外多個(gè)中小學數學競賽真題,題目格式均經過精心處理,每道(dào)題目都包含題目内容,題目難度等級和(hé / huò)題目涉及到(dào)的(de)從粗粒度到(dào)細粒度的(de)知識點鏈條等字段。與之(zhī)同時(shí),TAL-SAQ7K-CN、TAL-SAQ6K-EN數據集中涉及到(dào)數學表達式已經處理成統一(yī / yì /yí)的(de)文本模式 Latex。

比賽分爲(wéi / wèi)兩個(gè)階段,第一(yī / yì /yí)階段即日起截止到(dào)12月31日,爲(wéi / wèi)公榜階段。主辦方事先随機在(zài)TAL-SAQ7K-CN和(hé / huò)TAL-SAQ6K-EN中選出(chū)30%的(de)數據,供參賽者進行大(dà)模型調試。第二階段則從2024年1月1日到(dào)1月10日,爲(wéi / wèi)私榜階段。期間,參賽者使用第一(yī / yì /yí)階段調優過的(de)大(dà)模型來(lái)解答數據集中剩餘的(de)70%題目。這(zhè)一(yī / yì /yí)階段的(de)成績将會作爲(wéi / wèi)比賽的(de)最終成績。

此外,主辦方還爲(wéi / wèi)此次比賽提供了(le/liǎo)3個(gè)測評基準作爲(wéi / wèi)參考,即GPT-3.5,GPT-4以(yǐ)及好未來(lái)自研的(de)數學大(dà)模型MathGPT在(zài)公榜上(shàng)的(de)表現,具體結果如下:

Track1:2.jpg

Track2:3.jpg

做好AI大(dà)模型時(shí)代的(de)數學基礎工作

大(dà)模型一(yī / yì /yí)直是(shì)近來(lái)年人(rén)工智能發展最熱門的(de)領域之(zhī)一(yī / yì /yí),ChatGPT的(de)橫空出(chū)世則讓更多人(rén)看到(dào)了(le/liǎo)人(rén)工智能未來(lái)的(de)方向。然而(ér),現有的(de)大(dà)語言模型在(zài)數學問題的(de)解決、講解、問答和(hé / huò)推薦方面則存在(zài)明顯不(bù)足,如解答數學問題經常出(chū)錯,難以(yǐ)進行複雜運算。

作爲(wéi / wèi)本次全球大(dà)模型數學競賽的(de)發起者,學而(ér)思方面表示,希望能夠通過這(zhè)次大(dà)模型數學比賽,探索、解決現有的(de)模型擅長文科而(ér)不(bù)擅長理科方面的(de)推理和(hé / huò)計算這(zhè)一(yī / yì /yí)不(bù)足。學而(ér)思也(yě)在(zài)積極探索解決,如學而(ér)思MathGPT結合大(dà)模型和(hé / huò)計算引擎兩者能力解決大(dà)模型在(zài)數學領域的(de)三大(dà)挑戰——解對題、講清步驟、内容有趣生動。前者負責理解題目、分步解析,并在(zài)合适的(de)步驟自行調用計算引擎,以(yǐ)此來(lái)提高正确率。基于(yú)海量名師解題過程的(de)數據進行模型訓練,模型的(de)解題步驟可以(yǐ)更加清晰。再引入優秀老師的(de)教學理念和(hé / huò)方法,模型在(zài)解題趣味性上(shàng)也(yě)能進一(yī / yì /yí)步提高。

以(yǐ)一(yī / yì /yí)道(dào)數列題爲(wéi / wèi)例,MathGPT給出(chū)的(de)答案包含“分析”、“詳解”、“點睛”三個(gè)部分,比通用大(dà)模型的(de)粗略講解方式更爲(wéi / wèi)細緻,“分析”提供了(le/liǎo)題目的(de)解題思路、思考方式,幫助用戶更好地(dì / de)理解題目,“詳解”則給出(chū)具體的(de)計算方式和(hé / huò)答案,最後“點睛”的(de)環節,對題目的(de)考點、難點、關鍵點進行提示,幫助用戶回顧反思出(chū)題意圖、舉一(yī / yì /yí)反三。

4.jpg

作爲(wéi / wèi)國(guó)内首個(gè)數學領域千億級大(dà)模型,MathGPT數學計算能力已覆蓋小學、初中、高中階段,題目類型涵蓋計算題、應用題、代數題等多個(gè)類型,還可以(yǐ)針對題目進行追問。相關技術報告顯示,在(zài)CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數學和(hé / huò)Math401等6個(gè)公開數學評測集合的(de)測試結果中,學而(ér)思MathGPT取得了(le/liǎo)多項測試的(de)最高分數;在(zài)C-Eval的(de)初高中的(de)全科測試集合上(shàng),MathGPT也(yě)均有不(bù)錯的(de)表現。

此外,學而(ér)思也(yě)在(zài)GitHub、Hugging Face等技術社區開源了(le/liǎo)MathGPT的(de)模型訓練測試數據集——TAL-SCQ5K-EN/CN(各3K訓練集和(hé / huò)2K測試集),題目爲(wéi / wèi)單選形式,涉及小初高階段數學内容,帶有詳細的(de)解析步驟便于(yú)進行COT的(de)訓練。

作爲(wéi / wèi)智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台承建單位,學而(ér)思一(yī / yì /yí)直積極參與推動我國(guó)人(rén)工智能技術發展與進步。随着大(dà)模型時(shí)代的(de)到(dào)來(lái),學而(ér)思希望用自身在(zài)數學和(hé / huò)AI上(shàng)的(de)多年積累,面向全球範圍内的(de)數學愛好者和(hé / huò)科研機構,做好AI大(dà)模型時(shí)代的(de)數學基礎工作。

本文轉自松果财經:https://www.163.com/dy/article/IGPG2NS50531KBFR.html