學而(ér)思聯手谷歌、暨南大(dà)學發起全球大(dà)模型數學解題競賽

2023-10-11

數學一(yī / yì ／yí)直被視爲(wéi / wèi)人(rén)工智能的(de)試金石。當大(dà)語言模型突破其“先天性的(de)缺陷”（如缺乏複雜推理能力、數值計算不(bù)夠準确等），成功應對數學推理方面的(de)挑戰時(shí)，人(rén)工智能将進入新的(de)紀元。如何提升大(dà)語言模型數學推理能力，突破語言模型的(de)先天不(bù)足，成爲(wéi / wèi)當下全球人(rén)工智能領域關注的(de)重點。

探索人(rén)工智能數學推理無人(rén)區

松果财經獲悉，日前，由學而(ér)思牽頭，聯合谷歌、暨南大(dà)學等多家知名科技企業及高校的(de)專家學者，依托智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台，共同舉辦的(de)AAAI2024 全球大(dà)模型數學推理競賽，邀請全球人(rén)工智能專家、開發者以(yǐ)及愛好者一(yī / yì ／yí)起用大(dà)模型自動解答中小學數學難題，旨在(zài)探索、解決人(rén)工智能在(zài)數學領域的(de)挑戰。

AAAI（Association for the Advancement of Artificial Intelligence）由計算機科學和(hé / huò)人(rén)工智能科學家Allen Newell、 Marvin Minsky 和(hé / huò)John McCarthy等創辦，是(shì)國(guó)際人(rén)工智能領域最爲(wéi / wèi)權威與重要(yào / yāo)的(de)協會之(zhī)一(yī / yì ／yí)，AAAI會議被中國(guó)計算機學會（CCF）推薦爲(wéi / wèi)A類會議。

比賽期間，參賽者需使用大(dà)模型對給定的(de)數學題目，生成推理步驟與答案。主辦方将通過對比參賽者的(de)模型輸出(chū)答案與正确答案之(zhī)間的(de)準确率，來(lái)爲(wéi / wèi)參賽者進行排名。準确率最高的(de)參賽者将會赢得此次比賽。

爲(wéi / wèi)了(le／liǎo)更充分地(dì / de)探究各類大(dà)模型的(de)數學推理能力，此次比賽分爲(wéi / wèi)中文數學解題和(hé / huò)英文數學解題兩個(gè)賽道(dào)。由學而(ér)思提供比賽所用的(de)中英文數據集——TAL-SAQ7K-CN、TAL-SAQ6K-EN。該數據集囊括了(le／liǎo)國(guó)内外多個(gè)中小學數學競賽真題，題目格式均經過精心處理，每道(dào)題目都包含題目内容，題目難度等級和(hé / huò)題目涉及到(dào)的(de)從粗粒度到(dào)細粒度的(de)知識點鏈條等字段。與之(zhī)同時(shí)，TAL-SAQ7K-CN、TAL-SAQ6K-EN數據集中涉及到(dào)數學表達式已經處理成統一(yī / yì ／yí)的(de)文本模式 Latex。

比賽分爲(wéi / wèi)兩個(gè)階段，第一(yī / yì ／yí)階段即日起截止到(dào)12月31日，爲(wéi / wèi)公榜階段。主辦方事先随機在(zài)TAL-SAQ7K-CN和(hé / huò)TAL-SAQ6K-EN中選出(chū)30%的(de)數據，供參賽者進行大(dà)模型調試。第二階段則從2024年1月1日到(dào)1月10日，爲(wéi / wèi)私榜階段。期間，參賽者使用第一(yī / yì ／yí)階段調優過的(de)大(dà)模型來(lái)解答數據集中剩餘的(de)70%題目。這(zhè)一(yī / yì ／yí)階段的(de)成績将會作爲(wéi / wèi)比賽的(de)最終成績。

此外，主辦方還爲(wéi / wèi)此次比賽提供了(le／liǎo)3個(gè)測評基準作爲(wéi / wèi)參考，即GPT-3.5，GPT-4以(yǐ)及好未來(lái)自研的(de)數學大(dà)模型MathGPT在(zài)公榜上(shàng)的(de)表現，具體結果如下：

Track1:

Track2:

做好AI大(dà)模型時(shí)代的(de)數學基礎工作

大(dà)模型一(yī / yì ／yí)直是(shì)近來(lái)年人(rén)工智能發展最熱門的(de)領域之(zhī)一(yī / yì ／yí)，ChatGPT的(de)橫空出(chū)世則讓更多人(rén)看到(dào)了(le／liǎo)人(rén)工智能未來(lái)的(de)方向。然而(ér)，現有的(de)大(dà)語言模型在(zài)數學問題的(de)解決、講解、問答和(hé / huò)推薦方面則存在(zài)明顯不(bù)足，如解答數學問題經常出(chū)錯，難以(yǐ)進行複雜運算。

作爲(wéi / wèi)本次全球大(dà)模型數學競賽的(de)發起者，學而(ér)思方面表示，希望能夠通過這(zhè)次大(dà)模型數學比賽，探索、解決現有的(de)模型擅長文科而(ér)不(bù)擅長理科方面的(de)推理和(hé / huò)計算這(zhè)一(yī / yì ／yí)不(bù)足。學而(ér)思也(yě)在(zài)積極探索解決，如學而(ér)思MathGPT結合大(dà)模型和(hé / huò)計算引擎兩者能力解決大(dà)模型在(zài)數學領域的(de)三大(dà)挑戰——解對題、講清步驟、内容有趣生動。前者負責理解題目、分步解析，并在(zài)合适的(de)步驟自行調用計算引擎，以(yǐ)此來(lái)提高正确率。基于(yú)海量名師解題過程的(de)數據進行模型訓練，模型的(de)解題步驟可以(yǐ)更加清晰。再引入優秀老師的(de)教學理念和(hé / huò)方法，模型在(zài)解題趣味性上(shàng)也(yě)能進一(yī / yì ／yí)步提高。

以(yǐ)一(yī / yì ／yí)道(dào)數列題爲(wéi / wèi)例，MathGPT給出(chū)的(de)答案包含“分析”、“詳解”、“點睛”三個(gè)部分，比通用大(dà)模型的(de)粗略講解方式更爲(wéi / wèi)細緻，“分析”提供了(le／liǎo)題目的(de)解題思路、思考方式，幫助用戶更好地(dì / de)理解題目，“詳解”則給出(chū)具體的(de)計算方式和(hé / huò)答案，最後“點睛”的(de)環節，對題目的(de)考點、難點、關鍵點進行提示，幫助用戶回顧反思出(chū)題意圖、舉一(yī / yì ／yí)反三。

作爲(wéi / wèi)國(guó)内首個(gè)數學領域千億級大(dà)模型，MathGPT數學計算能力已覆蓋小學、初中、高中階段，題目類型涵蓋計算題、應用題、代數題等多個(gè)類型，還可以(yǐ)針對題目進行追問。相關技術報告顯示，在(zài)CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考數學和(hé / huò)Math401等6個(gè)公開數學評測集合的(de)測試結果中，學而(ér)思MathGPT取得了(le／liǎo)多項測試的(de)最高分數；在(zài)C-Eval的(de)初高中的(de)全科測試集合上(shàng)，MathGPT也(yě)均有不(bù)錯的(de)表現。

此外，學而(ér)思也(yě)在(zài)GitHub、Hugging Face等技術社區開源了(le／liǎo)MathGPT的(de)模型訓練測試數據集——TAL-SCQ5K-EN/CN(各3K訓練集和(hé / huò)2K測試集)，題目爲(wéi / wèi)單選形式，涉及小初高階段數學内容，帶有詳細的(de)解析步驟便于(yú)進行COT的(de)訓練。

作爲(wéi / wèi)智慧教育國(guó)家新一(yī / yì ／yí)代人(rén)工智能開放創新平台承建單位，學而(ér)思一(yī / yì ／yí)直積極參與推動我國(guó)人(rén)工智能技術發展與進步。随着大(dà)模型時(shí)代的(de)到(dào)來(lái)，學而(ér)思希望用自身在(zài)數學和(hé / huò)AI上(shàng)的(de)多年積累，面向全球範圍内的(de)數學愛好者和(hé / huò)科研機構，做好AI大(dà)模型時(shí)代的(de)數學基礎工作。

本文轉自松果财經：https://www.163.com/dy/article/IGPG2NS50531KBFR.html

上(shàng)一(yī / yì ／yí)篇：用AI教會孩子(zǐ)獨立思考？學而(ér)思“随時(shí)問”已經邁出(chū)關鍵一(yī / yì ／yí)步

下一(yī / yì ／yí)篇：好未來(lái)攜手聯合國(guó)教科文組織共同推動“科技賦能教育”

新聞中心

News center

學而(ér)思聯手谷歌、暨南大(dà)學發起全球大(dà)模型數學解題競賽