好未來(lái)AI背後的(de)故事——教育OCR“4個(gè)9”的(de)極限追求
2021-04-16
打開題拍拍,首先映入眼簾的(de)是(shì)一(yī / yì /yí)幅拍照畫面。當你将習題拍攝入框時(shí),便可立即得到(dào)相匹配的(de)題目解析。别看這(zhè)個(gè)過程如此迅捷,背後的(de)學問可不(bù)簡單。這(zhè)個(gè)識别圖像裏文字的(de)技術叫作OCR,全稱是(shì)Optical Character Recognition,中文名爲(wéi / wèi)光學字符識别。
OCR這(zhè)項技術其實并不(bù)新鮮,早在(zài)1929年德國(guó)科學家Tausheck便提出(chū)了(le/liǎo)OCR技術的(de)概念。随後在(zài)六七十年代世界各國(guó)就(jiù)開展了(le/liǎo)系統的(de)研究。但由于(yú)識别率和(hé / huò)設備成本等問題,早期的(de)OCR軟件一(yī / yì /yí)直離民用很遠。進入數字時(shí)代後,幫助機器理解物理世界成爲(wéi / wèi)了(le/liǎo)時(shí)代命題,OCR作爲(wéi / wèi)數字世界的(de)眼睛,其重要(yào / yāo)性也(yě)在(zài)不(bù)斷提升,圍繞OCR的(de)技術日新月異,但大(dà)多解決的(de)仍是(shì)通用印刷體的(de)識别問題。
教育場景需要(yào / yāo)的(de)OCR技術有其特殊之(zhī)處。學生将手機鏡頭對準的(de),往往是(shì)一(yī / yì /yí)張卷子(zǐ)或者一(yī / yì /yí)頁練習冊。同時(shí)入框的(de)不(bù)僅有多個(gè)習題,還會有很多學生答題的(de)手寫筆迹,甚至還有混在(zài)一(yī / yì /yí)起的(de)文字與公式(包括手寫算式)。如果沒有專爲(wéi / wèi)教育場景研究的(de)OCR技術,識别這(zhè)些特殊場景中的(de)文字往往是(shì)很難做到(dào)的(de)。因此,好未來(lái)自研出(chū)了(le/liǎo)一(yī / yì /yí)套适合智慧教育的(de)OCR技術。
從零到(dào)一(yī / yì /yí) 萬丈高樓平地(dì / de)起
好未來(lái)AI中台成立伊始,就(jiù)将教育OCR作爲(wéi / wèi)重點發力的(de)研究領域之(zhī)一(yī / yì /yí)。教育OCR包括印刷OCR、手寫OCR、公式OCR、表格OCR、版面結構化識别等等。彼時(shí),無論學術界還是(shì)教育行業内,都沒有成熟的(de)公式識别方案。因此,好未來(lái)AI中台将公式識别技術作爲(wéi / wèi)研究的(de)重點,開始了(le/liǎo)從零向一(yī / yì /yí)摸索的(de)過程。
好未來(lái)OCR技術應用于(yú)教育場景的(de)能力類型
公式識别具有鮮明的(de)行業色彩和(hé / huò)行業壁壘。
公式識别算法的(de)基礎是(shì)數據。在(zài)這(zhè)一(yī / yì /yí)方面,好未來(lái)多年的(de)教育積累有了(le/liǎo)用武之(zhī)地(dì / de),各年級、各學科五花八門的(de)真實習題爲(wéi / wèi)AI中台提供了(le/liǎo)充足的(de)數據“彈藥”。OCR團隊在(zài)短時(shí)間内基于(yú)CRNN(卷積循環神經網絡,一(yī / yì /yí)個(gè)識别場景文字的(de)常用方法),創新研發出(chū)能支持簡單公式的(de)序列識别算法和(hé / huò)基于(yú)公式字符分離的(de)重建識别算法。這(zhè)兩大(dà)能力,讓AI可以(yǐ)初步理解試卷上(shàng)的(de)公式和(hé / huò)文字,而(ér)且可以(yǐ)像人(rén)腦一(yī / yì /yí)樣從左到(dào)右、從上(shàng)到(dào)下地(dì / de)進行結構化智能理解。
雖然這(zhè)時(shí)的(de)識别準确率還有待提升,但标志着算法研發進入了(le/liǎo)第二階段——探索印刷公式識别的(de)最佳方案,提升準确率。好未來(lái)吸收學術界的(de)公式研究成果,在(zài)兩個(gè)月内通過數百萬個(gè)數據驗證算法可行性,最終形成了(le/liǎo)有特色的(de)算法框架,引入增強語義和(hé / huò)避免漂移的(de)網絡結構,并提升算法對模糊數據、多層嵌套數據的(de)泛化性。經過攻堅,此階段的(de)印刷公式識别在(zài)學生拍照搜題的(de)核心場景中得以(yǐ)應用并大(dà)幅提升理科題目的(de)搜索正确率。與此同時(shí),好未來(lái)在(zài)教育場景的(de)公式數據盲測中達到(dào)領先水平。
好未來(lái)公式識别的(de)第三階段最具挑戰性。在(zài)學生實際使用中,還會出(chū)現手寫風格不(bù)同、字迹潦草、随意多行、字體大(dà)小不(bù)一(yī / yì /yí)和(hé / huò)角度傾斜等各種問題,特别是(shì)低年級的(de)學生手寫筆迹相比成年人(rén)還有顯著差異。
複雜的(de)實際答題圖片好未來(lái)OCR依然能準确識别
AI中台與各業務線合作,爲(wéi / wèi)OCR提供了(le/liǎo)學生學習和(hé / huò)作答的(de)海量且真實的(de)筆迹數據,幫助算法實現數據從0到(dào)百萬的(de)突破。同時(shí),算法也(yě)積極開展多項創新,不(bù)僅實現多風格數據遷移和(hé / huò)增強,也(yě)在(zài)多行識别中取得技術突破并形成技術優勢。
截至目前,好未來(lái)自研教育OCR已經實現了(le/liǎo)通用公式識别,即适用印刷文字與手寫文字混合、多行文字與高級公式混合等複雜場景,很好地(dì / de)支持了(le/liǎo)題拍拍的(de)印刷手寫一(yī / yì /yí)體化拍搜功能。
從90%到(dào)99.99% 行百裏者半九十
解決了(le/liǎo)能力準确性和(hé / huò)多樣性的(de)問題,還需要(yào / yāo)達成可用性——又要(yào / yāo)穩定又要(yào / yāo)快。
先從“穩定”講起。
在(zài)業内有一(yī / yì /yí)句話:“搜索的(de)準确率每提升1%,所需的(de)題庫成本就(jiù)要(yào / yāo)以(yǐ)千萬計”。作爲(wéi / wèi)一(yī / yì /yí)家有18年教學經驗和(hé / huò)數據沉澱的(de)科技教育公司,好未來(lái)将技術中台與前台業務相結合,使得技術人(rén)既能快速感知到(dào)用戶需求,又能得到(dào)大(dà)量教育數據的(de)反哺,盡可能以(yǐ)技術和(hé / huò)數據驅動降低成本。于(yú)是(shì),AI中台和(hé / huò)題拍拍團隊聯合,挖掘可以(yǐ)爲(wéi / wèi)拍照搜題“提升1%”的(de)每一(yī / yì /yí)個(gè)技術點。合作至今,教育OCR爲(wéi / wèi)這(zhè)每一(yī / yì /yí)個(gè)“1%”展開了(le/liǎo)多項的(de)技術專題攻堅,形成一(yī / yì /yí)系列的(de)創新實踐并成功落地(dì / de)。教育OCR永遠保持對技術的(de)追求,持續開拓新的(de)技術能力,爲(wéi / wèi)智慧教育提供技術支撐。
AI中台和(hé / huò)題拍拍組成了(le/liǎo)高度協同的(de)One team機制,雙方出(chū)專人(rén)專項每周一(yī / yì /yí)起研究前線最新問題,并制定最高标準的(de)可用性推進目标。雙方達成了(le/liǎo)一(yī / yì /yí)個(gè)有趣的(de)“對賭協議”:在(zài)規定時(shí)間内,如果AI中台每多實現一(yī / yì /yí)個(gè)9(即可用性從實現90%到(dào)99%、再到(dào)99.9%、99.99%……),則由題拍拍團隊提供“美食激勵”,反之(zhī)則由AI中台承擔。
雙方以(yǐ)高技術标準堅守教育初心,懷着創業的(de)激情撸起袖子(zǐ)加油幹,當遇到(dào)難以(yǐ)解決的(de)艱難問題時(shí),在(zài)線會議常常從晚上(shàng)七點不(bù)知不(bù)覺就(jiù)開到(dào)了(le/liǎo)半夜兩三點。會議從公司到(dào)地(dì / de)鐵,再開到(dào)家中,地(dì / de)鐵的(de)速度根本追不(bù)上(shàng)每個(gè)參會者頭腦風暴的(de)速度。
然而(ér)當99.99%可用性目标實現的(de)那一(yī / yì /yí)刻,投身其中的(de)研發老師們反而(ér)沒有預想中的(de)歡呼雀躍和(hé / huò)狂歡慶祝,“大(dà)家互相看了(le/liǎo)看對方臉上(shàng)的(de)黑眼圈,腦子(zǐ)裏想的(de)是(shì)還有更多的(de)技術挑戰等待去解決,這(zhè)大(dà)概就(jiù)是(shì)水到(dào)渠成吧。”一(yī / yì /yí)位項目組夥伴回想起那個(gè)時(shí)刻,平靜地(dì / de)說(shuō)。
這(zhè)是(shì)讓每個(gè)參與者都難忘的(de)一(yī / yì /yí)段飛馳,非齊心協力的(de)共創精神無以(yǐ)到(dào)達,如好未來(lái)的(de)價值觀所言——爲(wéi / wèi)熱愛全力以(yǐ)赴。
千鈞一(yī / yì /yí)發 好産品不(bù)違人(rén)心
再來(lái)講講“快”。
爲(wéi / wèi)了(le/liǎo)盡可能爲(wéi / wèi)産品提速,算法的(de)每一(yī / yì /yí)模塊都被單獨拎出(chū)來(lái)重構提速,資源占用優化提升了(le/liǎo)百分之(zhī)三十五。好未來(lái)AI中台的(de)技術人(rén)用一(yī / yì /yí)周時(shí)間便做到(dào)了(le/liǎo)算法層面的(de)毫秒級響應。也(yě)就(jiù)是(shì)說(shuō),如果題庫中已收錄,學生最慢也(yě)可以(yǐ)在(zài)一(yī / yì /yí)秒以(yǐ)内獲得滿意的(de)解答。
好未來(lái)的(de)另一(yī / yì /yí)條很重要(yào / yāo)的(de)價值觀是(shì):“一(yī / yì /yí)切從用戶出(chū)發”。産品好不(bù)好,歸根結底還是(shì)要(yào / yāo)看能否經得起用戶的(de)考驗。
一(yī / yì /yí)位媽媽講述了(le/liǎo)她的(de)真實故事。
最開始,這(zhè)位母親下載了(le/liǎo)市面上(shàng)許多拍照搜題類軟件,但是(shì)一(yī / yì /yí)個(gè)月後,她隻留下了(le/liǎo)題拍拍。這(zhè)是(shì)因爲(wéi / wèi)她發現,别的(de)拍照搜題的(de)app在(zài)搜索整張卷子(zǐ)的(de)題目時(shí),框選每道(dào)題的(de)位置都需要(yào / yāo)手動二次調整校準,而(ér)題拍拍可以(yǐ)精準框選并直接生成每道(dào)題的(de)解析,這(zhè)一(yī / yì /yí)個(gè)小小的(de)技術精進卻幫助這(zhè)位母親節省了(le/liǎo)大(dà)量輔導孩子(zǐ)的(de)時(shí)間。
這(zhè)一(yī / yì /yí)位用戶的(de)最終選擇,離不(bù)開好未來(lái)産研人(rén)對技術和(hé / huò)體驗的(de)極緻追求。
自動分割框選出(chū)不(bù)同試題
題拍拍是(shì)AI中台的(de)一(yī / yì /yí)段征程,AI中台已将其中“久經考驗“的(de)教育OCR技術形成Hawkeye教育通用OCR解決方案,涵蓋中英文識别和(hé / huò)公式識别,支持手寫和(hé / huò)印刷,并将支持表格識别和(hé / huò)重建還原,服務于(yú)中英文作文批改、題庫試卷錄入等更多業務場景。據悉,Hawkeye解決方案在(zài)印刷體識别、手寫體識别、公式識别、表格識别、整頁框選、綜合識别的(de)六大(dà)核心能力指标裏,已全部處于(yú)市場領先水平。
開放共創 智慧教育全速啓航
好未來(lái)不(bù)斷投入對教育OCR的(de)研究,也(yě)吸引着學術屆、技術圈對教育領域OCR技術的(de)重視。2020年9月,好未來(lái)就(jiù)以(yǐ)“教育手寫公式識别”爲(wéi / wèi)賽題,依托智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台,聯合科技部火炬高技術産業開發中心、北京市科學技術委員會,舉辦了(le/liǎo)“第五屆中國(guó)創新挑戰賽·智慧教育專題賽”。
賽事吸引了(le/liǎo)來(lái)自清華、北大(dà)、中科大(dà)等高校,阿裏、百度等互聯網企業,以(yǐ)及中科院計算所、中科院自動化所等研究院所約數百支隊伍參賽,參賽隊伍人(rén)才濟濟,涵蓋國(guó)際賽事的(de)冠軍團隊、中國(guó)圖形圖象學學會(CSIG)常務理事及專委會主任等衆多專業選手與優秀的(de)OCR團隊。
比賽中,好未來(lái)爲(wéi / wèi)業界提供了(le/liǎo)20萬張各教育場景下的(de)手寫公式訓練數據和(hé / huò)測試數據,以(yǐ)遠超各個(gè)開源學術數據集的(de)數據體量和(hé / huò)複雜性,爲(wéi / wèi)參賽團隊提供了(le/liǎo)充足的(de)“彈藥”,助推行業夥伴共同碰撞出(chū)手寫公式識别技術新的(de)發展方向。
同時(shí),好未來(lái)依托正在(zài)承建的(de)智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台,将優秀的(de)教育OCR能力逐步面向全行業開放,幫助教育行業内暫時(shí)沒有AI、沒有OCR能力的(de)機構和(hé / huò)創業者快速發展。
而(ér)這(zhè)隻是(shì)故事的(de)開始。在(zài)向極緻攀登的(de)路上(shàng),挑戰隻會更多,沒有捷徑。愛和(hé / huò)科技,終将指引我們抵達教育事業的(de)星辰大(dà)海。
上(shàng)一(yī / yì /yí)篇:用AI教會孩子(zǐ)獨立思考?學而(ér)思“随時(shí)問”已經邁出(chū)關鍵一(yī / yì /yí)步
下一(yī / yì /yí)篇:再獲國(guó)際AI頂會雙料冠軍,好未來(lái)黑科技提供學習新體驗