網站地(dì / de)圖
關于(yú)我們
企業簡介
文化與價值觀
人(rén)才招聘
聯系我們
科技創新
教育科技
投資者關系
公司治理
新聞及活動
股票信息
财務信息
戰略投資
投資策略
投資方向
投資優勢
投資品牌
ESG
ESG戰略
ESG管理
定期報告
誠聘英才
社會招聘
校園招聘
GlobalTalent
法律聲明
職業準則
廉政合規

新聞中心

News center

好未來(lái)AI背後的(de)故事——教育OCR“4個(gè)9”的(de)極限追求

2021-04-16

打開題拍拍,首先映入眼簾的(de)是(shì)一(yī / yì /yí)幅拍照畫面。當你将習題拍攝入框時(shí),便可立即得到(dào)相匹配的(de)題目解析。别看這(zhè)個(gè)過程如此迅捷,背後的(de)學問可不(bù)簡單。這(zhè)個(gè)識别圖像裏文字的(de)技術叫作OCR,全稱是(shì)Optical Character Recognition,中文名爲(wéi / wèi)光學字符識别。

OCR這(zhè)項技術其實并不(bù)新鮮,早在(zài)1929年德國(guó)科學家Tausheck便提出(chū)了(le/liǎo)OCR技術的(de)概念。随後在(zài)六七十年代世界各國(guó)就(jiù)開展了(le/liǎo)系統的(de)研究。但由于(yú)識别率和(hé / huò)設備成本等問題,早期的(de)OCR軟件一(yī / yì /yí)直離民用很遠。進入數字時(shí)代後,幫助機器理解物理世界成爲(wéi / wèi)了(le/liǎo)時(shí)代命題,OCR作爲(wéi / wèi)數字世界的(de)眼睛,其重要(yào / yāo)性也(yě)在(zài)不(bù)斷提升,圍繞OCR的(de)技術日新月異,但大(dà)多解決的(de)仍是(shì)通用印刷體的(de)識别問題。

教育場景需要(yào / yāo)的(de)OCR技術有其特殊之(zhī)處。學生将手機鏡頭對準的(de),往往是(shì)一(yī / yì /yí)張卷子(zǐ)或者一(yī / yì /yí)頁練習冊。同時(shí)入框的(de)不(bù)僅有多個(gè)習題,還會有很多學生答題的(de)手寫筆迹,甚至還有混在(zài)一(yī / yì /yí)起的(de)文字與公式(包括手寫算式)。如果沒有專爲(wéi / wèi)教育場景研究的(de)OCR技術,識别這(zhè)些特殊場景中的(de)文字往往是(shì)很難做到(dào)的(de)。因此,好未來(lái)自研出(chū)了(le/liǎo)一(yī / yì /yí)套适合智慧教育的(de)OCR技術。

從零到(dào)一(yī / yì /yí)  萬丈高樓平地(dì / de)起

好未來(lái)AI中台成立伊始,就(jiù)将教育OCR作爲(wéi / wèi)重點發力的(de)研究領域之(zhī)一(yī / yì /yí)。教育OCR包括印刷OCR、手寫OCR、公式OCR、表格OCR、版面結構化識别等等。彼時(shí),無論學術界還是(shì)教育行業内,都沒有成熟的(de)公式識别方案。因此,好未來(lái)AI中台将公式識别技術作爲(wéi / wèi)研究的(de)重點,開始了(le/liǎo)從零向一(yī / yì /yí)摸索的(de)過程。

Yach_screenshot_20210416154805.png

好未來(lái)OCR技術應用于(yú)教育場景的(de)能力類型

公式識别具有鮮明的(de)行業色彩和(hé / huò)行業壁壘。

公式識别算法的(de)基礎是(shì)數據。在(zài)這(zhè)一(yī / yì /yí)方面,好未來(lái)多年的(de)教育積累有了(le/liǎo)用武之(zhī)地(dì / de),各年級、各學科五花八門的(de)真實習題爲(wéi / wèi)AI中台提供了(le/liǎo)充足的(de)數據“彈藥”。OCR團隊在(zài)短時(shí)間内基于(yú)CRNN(卷積循環神經網絡,一(yī / yì /yí)個(gè)識别場景文字的(de)常用方法),創新研發出(chū)能支持簡單公式的(de)序列識别算法和(hé / huò)基于(yú)公式字符分離的(de)重建識别算法。這(zhè)兩大(dà)能力,讓AI可以(yǐ)初步理解試卷上(shàng)的(de)公式和(hé / huò)文字,而(ér)且可以(yǐ)像人(rén)腦一(yī / yì /yí)樣從左到(dào)右、從上(shàng)到(dào)下地(dì / de)進行結構化智能理解。

雖然這(zhè)時(shí)的(de)識别準确率還有待提升,但标志着算法研發進入了(le/liǎo)第二階段——探索印刷公式識别的(de)最佳方案,提升準确率。好未來(lái)吸收學術界的(de)公式研究成果,在(zài)兩個(gè)月内通過數百萬個(gè)數據驗證算法可行性,最終形成了(le/liǎo)有特色的(de)算法框架,引入增強語義和(hé / huò)避免漂移的(de)網絡結構,并提升算法對模糊數據、多層嵌套數據的(de)泛化性。經過攻堅,此階段的(de)印刷公式識别在(zài)學生拍照搜題的(de)核心場景中得以(yǐ)應用并大(dà)幅提升理科題目的(de)搜索正确率。與此同時(shí),好未來(lái)在(zài)教育場景的(de)公式數據盲測中達到(dào)領先水平。

好未來(lái)公式識别的(de)第三階段最具挑戰性。在(zài)學生實際使用中,還會出(chū)現手寫風格不(bù)同、字迹潦草、随意多行、字體大(dà)小不(bù)一(yī / yì /yí)和(hé / huò)角度傾斜等各種問題,特别是(shì)低年級的(de)學生手寫筆迹相比成年人(rén)還有顯著差異。

Yach_screenshot_20210416155023.png

複雜的(de)實際答題圖片好未來(lái)OCR依然能準确識别

AI中台與各業務線合作,爲(wéi / wèi)OCR提供了(le/liǎo)學生學習和(hé / huò)作答的(de)海量且真實的(de)筆迹數據,幫助算法實現數據從0到(dào)百萬的(de)突破。同時(shí),算法也(yě)積極開展多項創新,不(bù)僅實現多風格數據遷移和(hé / huò)增強,也(yě)在(zài)多行識别中取得技術突破并形成技術優勢。

截至目前,好未來(lái)自研教育OCR已經實現了(le/liǎo)通用公式識别,即适用印刷文字與手寫文字混合、多行文字與高級公式混合等複雜場景,很好地(dì / de)支持了(le/liǎo)題拍拍的(de)印刷手寫一(yī / yì /yí)體化拍搜功能。

從90%到(dào)99.99%  行百裏者半九十

解決了(le/liǎo)能力準确性和(hé / huò)多樣性的(de)問題,還需要(yào / yāo)達成可用性——又要(yào / yāo)穩定又要(yào / yāo)快。

先從“穩定”講起。

在(zài)業内有一(yī / yì /yí)句話:“搜索的(de)準确率每提升1%,所需的(de)題庫成本就(jiù)要(yào / yāo)以(yǐ)千萬計”。作爲(wéi / wèi)一(yī / yì /yí)家有18年教學經驗和(hé / huò)數據沉澱的(de)科技教育公司,好未來(lái)将技術中台與前台業務相結合,使得技術人(rén)既能快速感知到(dào)用戶需求,又能得到(dào)大(dà)量教育數據的(de)反哺,盡可能以(yǐ)技術和(hé / huò)數據驅動降低成本。于(yú)是(shì),AI中台和(hé / huò)題拍拍團隊聯合,挖掘可以(yǐ)爲(wéi / wèi)拍照搜題“提升1%”的(de)每一(yī / yì /yí)個(gè)技術點。合作至今,教育OCR爲(wéi / wèi)這(zhè)每一(yī / yì /yí)個(gè)“1%”展開了(le/liǎo)多項的(de)技術專題攻堅,形成一(yī / yì /yí)系列的(de)創新實踐并成功落地(dì / de)。教育OCR永遠保持對技術的(de)追求,持續開拓新的(de)技術能力,爲(wéi / wèi)智慧教育提供技術支撐。

AI中台和(hé / huò)題拍拍組成了(le/liǎo)高度協同的(de)One team機制,雙方出(chū)專人(rén)專項每周一(yī / yì /yí)起研究前線最新問題,并制定最高标準的(de)可用性推進目标。雙方達成了(le/liǎo)一(yī / yì /yí)個(gè)有趣的(de)“對賭協議”:在(zài)規定時(shí)間内,如果AI中台每多實現一(yī / yì /yí)個(gè)9(即可用性從實現90%到(dào)99%、再到(dào)99.9%、99.99%……),則由題拍拍團隊提供“美食激勵”,反之(zhī)則由AI中台承擔。

雙方以(yǐ)高技術标準堅守教育初心,懷着創業的(de)激情撸起袖子(zǐ)加油幹,當遇到(dào)難以(yǐ)解決的(de)艱難問題時(shí),在(zài)線會議常常從晚上(shàng)七點不(bù)知不(bù)覺就(jiù)開到(dào)了(le/liǎo)半夜兩三點。會議從公司到(dào)地(dì / de)鐵,再開到(dào)家中,地(dì / de)鐵的(de)速度根本追不(bù)上(shàng)每個(gè)參會者頭腦風暴的(de)速度。

然而(ér)當99.99%可用性目标實現的(de)那一(yī / yì /yí)刻,投身其中的(de)研發老師們反而(ér)沒有預想中的(de)歡呼雀躍和(hé / huò)狂歡慶祝,“大(dà)家互相看了(le/liǎo)看對方臉上(shàng)的(de)黑眼圈,腦子(zǐ)裏想的(de)是(shì)還有更多的(de)技術挑戰等待去解決,這(zhè)大(dà)概就(jiù)是(shì)水到(dào)渠成吧。”一(yī / yì /yí)位項目組夥伴回想起那個(gè)時(shí)刻,平靜地(dì / de)說(shuō)。

這(zhè)是(shì)讓每個(gè)參與者都難忘的(de)一(yī / yì /yí)段飛馳,非齊心協力的(de)共創精神無以(yǐ)到(dào)達,如好未來(lái)的(de)價值觀所言——爲(wéi / wèi)熱愛全力以(yǐ)赴。

千鈞一(yī / yì /yí)發  好産品不(bù)違人(rén)心

再來(lái)講講“快”。

爲(wéi / wèi)了(le/liǎo)盡可能爲(wéi / wèi)産品提速,算法的(de)每一(yī / yì /yí)模塊都被單獨拎出(chū)來(lái)重構提速,資源占用優化提升了(le/liǎo)百分之(zhī)三十五。好未來(lái)AI中台的(de)技術人(rén)用一(yī / yì /yí)周時(shí)間便做到(dào)了(le/liǎo)算法層面的(de)毫秒級響應。也(yě)就(jiù)是(shì)說(shuō),如果題庫中已收錄,學生最慢也(yě)可以(yǐ)在(zài)一(yī / yì /yí)秒以(yǐ)内獲得滿意的(de)解答。

好未來(lái)的(de)另一(yī / yì /yí)條很重要(yào / yāo)的(de)價值觀是(shì):“一(yī / yì /yí)切從用戶出(chū)發”。産品好不(bù)好,歸根結底還是(shì)要(yào / yāo)看能否經得起用戶的(de)考驗。

一(yī / yì /yí)位媽媽講述了(le/liǎo)她的(de)真實故事。

最開始,這(zhè)位母親下載了(le/liǎo)市面上(shàng)許多拍照搜題類軟件,但是(shì)一(yī / yì /yí)個(gè)月後,她隻留下了(le/liǎo)題拍拍。這(zhè)是(shì)因爲(wéi / wèi)她發現,别的(de)拍照搜題的(de)app在(zài)搜索整張卷子(zǐ)的(de)題目時(shí),框選每道(dào)題的(de)位置都需要(yào / yāo)手動二次調整校準,而(ér)題拍拍可以(yǐ)精準框選并直接生成每道(dào)題的(de)解析,這(zhè)一(yī / yì /yí)個(gè)小小的(de)技術精進卻幫助這(zhè)位母親節省了(le/liǎo)大(dà)量輔導孩子(zǐ)的(de)時(shí)間。

這(zhè)一(yī / yì /yí)位用戶的(de)最終選擇,離不(bù)開好未來(lái)産研人(rén)對技術和(hé / huò)體驗的(de)極緻追求。

Yach_screenshot_20210416155105.png

自動分割框選出(chū)不(bù)同試題

題拍拍是(shì)AI中台的(de)一(yī / yì /yí)段征程,AI中台已将其中“久經考驗“的(de)教育OCR技術形成Hawkeye教育通用OCR解決方案,涵蓋中英文識别和(hé / huò)公式識别,支持手寫和(hé / huò)印刷,并将支持表格識别和(hé / huò)重建還原,服務于(yú)中英文作文批改、題庫試卷錄入等更多業務場景。據悉,Hawkeye解決方案在(zài)印刷體識别、手寫體識别、公式識别、表格識别、整頁框選、綜合識别的(de)六大(dà)核心能力指标裏,已全部處于(yú)市場領先水平。

開放共創  智慧教育全速啓航

好未來(lái)不(bù)斷投入對教育OCR的(de)研究,也(yě)吸引着學術屆、技術圈對教育領域OCR技術的(de)重視。2020年9月,好未來(lái)就(jiù)以(yǐ)“教育手寫公式識别”爲(wéi / wèi)賽題,依托智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台,聯合科技部火炬高技術産業開發中心、北京市科學技術委員會,舉辦了(le/liǎo)“第五屆中國(guó)創新挑戰賽·智慧教育專題賽”。

賽事吸引了(le/liǎo)來(lái)自清華、北大(dà)、中科大(dà)等高校,阿裏、百度等互聯網企業,以(yǐ)及中科院計算所、中科院自動化所等研究院所約數百支隊伍參賽,參賽隊伍人(rén)才濟濟,涵蓋國(guó)際賽事的(de)冠軍團隊、中國(guó)圖形圖象學學會(CSIG)常務理事及專委會主任等衆多專業選手與優秀的(de)OCR團隊。

比賽中,好未來(lái)爲(wéi / wèi)業界提供了(le/liǎo)20萬張各教育場景下的(de)手寫公式訓練數據和(hé / huò)測試數據,以(yǐ)遠超各個(gè)開源學術數據集的(de)數據體量和(hé / huò)複雜性,爲(wéi / wèi)參賽團隊提供了(le/liǎo)充足的(de)“彈藥”,助推行業夥伴共同碰撞出(chū)手寫公式識别技術新的(de)發展方向。

同時(shí),好未來(lái)依托正在(zài)承建的(de)智慧教育國(guó)家新一(yī / yì /yí)代人(rén)工智能開放創新平台,将優秀的(de)教育OCR能力逐步面向全行業開放,幫助教育行業内暫時(shí)沒有AI、沒有OCR能力的(de)機構和(hé / huò)創業者快速發展。

而(ér)這(zhè)隻是(shì)故事的(de)開始。在(zài)向極緻攀登的(de)路上(shàng),挑戰隻會更多,沒有捷徑。愛和(hé / huò)科技,終将指引我們抵達教育事業的(de)星辰大(dà)海。