AI產品分析（三）：詳解作業幫「拍照搜題」功能邏輯和技術原理

今天一起體驗作業幫「拍照搜題」功能，從實際產品使用流程中切實感受AI技術如何為教育創造更多可能~

前兩期對抖音和美圖的體驗，讓我們見證了計算機視覺技術帶給人類生活感官及娛樂的刺激，本期我們對作業幫進行體驗，感受AI對教育的助推。

作業幫是一款以「拍照搜題」為核心功能的在線教育產品，該功能的實現主要運用了OCR和深度學習技術，故本文圍繞該項功能的體驗，結合簡要的技術分析，領略作業幫化身「AI小叮噹」的魅力，話不多說，開始本期的旅程吧~

1. 產品概況

作業幫是一款以拍照搜題、課程輔導為核心功能的K12教育產品，該產品主要面向的是K12階段的學生、家長及老師人群，其中學生人群為主。

如圖，根據七麥數據的實時榜單排名顯示，作業幫在暢銷榜中排名第二，而在免費榜單中排名第五。

值得注意的是，這是所有教育主題下的產品排名，若僅考慮K12教育範疇，作業幫是當之無愧的「小霸王」。

這也間接說明了，作業幫在明確的產品定位下，為學生解決了習題答案搜索、學習輔導等問題，並且提供了相對競品而言更為優良的用戶體驗。

同時，根據艾瑞數據顯示（圖中垂直坐標軸單位為萬台），作業幫的月活，和同類型的產品如小猿搜題、學霸君相比之下，其排名為第一，且領先的優勢比較明顯。

如圖，作業幫的月活平均值為8478萬台，而小猿搜題為1618萬台，二者相差的距離較遠，僅從日活的角度來看，作業幫的日活值也達到小猿搜題的5倍，進一步證明作業幫在同類型產品中具有較強的競爭力。

通常，我們衡量一個工具類的產品好壞，除利用榜單排名外，月活和日活是更為重要的指標。

則結合上述數據分析可見，在線教育的服務需求中，作業幫向用戶交出了一份滿意的答案。而作業幫獲得的良好口碑，與拍照搜題這一核心功能功能精益求精的良好性能與優秀的用戶體驗密不可分。

為了進一步認識拍照搜題功能及其背後的相關技術原理，以下將從拍照搜題功能項的用戶-場景-需求分析、功能目的、功能邏輯、用戶評論等方面進行剖析，並結合技術給出最終的體驗結論。

2. 用戶-場景-需求分析

可見，作業幫的主要用戶可分為學生、家長及老師，其中以學生群體為主。

為了更形象地說明拍照搜題功能的意義，我們講三個典型的用戶故事。

故事1：

小A是一名高三的學生，正面臨嚴峻的升學壓力。平時在家自己寫作業時，如果遇到不會的題，他會直接打開作業幫，不用手動輸入，直接拍照搜索同類型的題，既不會耽誤時間，又能及時理清楚當天所學的知識點。偶爾，如果課堂上老師講題的思路他不清楚，回家也會自己拍照，然後看看平台上別人的解題思路就豁然開朗了。

此外，高三了很多知識點需要不斷地強化鞏固，所以他還有一個高效學習的小竅門，那就是拍照搜題之後，通過舉一反三對同類型的題目進行反覆練習，一次性吃透知識點。

更重要的，因為處於一個教育水平相對落後的縣城，而平台上圍繞拍照搜題，還可以選擇一些名校名師來幫助解答或觀看對應的解題視頻，幫助自己見識到更簡便的解法，感覺作業幫的搜題功能太方便了，簡直就是自己的「小叮噹」。

故事2：

老王是小A的爸爸，文化程度較低，平時大部分時間都在忙工作，儘管如此經濟也是捉襟見肘，他希望小A可以好好讀書，將來擺脫和自己一樣的生活困境。老師給小A介紹了一款應用軟體叫作業幫，幫助他解決了輔導孩子的無力感，同時直接拍照搜題，可以節省時間，安排也很靈活，同時在線教育更為經濟，也為家裡節約了很多補習費。

還有的時候老王輔導小A的妹妹小B寫小學作業，也不用自己輸入百度之後搜索那麼麻煩了，直接拍照就可以看到答案后再輔導孩子，體驗很不錯，所以現在他逢人就推薦作業幫。

故事3：

陳老師是小王的班主任，在小縣城任教，有比較多空餘時間，但是工資比較低。工作閑暇之餘，陳老師還在作業幫上為學生們答疑解惑，比如對學生拍照搜題的結果，如果還不理解，就換種思路幫助繼續解答，或者幫助一些孩子進行強化學習和訓練，這樣既可以繼續發揮自己的教學價值，還能賺取一部分的額外收入，所以陳老師也很心水作業幫~

3. 功能目的

結合用戶-需求-場景及用戶故事，我們可以很清楚地看到，作業幫作為一個K12階段相對成功的在線教育產品，依託於人工智慧技術的發展，為廣大的學生、家長和老師帶來了便利。

對於學生而言，遇到不會的題目或含糊不清的知識點，作業幫的拍照搜題，使得孩子們可以不用受困於老師不在身邊、家長無力輔導或逐文字輸入搜索的困境。同時該功能的外延還可以幫助學生強化知識點，學會舉一反三，甚至因為平台上對學生的問題還提供了名校名師答疑解惑的選項，一定程度上可以緩解教育資源不平衡的矛盾。

而對於家長而言，作業幫的拍照搜題幫助他們緩解了自身文化程度不高無法輔導孩子的無力感，同時幫助工作忙的家長節省了時間，也替經濟條件有限的家長省了錢。
而對教師用戶而言，作業幫也為他們價值和利益最大化提供了一個平台。
對作業幫而言，拍照搜題的提出，是迎合AI時代對教育的一種創新，同時為計算機視覺技術的落地提供了良好的落地契機，為傳統教育的改革帶來了新的方向。

而隨著平台的不斷成熟，圍繞著拍照搜題，作業幫進一步開拓了課程輔導、學習圈等功能，進一步提升了作業幫的服務。但不可否認的是，拍照搜題仍然是作業幫的亮點，而且作業幫的發展戰略，也一直立足於不斷地提升後台演算法對題目照片的識別的準確率及題庫的完備率，也因此才得以維持向上的發展勁頭。

傳統意義上的產品設計，強調功能主次鮮明的重要性，而從當前對人工智慧類的產品體驗中也可以看出，該原則對AI類產品亦同樣重要。

演算法、技術可以有千千萬萬種，用戶可能遍布天涯海角，但作為一個產品，尤其是工具類的產品，如果本身核心功能不夠出眾，或在後續的完善中偏離了核心功能軌道，只有死路一條。而從人工智慧發展的角度來看，演算法準確率的提升和優化是一個不均衡的過程。

比如，起步的時候，可能隨便加大訓練數據數量或者是調整學習參數或訓練的方式，演算法提升的效果就很明顯，因為說到底，所謂的人工智慧，還是利用了計算機超強的存儲及快速暴力求解的能力。

但隨著不斷地推進，面對的數據越來越複雜、用戶場景越來越多、需求越來越豐富，演算法還想提升，哪怕那麼一個百分點，都是十分困難的，這也是所有人工智慧類產品在迭代進程中都會面臨的問題。

但是我們從作業幫拍照搜題的識別越來越準確，用戶體驗也越來越好，可以看到作業幫一直在堅持後台演算法的迭代和優化，這種對初衷的堅持是演算法之外更可貴的產品精神。

4. 功能邏輯

從中可見，在拍照的過程中，做出了兩個比較明顯的限制。

第一個是橫屏拍照，保持題目處於圖片的特定區域，其目的在於減少後續識別演算法處理的難度。其次是對拍攝燈光的要求，因為當光線較暗時，圖片不夠清晰，則後期的文字識別會出問題，不利於最終的識別準確率。

這是用戶體驗和演算法準確性之間的一種權衡，更人性化的產品設計提倡，盡量減少對用戶的要求，增加用戶使用的自由性。

然而對於人工智慧演算法類的產品設計而言，其準確率的獲得往往需基於一定的前提，一旦打破這些限制，演算法識別的效果可能就會十分差勁，則會帶給用戶更糟糕的影響。

以下是實際體驗的一個過程截圖：

基於上述體驗，可見拍照搜題技術，已經取得了可接受的成效。

為了增加對演算法識別的難度，體驗中我們特別使用手寫題目，而從搜索的結果來看，返回結果中的5道題與原圖的相似度很高，說明文字識別及後續文字特徵匹配的準確率達到了可應用的程度。

同時我們還嘗試了將兩道題放在一起拍，則畫面中佔比較大的題目也可以檢索得到很好的輸出，這進一步說明，演算法在處理的過程中，對於文字的切割比較準確。但是，體驗中也發現了一些不足。

比如：題目拍攝的要求較高，尤其是屏幕中限定的框大小是固定的，而有的時候搜索的題目長短不一，所以大部分情況下難以在平台給定的小框內容納題目，所以只能拍攝題目的關鍵部分，如果一次識別不準確就要反覆嘗試，直到找到或放棄，增加了用戶操作的成本。

這是由於後台演算法的靈活度還不夠決定的。

其實我們需要更多地理解，這不是產品本身設計死板，而是因為現有的機器學習或深度學習演算法，本身仍比較機械。比如：很多神經網路的輸入，都有固定大小的需求，一些演算法也僅僅對達到某些條件的圖片處理才能獲得良好的準確率，同時AI類的產品設計又缺乏足夠的經驗積累。

這或許會在未來隨著深度學習進一步發展，演算法具有更強的推理和學習能力后，可以一定程度上增加產品設計的靈活度。

再比如：針對少數部分文字描述，而題意的表達主要依靠示意圖的數學題，體驗過程中我們嘗試只拍攝題目的圖片，此時系統大概率下無法檢索。也就是說，出現「圖中圖」的情況，演算法識別準確率較差。

這可能是因為系統基於OCR和深度學習的方法，主要對文字切割進行處理，但是對圖像特徵的處理比較欠缺，所以檢索效果較差。

則上述問題的解決，可通過多種技術方案融合，應對不同用戶場景需求的特定任務處理，增強演算法應用的魯棒性，減少演算法失靈的情況，這應當也是未來人工智慧產品落地的一個重要關注點。

最後，還有一個小問題，有時拍攝上傳數學類的題目，返回的結果中可能還包含物理、化學、英語等結果，我們將這類錯誤姑且稱之為跨學科錯誤。

這也是可以理解的，因為演算法更關注於對拍攝題目的文字識別，並在之後以文字特徵的相近性作為主要指標，進行搜索結果返回。如此，只要題目描述和題庫文本更相似就會作為結果返回，卻忽略題目類別的考慮。

關於這個問題的解決，或許可以考慮，在識別的過程中，增加類別標籤，如拍攝題目上傳之後，可以通過用戶設定題目類標籤。比如：屬於語文、數學、英語等，則上傳之後在特定的範圍檢索，這一方面可以提高演算法檢索的效率，另一方面也可以減少跨學科返回的錯誤。

（這一步在技術上看來是可行，而且增加的成本也只是用戶上傳的時候多了一個打標籤的操作，但是卻可以上傳之後，結合這個標籤減少檢索的範圍，同時減少跨學科返回的錯誤，而且後面做用戶評論分析分析這個問題還是槽點比較多地一個，那為什麼作業幫不做呢？我想不明白~）

5. 用戶評論

作業幫自上線以來，收穫的口碑不錯，根據七麥數據顯示其IOS市場下評分結果如圖：

總體評分達到4.6，好評率較高，同時為了進一步發現該應用仍存在的問題，我們搜集相關用戶評論共30條，其中部分用戶數據統計截圖如下：

30條數據中，1、2、3、5等級對應的數據量分別為20、3、2、5條，其中以低分差評為主，更利於我們發現產品的問題。

則對用戶數據進行關鍵詞提取后，發現其基本佔比如圖所示。

我們將用戶對問題的描述，提取出對應的關鍵詞進行歸類以便後續進行歸因分析。

首先是結果問題，主要包含的描述如搜不到題目、搜出來的題目與用戶需求不符合、答案解析有誤等，佔比較高達36.7%。
其次是閃退問題，約16.7%的用戶反映在拍照搜題的的使用過程中會出現閃退問題，也屬於一個高頻問題。
最後拍攝問題，同樣地也有16.7%的用戶反映，拍攝的過程中存在拍攝困難、橫屏適配的問題。

同時跨學科問題也比較明顯，它是指用戶拍攝數學題，結果檢索出來英文題目，這是比較刺激用戶體驗一種存在，用戶直觀看來會覺得系統無疑是「人工智障」。

此外還有抄襲問題，它主要反映了由於拍照搜題的便利性的同時帶來了孩子不加思考、直接抄襲的弊端，佔比達6.7%，這背後也反映出技術的雙刃性。

產品，既要寵著上帝，還要冒著被拋棄的風險「管管上帝」，要禿頭~

我們將最終問題產生的原因主要歸類為演算法準確率、產品設計、產品運營、產品bug。

首先針對結果問題，如搜題不準確、跨學科問題等都是由於平台演算法不夠精準、魯棒性差而引起的一種搜索結果返回失誤，該原因也是最為重要的一個，而且也是大部分人工智慧產品普遍存在的問題。

因為對於AI類的產品而言，演算法準確率及穩定性直接影響了產品的使用體驗。雖然目前有一些優秀的產品細節設計可以緩解用戶對準確率的矛盾，但是效果並不明顯，而該類問題的解決只能依賴於對演算法的進一步強化訓練及參數調節。

題目拍攝過程中存在的橫屏問題，則屬於產品設計的範疇，需要產品人員充分理解演算法的應用的基礎，而後結合用戶的使用流程進行功能設計的優化可以改善。

其它類似於產品運營、題庫、產品bug的問題，同樣需要產品及運營人員發現之後，及時展開具體調研並制定相應的方案去進行解決。

6. 技術分析

拍照搜題功能，從技術的實現角度上來看，主要有兩種方式。

第一種方式是以圖搜圖。即平台中的題庫同樣按照圖片方式存儲，則當平台處理一個用戶拍攝上傳的解題需求時，演算法通過計算用戶題目圖片的特徵，並進行搜索排序，從題庫中找到對應的最相似特徵的圖片，則該圖片即為用戶所搜索的題目。

這種方案本質上是基於計算機視覺特徵與機器學習演算法的匹配檢索技術。

但這種方式的不足在於，一方面系統的題庫需要以圖片的形式存儲，消耗的硬體空間較大，而且計算效率較低，性價比較低。

另一方面，對於兩道題目而言，基於圖片維度特徵的比對，進而界定文字題目的相似度，和直接基於文本特徵進行題目相似度的比對，必然還是後者的準確率要更為可靠。

因而，作業幫採用的是另一種基於OCR技術和深度學習結合的技術方案。

OCR（Optical Character Recognition），指的是電子設備（如掃描儀或數碼相機）檢查紙上的字元，通過檢測暗、亮的模式確定其形狀，而後利用字元識別方法將形狀翻譯成計算機文字描述的過程。

通俗地講，就是針對印刷體字元，採用光學方式，將紙質文檔中的文字轉換為黑白點陣的圖像文件，並通過識別軟體將圖像中的文字轉換成文本格式，供文字處理軟體進行加工的一項技術。

則基於上述定義，拍照搜題的過程，就是首先利用OCR，將圖片中的題目處理識別成文字，而後根據用戶的題目文本和平台資料庫中的題庫比對，找到最為相似的TOP 5（作業幫提供5個選項）。

OCR處理的過程主要包括以下幾個：

（1）圖像輸入及預處理：針對不同格式的圖像輸入，進行必要的預處理。

預處理過程首先進行二值化，即將彩色圖像轉換為黑白圖像，主要是為了剔除掉一些冗餘特徵，只留下重要的特徵。

其次進行雜訊去除。因為圖片二值化之後，可能在圖片中出現很多小黑點或其它雜訊類的附著，會影響後續的識別，所以要進行必要的過濾處理。

最後進行傾斜校正。因為用戶在拍照的過程中，可能出於拍攝的技術、環境等客觀因素的影響，照片的角度不利於最終的識別，因此需要進行必要的傾斜校正以保證圖片水平。

（2）版面分析：直觀來講，這一步就是對圖片中的文本進行段落、每一行的切分。

（3）字元切割：將圖片按照行和列進行劃分，則切割后字元就變成了自己一個字。

（4）字元識別：通過機器學習或深度學習，進行文字的識別。

（5）版面恢復：對識別後的文字，保持段落、行及文字間的相對位置不變。

而在文字識別的過程中，目前更為常用的方法是基於深度學習演算法。深度學習演算法識別單個文字的過程如圖所示：

如圖，經過OCR預處理並分割之後，對一個文字而言，基於深度學習方法的識別，首先對其進行卷積操作提取特徵，而後進行下採樣操作，保留更重要的特徵，而後繼續進行卷積和下採樣操作之後，將最後一層下採樣操作獲得的特徵輸送至全連接層進行處理並最終輸出其概率分佈，從中可見，最終以98%的置信度對當前文字判定為「運」。

對其它文字的識別亦同理，當前基於深度學習的文字識別，演算法準確率通常達到99%以上。

技術關鍵詞：OCR 深度學習識別文字。

7. 功能擴展

同時，基於相近的技術，作業幫對應用進行了擴展。

他們為了滿足家長批改作業、輔導孩子的需求，進一步開發了具有針對性的家長端。

在家長端，主打的特色功能是口算批改和作文搜索，則該需求的指向性更為明顯，背後的技術原理和流程本質上和作業幫也是比較相似的，但家長版的整體體驗更加簡潔，因為對於家長而言，更多的是起到輔助和陪伴的角色。

具體的體驗在這裡就不贅述了，感興趣的小夥伴可私底下悄咪咪去體驗一把。

在這裡特別提及家長版是因為，在體驗AI類產品的過程中發現，其實人工智慧產品的設計中和傳統的產品設計還是有很多類似的地方。歸結到底還是對用戶需求的把握，有的時候基於同一項或相近的技術，可以解決很多用戶的不同需求。所以有的時候，如果產品設計人員過度重視演算法和技術實現的細節反而會使得我們忽略了用戶的需求。

換一個角度，許多人說目前人工智慧演算法的應用，其瓶頸在於找到落地的場景作為切入點。那麼我想對這些產品分析體驗的過程，就是要求產品或技術人員結合用戶-場景-需求及功能目的、功能邏輯的分析之後可以懂得——

某一些演算法通過運用什麼樣的流程設計，解決了哪些人的哪些問題，從而當面臨新的需求時，學會遷移借鑒某些產品已經驗證過的演算法及功能流程的設計，這樣的體驗可能才具有價值，希望我們可以努力把這件事做得更好！

總結

本期主要體驗了作業幫的「拍照搜題」，從中我們看到，基於OCR和深度學習技術的結合，人工智慧在K12教育上也發揮了巨大的潛力，在未來不斷地發展和技術完善中，作業幫可想象的空間也許不局限於K12，甚至是成人教育也未可知。

作業幫再一次證明，科學技術本身沒有溫度和創造力，而真正煥發無窮力量的是產品。

作者：Luna，公眾號：有三AI，一個專註於人工智慧技術與產品落地的公眾號，希望可以和熱愛AI的人有更深入交流，一起見證AI改變生活！