語音交互:如何設計一個語音技能? | 人人都是產品經理

編輯導語:隨著科技的快速發展,如今我們的生活越來越便捷,很多時候通過說話便有機器代替我們去完成一些事情,這便是語音技能帶給我們的好處。日常生活中,語音技能彷彿無處不在,小到手機、智能音箱,大到機器人,那麼,語音已經應該如何設計出來呢?

隨著語音交互的普及,我們首先用到的最多的就是語音技能,比如:我們讓智能音箱唱歌、查天氣、講笑話等,這些都是語音技能。今天,我們就來聊聊如何從零到一的設計一個語音技能。

1. 基礎信息介紹

在設計語音技能之前,我們首先要掌握技能用到的一些基礎定義,每家公司可能叫法上面會有區別,但是都大同小異。

1.1 基礎定義

我們在聊聊語音技能常見的一些名詞和定義,主要有領域(domain)、意圖(intent)和槽位(slot),這些都是語音技能必不可少的一些參數內容。

1.1.1 領域

聽到這個詞,我們就感覺到了約束性,其實領域這個詞就是約束語音技能範圍的意思。一般一個語音技能,會有一個明確的領域,剩下的內容都在這個領域裡面做處理。

1.1.2 意圖

顧名思義就是判斷用戶具體要做什麼的意思,領域可以是一個大範圍的事情,而意圖是領域中的一個小分類。

比如:讓機器人跳舞是一個領域的事情,那麼「開始跳舞」和「停止跳舞」就是領域下的意圖的事情。意圖一般會非常明確,會有明確的邊界,在自然語言處理中屬於封閉域的問題。

1.1.3 槽位

根據槽位的有無,語音技能可以分為有槽位的和沒有槽位的。槽位一般就是指我們前面說到的實體詞,用來做信息抽取用的,補全和完善用戶的意圖。

比如:「唱首歌」就是沒有槽位的語音技能,只需要知道是唱歌的意圖就可以;而查天氣是常用的有槽位的語音技能,除了識別出這是一個查天氣的意圖之外,機器人還要知道要查什麼時間、什麼地點的天氣,時間和地點在這裡就是槽位信息。

有槽位信息的一般還會有默認槽位,就是沒有槽位信息的時候,直接使用默認的槽位信息,從而保證語音技能的正常。常見的就是「天氣預報」,默認的就是當地當天的天氣。

1.2 底層邏輯

再聊聊一下目前語音技能的底層邏輯,基於什麼能力實現的。

目前大部分做語音技能的公司,都是用正則表達式來寫的,就是基於一些文本規則,作為約束條件,篩選出來明確的意圖。抽取的槽位也是基於規則,或者窮舉的方式。

這樣做的好處是改動方便,以及改動后的影響好評估,而且冷啟動非常方便,甚至可以做到每天迭代;缺點也同樣明確,泛化能力弱,沒有學習能力。

也有一小部分公司已經開始使用演算法做語音技能了。

語音技能本質是一個意圖識別的事情,而意圖識別實際上又是一個分類問題,有基於傳統機器學習的SVM,基於深度學習的CNN、LSTM、RCNN、C-LSTM等。

槽位識別實際上是一種序列標記的任務,有基於傳統機器學習的DBN、SVM,也有基於深度學習的LSTM、Bi-RNN等。用演算法做的優點就是泛化能力強,有一定的學習能力;缺點就是成本高,適合複雜技能後期迭代的方向。

正則表達式- HELAY新鮮事

2. 語音技能的定義

在開始動手做語音技能的之前,要先對語音技能進行定義,知道技能的邊界,要有明確的反饋邏輯在裡面。我們這裡用「查天氣」這個爛大街,也是最典型的技能來舉例子。

2.1 定義技能

我們要明白為什麼做「查天氣」這個技能,以及要做到多細。

原因可能是我們就覺得這個技能很基礎,用戶都被教育過了,必須要有;也可能是我們看用戶的交互日誌,發現每天都有很多人有這個意圖,現在是未滿足狀態,值得單拿出來作為一個技能。

還可能是老闆覺得競爭對手有了,我們也要做。

假設我們是覺得是技能很基礎,必須要做。接下來我們就要考慮怎麼定義這個技能,需要注意以下幾點:

2.1.1 要明確技能的邊界,就是那些query是該技能要識別的,需要有一個明確的定義

這個看起來很容易,其實執行起來會很糾結,因為自然語言本身就有一定的歧異性。

就拿「查天氣」舉例子,比如:「今天該穿什麼?」、「明天能不能出去玩」算不算查天氣的意圖,都是要明確的。其實最讓你糾結的往往是模糊的語義,算作技能也不為錯,不算吧,又覺得用戶可能有這個意思。

所以明確的邊界的時候,有三種處理邏輯:

2.1.1.1 只處理特別明確的意圖,不care模糊的語義

比如:只處理「明天天氣」、「查一下天氣」等這樣的

2.1.1.2 模糊的意圖也一起處理,都歸為該技能

比如:「明天該穿秋褲嗎?」也屬於該意圖,和「明天天氣」一起處理

2.1.1.3 還有一種精細化的處理,把明確的意圖和模糊的意圖分開處理

比如:可以讓明確意圖直接執行,模糊意圖選擇反問,用戶確認后執行。用戶一旦確認后,以後這句話就歸位了明確意圖。

比如:用戶問「今天穿什麼出去好呢?」,計算機回答「您是不是想查詢今天的天氣?」,用戶回答「是的」,計算機回答「今天北京氣溫20度,適合……」;然後下次用戶問「今天穿什麼出去好呢」,計算機就可以回答「今天北京氣溫20度,適合……」,反之亦然。

當然如果模糊問的問法比較多,可以專門做意圖優化。

2.1.2 明確技能的領域、意圖和槽位的信息

就拿「查天氣」這個技能為例,領域我們一般設置為「weather」,但是意圖定義就會有兩種方案:

一種是簡單的,只有一個意圖,比如意圖也是「weather」;還有一種是精細化的處理,有若干餓意圖,比如「北京空氣質量?」算是「get_haze」,「今天會下雨嗎?」算是「get_rain」等,就是每個不一樣的問法,對應不同的意圖。

本質上越精細化的技能,給用戶的體驗會越好。


2.1.3 考慮技能內多輪的支持,以及支持的效果

由於自然語言先天是具有多輪屬性的,很多時候需要藉助上輪的信息,才能理解這句話,在做語音技能的時候,也要考慮到這方面的可能。

比如:用戶先說「明天天氣」,緊接著,用戶又說「後天呢?」,這個時候是否考慮支持,都需要在定義技能的時候明確。像用戶隔多久的多輪需要支持,支持的邏輯,我們這裡就不展開了。

定義好了技能,就知道了這個技能能幹什麼,方便後面的測試同學測試,也知道未來要迭代的方向。一般如果沒有數據支撐的話,建議先做最基礎的就可以,邊界越小越好。

2.2 觸發技能反饋

反饋這塊一方面依賴於產品底層的設計;另一方面依賴於產品形態,按照有無屏幕,可以簡單的分為兩種產品形態:有屏幕和沒有屏幕。這兩方面結合,才能設計出一個人性化的體驗。

產品的底層設計要考慮意圖要不要細化,比如:「今天有霧霾嗎?」和「今天天氣怎麼樣?」這兩種問法有沒有必要分開處理,設置不一樣的回復內容。

還要考慮如果槽位超出技能的邊界怎麼處理,比如:「三年後的天氣預報」,這個時候我們需要怎麼反饋,都是需要在語音技能定義的時候寫清楚。

具體怎麼展示以及怎麼回復,就要依賴於產品形態考慮。

有屏幕的可能更多的信息會通過屏幕展示,語音只是做到一個提醒的效果,有些場景甚至都不需要語音,而沒有屏幕的就要考慮語音播報的表達方式,要注意文字的長度,都播報那些內容,播報的先後順序,甚至播報的句式的豐富度都要考慮。

技能的反饋,是用戶直接能夠感受到的,其重要心怎麼強調都不為過,這塊可以參考語音交互的設計規則。

3. 數據的準備

前面說到的都是產品設計的時候要考慮到的問題,如果你把技能已經設計的差不多的時候,就可以準備這個意圖的訓練和測試數據,因為我們最終語音技能的開發是基於數據的,數據覆蓋的越全面,技能的效果越好。

無論訓練數據還是測試數據,簡單可以把數據分為兩部分,正例和反例。

3.1 正例數據

正例數據指的是正常的觸發文本,就是你設計的觸發query,像「明天天氣怎麼樣」、「天氣預報」、「查詢天氣預報」等,這些都是我們定義的「查天氣」的意圖。

一般在準備正例的數據時,最關心的是數據的來源,還有數據的豐富性。

如果是冷啟動的話,建議團隊內部,或者有專門的數據部門,進行人肉泛化,就是每個人自己寫幾條符合意圖的觸發query。

這裡亞馬遜在做智能音箱的時候有一個要求,就是每個意圖的正例訓練集的數據,不能少於30條(測試數據也一樣)。數據來源就是公司員工製造,數據豐富性就是依靠數據量標準約束。

如果是語音能力已經有了,每天都有大量的交互數據,我們就可以從真實的交互中拿數據。導出交互日誌需要逐一標註,從中找到屬於該意圖的數據。

這些數據的好處就是更加貼近用戶真實的情況,缺點就是成本會比較高,但一般都是可控的。

基於現有的交互數據標註,可以輕輕鬆鬆準備30該意圖的數據,建議越多越好,100條以上為最佳。數據來源就是用戶的交互,數據豐富性是依靠用戶的。

3.2 反例數據

反例數據指的是非該意圖的數據,就是除了正例數據,理論上所有的數據都是反例數據。像「明天要是不下雨就好了」、「我知道現在在下雨」、「我不想查天氣預報」等,這些都不是我們定義的「查天氣」的意圖。

很多時候,我們做語音技能的時候,是很容易忽略反例數據的。

反例數據最好是能夠有意圖相關的關鍵詞,數據量最好可以和正例數據一樣多。在準備反例數據的時候,要注意一些意圖相反的操作,比如:「我不想查天氣預報」,這是比較典型的反例數據。

往往反例數據比正例數據要難收集,尤其是高質量的反例數據,一般交互日誌是最好的資源。

正例數據可以保證準確率,而反例數據可以減少誤召回,提高召回率。

4. 語音技能的實現

訓練數據準備好之後,就是技能的實現了,這塊需要工程師的支持。有些公司是工程師直接寫語音技能的邏輯,有些公司是會提供一個平台,通過培訓,讓產品經理和運營同學也可以寫。

這裡就會用到一些基礎能力,當一句query傳過來,首先會使用中文分詞對這句話進行分詞。

比如:「北京明天天氣怎麼樣」,會被分為「北京」、「明天」、「天氣」、「怎麼樣」,然後就是命名實體識別;比如:「北京」就是地點實體,「明天」就是時間實體,對應的就是語音技能的槽位。

最後就是匹配我們寫的正則表達式,這裡就不過多贅述,感興趣的同學可以搜搜看。

中文分詞:為什麼叫中文分詞呢?因為英文是以詞為單位的,詞和詞之間是依靠空格和標點隔開的,而中文是以字為單位的,一句話的所有字是連在一起的。

所以就需要演算法把一句話切分成有意義的詞,這就是中文分詞,也叫切詞,主要為了NLU後面處理做準備。了解鎚子手機的人可能知道上面有一個叫做「大爆炸」的功能,就是基於該演算法的。

這是NLU最底層的能力,一般都是用的開源的演算法,大家能力相差不大,基本可以保證準確率在90%以上。

命名實體識別:詞性標註是把每個詞的詞性標註出來,而命名實體識別是指識別文本中具有特定意義的實體,包括人名、地名、時間等。

一般來說,命名實體識別的任務就是識別出待處理文本中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體。

這個一般會根據本身業務的需求進行調整,不做明確的限制。

還有比較簡單的實現方式,就是通過窮舉實體+寫正則的方式,而不需要用到模型去做處理。

比如:「查天氣」這個技能,我們通過窮舉的方式,把表達地點和時間的詞語都窮舉出來,然後分別存到詞典裡面。最後使用這兩個詞典寫一些正則表達式,用來覆蓋我們準備的訓練集。

這樣做的的前提需要是實體詞是可以窮舉的,否者就會遇到召回率很低的問題。除了實現方法,我們還要考慮實現過程的效率,以及實現效果怎麼樣。

5. 測試驗收效果

一般的語音技能開發會比較快,開發完成之後就是驗收了,驗收最關心的指標是精準率和召回率。

5.1 驗收指標介紹

本質上就是計算機判斷了一次,然後人工判斷了一次,默認以人工判斷的為真實標籤,計算機判斷的為預測標籤,如下表:

5.1.1 精準率(Precision)

計算機認為對的數據中,有多少判斷對了。

精準率表示的是預測正例的樣本中有多少是真正類,預測為正例有兩種可能,一種就是真正類(TP),另一種就是假正類(FP),公式表示如下:

5.1.2 召回率(Recall)

的樣本中,有多少被計算機找出來了。

召回率表示的是樣本中的正例有多少被預測正確了。也只有兩種可能:一種是真正類(TP),另一種就是假反類(FN),公式表示如下:

其實就是分母不同,一個分母是預測標籤的正例數,另一個真實標籤的正例數。一般情況這兩個指標都會在0-1之間,越趨近於1,語音技能的效果越好。

5.2 驗收步驟

驗收這裡分為兩個步驟:一個NLU批量驗證;一個是端到端驗證,都可以用測試集來驗證。

NLU批量驗證就是把測試集的query,全部通過語音技能的邏輯跑一邊,一般用來驗證技能在NLU上面的效果。通常這一步只會測試新增的技能,單獨測試這個技能的效果,主要關心的是精準率和召回率,這一步理論上來說,必須這兩個指標都要達到95以上。

端到端驗證是模擬用戶正常使用,需要把技能放在整個語音鏈路上面,來觀察語音技能在實際情況中的表現。

通常這一步才會發現一些問題,比如:語音技能之間的衝突,甚至會發現ASR識別不對的情況。這一步主要關心響應時間、語音技能是否正常等情況。

測試一定要把好最後一道關卡,保證語音技能的精準率和召回率,同時也要測試技能之間優先順序的關係,是否技能之間會出現優先順序的問題。如果有多輪的語音技能,也要測試多輪的效果。

6. 總結

做一個語音技能,產品首先要有一個明確的定義,其次就是基於產品定義準備訓練集和測試集,然後基於訓練集完成技能的開發,最後使用測試集進行驗證。