以語音交互為核心功能的智能產品設計建議

我們終將以自然的方式與機器交流

在2012年聖丹斯獨立電影節上，影片《機器人與弗蘭克》贏得特別獎，該片講述機器人Robot照顧患有老年癡呆症弗蘭克的故事，選取影片中兩張圖，一張是人與人的交流，另一張是人與機器的交流，在2017年AI大熱之年，人們能否像電影裏的弗蘭克那樣，以人對人的方式與機器交流，這在人機交互學科裏定義為“人機自然交互”。

何為自然交互？簡而言之就是以日常交流方式與計算機進行交互，何為日常交流方式？就是人們通過語音、肢體、手勢、眼神、表情等形式進行交流互動。

人機交互正邁上新台階

人機交互（HCI – Human Computer Interaction）的發展是從人類適應計算機到計算機不斷適應人類的過程，劃分四個階段：代碼指令交互、圖形用戶界面交互、人機自然交互和人機情感交互。【引自《人機情感交互》】

每個階段的發展都是以技術作為基石，以此帶來的人機交互更為直觀，也更趨近於人與人的自然交互，同時會拓寬更多的使用場景，會覆蓋全年齡段的所有人。如下圖所示，指令 – 專業技術人員操作早期計算機；鼠標鍵盤 – 受過教育的普通人使用PC機進行學習工作；觸屏 – 更廣泛的人群使用智能手機進行社交、資訊、娛樂等；自然交互 – 所有人將以自然的行為方式與智能產品互動。

隨著AI技術的發展，智能產品在感知層面的能力正在變強，它能感知人們的語音、肢體語言、手勢動作、表情眼神等，實現了人機自然交互的可能性，這是正在發生的事情。

未來智能產品的趨勢是將擁有情感計算能力（Affective Computing），通過認知人類的語音信息、人臉表情、肢體動作等，從而調整自身的反饋來適應人們那一刻提出的需求，交互會變得越來越容易，它會更懂你。

智能產品能感知人的自然動作和讀懂人的情感，都屬於信息輸入層面。在信息輸出層面，智能產品如何設計才能達到“人與人自然交流”的感覺，為此我們將從六個維度給出設計建議，分別是人物設定、外觀造型、語音、動作、界面和光效。正如同人與人交流時對方的脾氣性格、外貌印象、聲音特點、肢體語言、表情和眼神。

以語音交互為核心功能的智能產品設計建議

1. 人物設定的設計建議

①人設是要為用戶服務；

人設是高級的虛擬形象設計，不由設計師的個人喜好來擬定，要充分考慮產品所服務的目標用戶，譬如病人希望看見的是專家級醫生，旅客希望能獲得空姐甜美的服務，食客希望迎賓的店小二是熱情好客的，這些形象在我們的腦海裏栩栩如生。比如Amazon Echo是成熟職業女性的形象（類似有Google Home、天貓精靈、京東叮咚等），Olly給人潮流的設計感，它們為各自的目標受眾群體去設定形象。

②人設可以通過抽象的方法進行傳達，並非一定要具象化；

比如小米智能音箱定義的“小愛同學”是二次元形象，在今年11月底做出限量版手辦，把形象落地到成具象的實體物品。對此，仁者見仁智者見智，有人說她不是心目中的“小愛”，所以在人設形象的傳達上，我們建議可以通過藝術的手法達到目的，比方說用音樂、繪畫、文學、電影等藝術進行包裝抽象成一套視覺來傳達，達到“空山不見人，但聞人語響”的境界。

③人設與產品要融為一體的進行考慮；

以語音交互為核心功能的智能產品，其“人聲”會讓用戶自動的聯想與之對應的形象，同時需考慮與外觀造型相匹配，才能符合用戶預期。有些智能產品有動作輸出，例如人設定義為蠢萌的jibo，它的動作就要顯得有趣可愛。如果考慮不周全，就會導致認知失調產生落差，比如小魚在家，當用戶問它幾歲時，它卻用其成熟女性的聲音回答“我今年兩歲了”，而Amazon Echo的回答是“按照人類的出生年齡計算我今年兩歲”，後者更能讓人接受與理解，即使是微不足道的一句文本都可能會讓用戶“出戲”，所以人設要與整個產品的信息輸出層面融為一體的去考慮。

2. 外觀造型的設計建議

①充分考慮目標用戶的審美與喜好；

根據目標客群打造其喜歡的外觀造型，比如小朋友會喜歡jibo勝過Echo，追求新潮的人更喜歡raven R，因為能與之載歌載舞。與以屏幕為主的智能手機不同，用戶可不能更換主題皮膚找到自己的喜好，而Google Home也隻能是通過“換褲子”來迎合用戶偏好與家居風格。

②基於使用場景考慮造型設計；

要考慮用戶會在哪種現實環境的場景下使用，目前市面上的智能語音產品多數放置在桌面上，體積大小就要認真思考，比如大了點、重了些，就不方便自由移動隨處擺放，如果定義為多個使用場景，那便攜上得做到位。比如raven H頂部的“點陣觸控屏”蓋子，用戶能輕鬆取下進行語音和指觸交互，於是不受固定位置的限製。

③避免掉進恐怖穀；

避免與人全特征的過度相似，建議采用抽象的方法提取擬人元素進行設計表達，這有助於產品向用戶傳達情感信息，從而有效的提升用戶好感度。例如蔚來ES8搭載的人工智能nomi，還有百度的度秘，都是通過此類設計方法打造智能情感的交互，讓一個工業產品，升級成一個有生命，有情感的新夥伴。

但如果與人的特征過度相似，現階段的技術能力，造型上做不到寫實逼真像人，同時語音、表情、動作也無法達到自然完美的匹配，所以這不倫不類的設計會給用戶帶來糟心的體驗，例如Blue Frog Robotics公司推出的Buddy，很容易讓用戶掉進“恐怖穀”。

“恐怖穀理論”是由日本機器人專家森昌弘提出，他認為，人形玩具或機器人的仿真度越高人們越有好感，但當達到一個臨界點時，這種好感度會突然降低，越像人越反感恐懼，直至穀底，稱之為恐怖穀。如圖所示，穀底處能動的僵屍比靜止的屍體更恐怖，雖然屍體已經夠恐怖的了。

3. 語音的設計建議

①自然感；

避免單調乏味，做到像人說話一樣的自然，語氣上聽起來積極主動，有意願的感覺，每一個音素合成的詞句清晰可辨，自然流暢。人類語音的信息含有語音聲學特征和文本語義，語音聲學特征主要是韻律特征（指音素組合成語句的方式），包括聲調、重音、停頓、語速等，漢語是一種有調語言，聲調攜帶非常重要的情感信息。語音屬於自然交互的一種，它需要達到“自然”的感覺，才能讓用戶感知可用。

如何讓Siri聽起來更像人那般自然？

iOS11版本關於Siri的升級目標是“讓Siri聽起來更像人那般自然”，實現方法是通過深度學習，每一種表達都有略微不同的聲波，每一句話都包含幾十或者幾百個音素，Siri為每一次發聲找出完美的聲音組合，其中音素是由蘋果挑選出的候選人進行發音采集，情感語料的獲取是蘋果以匿名的方式進行收聽，然後用於深度學習進行Siri的訓練。

②一旦確定“人聲”不宜隨意更改；

一旦人設的聲音已根植在用戶的耳朵裏，不宜隨意更改，如果說手機界面換背景圖就像人換一身新衣裳，而以語音交互為核心功能的智能產品更換“人聲”，就像重新認識一位陌生人，古語說“如聞其聲，如見其人”，人們會很自然的把聲音與某個人進行關聯，新的聲音是誰，就會重新進行“人物建模”。

③像人和人那樣進行對話；

首先是對話流暢，做到及時反饋，如有停頓，不宜過長。話術簡短而有效，不要主動終止對話，盡可能的推動持續交流，當然不能以命令的形式讓用戶去完成某個任務，這不是一個合適的對話，它或許有點像上下級的關系，會導致用戶帶來反感和抵製。

④在感知用戶後嚐試主動發起對話；

再過些時日，可能Amazon Echo它能夠根據說話者的語音情感進行識別計算，通過韻律學特征（語調、響度、節奏、語音質量等）更懂用戶說這句話的此刻心境，就像電影《Her》裏的那句台詞“你今天聽起來有點不開心”，它能感知你，試著主動發起一次對話。