新智元作者:王嘉俊 王婉婷 張巨巖
圣誕前夕,新智元盤點(diǎn)了全球最好人機(jī)交互技術(shù)(來自 Gartner 技術(shù)曲線),并把它們分為五大類:
1、科技誕生的促動期(On the Rise)
2、過高期望的峰值(At the Peak)
3、泡沫化的低谷期(Sliding Into the Trough)
4、穩(wěn)步爬升的光明期(Climbing the Slope )
5、實(shí)質(zhì)生產(chǎn)的高峰期(Entering the Plateau)
注:技術(shù)成熟度曲線又叫技術(shù)循環(huán)曲線,或者直接叫做炒作周期,是指新技術(shù)、新概念在媒體上曝光度隨時間的變化曲線。
從 PC 到互聯(lián)網(wǎng)再到移動互聯(lián)網(wǎng),IT 產(chǎn)業(yè)的快速發(fā)展背后是基礎(chǔ)設(shè)施和核心技術(shù)的進(jìn)步。但我們也注意到,一項(xiàng)技術(shù)真正改變?nèi)祟惿睿€是來自人機(jī)交互模式的創(chuàng)新。
回顧過去我們姑妄言之,未來 5 年 IT 產(chǎn)業(yè)的核心推動力,來自于人機(jī)交互的變革。
談到人機(jī)交互,我們總能想到一些經(jīng)典的例子:例如喬布斯推出的 iPod,讓音樂真正可以成為便攜之物;而后又推出了觸控式的 iPhone,完全顛覆了過去鍵盤式手機(jī)的模式。這背后當(dāng)然有喬布斯偏執(zhí)的天才藝術(shù)家氣質(zhì),但不可否認(rèn)的是,iPhone 成功的背后是各種傳感器價格大幅下降,觸控技術(shù)的成熟和3G、4G 網(wǎng)絡(luò)的普及。而現(xiàn)在,語音技術(shù)的突破更帶動智能人機(jī)交互的發(fā)展,科大訊飛在語音識別和合成技術(shù)上有強(qiáng)大的國際競爭力,連續(xù) 10 年蟬聯(lián) Blizzard Challenge 英語合成國際評測第一,語音合成、語音識別和自然語言理解技術(shù)全球第一。
iPhone 和 iPod 的成功,我們認(rèn)為是核心技術(shù)的成熟、在產(chǎn)品進(jìn)行用戶體創(chuàng)新以及天才領(lǐng)導(dǎo)人物共同作用的結(jié)果。
不過這也提出啟示:未來的偉大產(chǎn)品,很可能也是這樣的模式。我們認(rèn)為在知識產(chǎn)權(quán)和核心數(shù)據(jù)變得越發(fā)重要的時代,下一個巨頭級企業(yè),一定是在核心技術(shù)上能掌握主導(dǎo)權(quán),然后產(chǎn)品上的用戶體驗(yàn)上小步快跑,快速迭代。
回到人機(jī)交互的變革,我們面臨著萬物互聯(lián)的時代。手機(jī)、可穿戴設(shè)備、智能家居等,我們要處理各種各樣的設(shè)備、信息和數(shù)據(jù)。在這個過程中,我們認(rèn)為未來核心的人機(jī)交互,是以語音交互為主,觸摸手勢為輔,依托于人工智能技術(shù),能夠智能的和你稀缺的注意力資源進(jìn)行互動。
科大訊飛的發(fā)展歷程和我們談到的核心技術(shù)突破 + 產(chǎn)品上用戶體驗(yàn)創(chuàng)新有很多相同之處。
科大訊飛總裁劉慶峰在接受采訪時提到:
“創(chuàng)新應(yīng)該為大波浪+小波浪,也就是核心源頭技術(shù)突破+用戶體驗(yàn)微創(chuàng)新。換言之,中國人工智能的發(fā)展,一定要用核心技術(shù)的突破。如果掌握不了主導(dǎo)權(quán),產(chǎn)業(yè)越大風(fēng)險越大。”
“在推動人類未來需要什么樣的技術(shù)?我覺得未來最核心的是兩條;一條是誰能夠在用戶界面中提供自然便捷的方式?第二,誰能理解我們的需求?抓住這兩條才能有效的布局未來發(fā)展。”
科大訊飛研究院院長胡郁表示說,“我們不是一家跟風(fēng)的企業(yè),我們只是在等待一個機(jī)會,用技術(shù)和實(shí)力去爭取自己的話語權(quán)。我們也希望向世界證明,中國的企業(yè)依靠核心技術(shù)創(chuàng)新和系統(tǒng)技術(shù)創(chuàng)新也可以贏得應(yīng)有的尊重。”
下周一(12 月 21 日14:30-16:30)是科大訊飛的年度發(fā)布會,有國際前沿重量級的人機(jī)交互產(chǎn)品發(fā)布。我們看到深耕語音技術(shù)的科大訊飛,在產(chǎn)品的用戶體驗(yàn)上也下足了功夫。新智元邀請您參加 2015 科大訊飛年度發(fā)布會的微信群直播,這次直播由新智元主辦,讓我們一起探秘語音和人工智能的現(xiàn)狀和未來趨勢。
以下是新智元對 33 項(xiàng)人機(jī)交互技術(shù)進(jìn)行的詳細(xì)梳理,文末有發(fā)布會參加方式。
虛擬個人助理 Virtual Personal Assistants
虛擬個人助理是一種軟件形式的助理,可以為你完成一些工作或是提供一些服務(wù)。這些工作和服務(wù)依賴于用戶輸入信息、位置信息、以及從各種網(wǎng)絡(luò)資源中獲取信息的能力(比如天氣情況、路況、新聞、股價、用戶日程、商品零售價等等)。Apple的Siri、Google的Google Now、Amazon Echo、微軟的Cortana、三星的S Voice、黑莓的Assistant、HTC的Hidi、Facebook的M等等都有虛擬個人助理的功能。
生物聲學(xué)傳感 Bioacoustic Sensing
生物聲學(xué)是一個生物學(xué)和聲學(xué)交叉的領(lǐng)域。生物聲學(xué)傳感的應(yīng)用之一就是皮膚輸入(skinput),這種微軟研究院開創(chuàng)的技術(shù)通過生物聲學(xué)來定位手指點(diǎn)擊到的皮膚位置。整合微型投影儀(pico-projector)以后,它能夠在人類身體表面投影出可以直接操作的、圖形式的用戶界面。人們總是希望設(shè)備能夠越來越小的同時操作界面不要隨之縮小,皮膚輸入為這樣的目標(biāo)提供了一種很有潛力的方法。
步態(tài)識別 Gait Recognition
步態(tài)識別是一種生物測量學(xué)的技術(shù),測量身體的移動、生物力學(xué)、肌肉運(yùn)動等等方面。運(yùn)用步態(tài)識別的方法,可以根據(jù)每個人獨(dú)特的步態(tài)將他與其他人區(qū)分開,所以可以作為一種非侵入式、無需對方配合的識別方法。在一定的距離上也可以完成對人類的步態(tài)識別,這就讓它非常適合用來在犯罪現(xiàn)場辨別嫌疑人。醫(yī)療領(lǐng)域同樣可以用到步態(tài)識別,比如,通過對于步態(tài)的識別可以在帕金森癥和多發(fā)性硬化癥等病癥的早期階段就將它們鑒別出來。
腦機(jī)接口 Brain-Computer Interface
腦機(jī)接口是在人或動物的大腦與外部設(shè)備間建立直接的信息交換通路。腦機(jī)接口通常直接與輔助、增強(qiáng)、或是修復(fù)人類的認(rèn)知和感覺運(yùn)動能力聯(lián)系在一起。腦機(jī)接口領(lǐng)域的研究主要關(guān)注神經(jīng)義肢(neuroprosthetics)的應(yīng)用,目標(biāo)在于修復(fù)受損的聽力、視力、以及運(yùn)動能力。大腦皮層的可塑性讓來自植入式義肢的信號可以被大腦當(dāng)作自然產(chǎn)生的信號來處理。腦機(jī)接口未來在中風(fēng)恢復(fù)、意識障礙(Disordersof Consciousness)等方面有許多應(yīng)用前景。
增強(qiáng)人類能力 Human Augmentation
增強(qiáng)人類能力指的是任何運(yùn)用自然或是人工的方法來克服人類能力局限性的努力。這一方面現(xiàn)有的技術(shù)在生理方面有提升肌體表現(xiàn)的藥物、強(qiáng)力的外骨骼、器官移植等等,在精神方面有強(qiáng)化認(rèn)知等能力的藥物、計算機(jī)和互聯(lián)網(wǎng)等讓人類的行動更有效率的工具等等。未來將會出現(xiàn)的技術(shù)包括成熟的人類基因編輯、基因治療、腦機(jī)接口、神經(jīng)植入裝置等等,意識上傳、外部大腦皮層(exocortex)等技術(shù)也并非沒有可能。
立體顯示 Volumetric Displays
立體顯示是指形成一個物體的3D影像,與傳統(tǒng)屏幕上用深淺的效果在2D平面模擬3D圖像是不同的。絕大多數(shù)(如果不是全部的話)立體顯示不是采用自由立體技術(shù)(autostereoscopic),就是采用多視點(diǎn)技術(shù)(automultiscopic),以此創(chuàng)造出裸眼可見的3D影像。立體顯示在人機(jī)交互中有廣闊的應(yīng)用前景,有一些對于用立體顯示進(jìn)行人機(jī)交互在速度和準(zhǔn)確度上的優(yōu)勢、創(chuàng)造全新的圖形交互界面、用立體顯示增強(qiáng)醫(yī)療應(yīng)用等方面的研究。
非醫(yī)療用途的植入式芯片 Chip Implants for Nonmedical Applications
植入式芯片是一種裝在硅酸鹽玻璃中的集成芯片識別裝置或是射頻識別收發(fā)裝置。通常植入的芯片會包含唯一的識別ID,可以用來與外部數(shù)據(jù)庫里的信息(比如個人身份、醫(yī)療記錄、聯(lián)系信息等)相連。在未來,如果植入式芯片帶有GPS功能,那么就能準(zhǔn)確地捕捉到這個人所在位置的經(jīng)緯度、海拔高度、他的移動速度以及移動方向。這將讓定位失蹤者、逃犯等成為可能。但是,也有人指出,這種技術(shù)可能會帶來政治壓迫,因?yàn)檎軌蛲ㄟ^植入式芯片來追蹤和迫害人權(quán)運(yùn)動者、勞工維權(quán)人士、政治對手等;而罪犯也能利用它來跟蹤并騷擾那些受害者,奴隸主們可能會用它來防止奴隸逃跑,那些虐待兒童的人也可能用它來確定孩子們的位置、然后實(shí)施綁架。
電震動 Electrovibration
電震動現(xiàn)象可以被追溯到1954年的意外發(fā)現(xiàn)。當(dāng)時的研究者們報告說,覆蓋著一層薄絕緣層的導(dǎo)電表面,通電后,當(dāng)干燥的手指在表面上滑動時會有一種獨(dú)特的橡膠觸感。電震動效應(yīng)通過給手指上的觸覺接收神經(jīng)以錯誤的信號來達(dá)到效果。現(xiàn)在,基于電震動的原理,已經(jīng)有人開發(fā)出了力反饋觸摸屏,能夠?yàn)橛|摸屏提供類似實(shí)體按鍵的觸覺反饋。這種技術(shù)還有可能為盲人帶來全新的閱讀設(shè)備。
智能機(jī)器人 Smart Robots
到目前為止,在世界范圍內(nèi)還沒有一個統(tǒng)一的智能機(jī)器人定義。大多數(shù)專家認(rèn)為智能機(jī)器人至少要具備以下三個要素:一是感覺要素,用來認(rèn)識周圍環(huán)境狀態(tài);二是運(yùn)動要素,對外界做出反應(yīng)性動作;三是思考要素,根據(jù)感覺要素所得到的信息,思考出采用什么樣的動作。智能機(jī)器人根據(jù)其智能程度的不同,又可分為三種:工業(yè)機(jī)器人、初級智能機(jī)器人和高級智能機(jī)器人。工業(yè)機(jī)器人,它只能死板地按照人給它規(guī)定的程序工作;初級智能機(jī)器人,具有象人那樣的感受,識別,推理和判斷能力。高級智能機(jī)器人除了包括初級機(jī)器人的能力外通過學(xué)習(xí),總結(jié)經(jīng)驗(yàn)來獲得修改程序的原則,這種機(jī)器人擁有一定的自動規(guī)劃能力,能夠自己安排自己的工作。這種機(jī)器人不需要人的照料,完全獨(dú)立的工作,故稱為高級自律機(jī)器人。
情感探測/識別 Emotion Detection / Recognition
情感識別是一種辨別人類情感的過程,大部分時候是辨別面部表情(當(dāng)然,聲音的聲調(diào)、速度、強(qiáng)度等參數(shù)也能表達(dá)情感)。人類的情感識別能力是自動加工的,而計算機(jī)識別情感的能力也有了一些例子,比如軟銀的情感機(jī)器人Pepper。對于陪伴型機(jī)器人而言,情感的探測識別將是不可或缺的能力之一;除此之外,情感識別也能幫助廣告商和內(nèi)容商更有效率地進(jìn)行傳播,就像Affectiva做的那樣。
肌肉計算機(jī)接口 Muscle-Computer Interface
肌肉計算機(jī)接口是一種無需通過直接操作物理設(shè)備(比如鼠標(biāo)、鍵盤等等)就能獲取人類輸入的信息的技術(shù)。這種交互技術(shù)可以直接感受到人類的肌肉電活動并進(jìn)行解碼,讓人們在忙著其它事務(wù)的時候也能進(jìn)行信息輸入。比如,將信號接收器放在你前臂上的話——這些肌肉控制著你手指的運(yùn)動——它就能準(zhǔn)確地探測到你手指的運(yùn)動,而軟件可以將這些信號轉(zhuǎn)換為手指的姿勢,讓計算機(jī)像理解常規(guī)的鍵盤輸入、鼠標(biāo)輸入、觸屏輸入一樣理解手指的運(yùn)動意味著什么。
量化自我 Quantified Self
量化自我指的是運(yùn)用科技來獲取一個人每日生活的各種數(shù)據(jù),包括輸入(inputs,比如,吃掉的食物、周圍的空氣質(zhì)量),狀態(tài)(states,比如,情緒、喚醒水平、血氧含量),以及表現(xiàn)(包括精神上和身體上的表現(xiàn))。這種通過可穿戴設(shè)備達(dá)到的自我監(jiān)控和自我感知,也被稱為記錄生命日志(lifelogging)。它讓人們能夠通過量化指標(biāo)來了解自身,也讓數(shù)據(jù)收集變得更廉價、更便利。睡眠質(zhì)量監(jiān)控、情緒監(jiān)控、以及體重監(jiān)控都是常見的用途。
用戶體驗(yàn)平臺 UXPs
用戶體驗(yàn)平臺(user experienceplat form)整合一系列技術(shù)來為用戶和一組應(yīng)用程序——或是內(nèi)容、服務(wù)、其它用戶等——提供一種交互。一個用戶體驗(yàn)平臺包括門戶、混搭工具(mashup tools)、內(nèi)容管理、搜索、豐富互聯(lián)網(wǎng)應(yīng)用程序(RIA)工具、數(shù)據(jù)分析、合作、社交等元素。它可以是一套產(chǎn)品,也可以是一個單獨(dú)的產(chǎn)品。用戶體驗(yàn)平臺將會為網(wǎng)站、移動端應(yīng)用程序、以及未來新出現(xiàn)的渠道創(chuàng)造出高效、高忠誠度的用戶體驗(yàn)。
柔性顯示器 Flexible Display
柔性顯示器是一種可彎曲的顯示器,不同與傳統(tǒng)電子設(shè)備上平板式的顯示器。它主要用兩種方式實(shí)現(xiàn):電子紙(electronic paper),或是有機(jī)發(fā)光二極體(OLED)。最近幾年,無數(shù)電子消費(fèi)品制造商都對柔性顯示器流露出濃厚的興趣,嘗試將這種技術(shù)應(yīng)用在電子閱讀器、移動電話、以及其它電子產(chǎn)品上,比如諾基亞和三星都展出過柔性顯示屏的概念手機(jī)。
語音到語音翻譯 Speech-to-Speech Translation
語音到語音翻譯就是用計算機(jī)系統(tǒng)實(shí)現(xiàn)持不同語言的說話人之間的話語翻譯的過程。由于語音識別技術(shù)和口語理解技術(shù)的提高,語音翻譯研究越來越傾向于探索真實(shí)對話場景下自然口語風(fēng)格的話語翻譯技術(shù),因此,語音翻譯一般又稱口語翻譯(Spoken language translation, SLT),或?qū)υ挿g(Spoken dialogue translation)。語音翻譯需要讓電腦克服復(fù)雜多變的口語輸入,復(fù)雜的工作環(huán)境與含有錯誤信息的字符串的輸入,國際上相應(yīng)領(lǐng)域的系統(tǒng)有CMU的JANUS-III,日本ATR的MATRIX,德國Verbnobil系統(tǒng),商業(yè)系統(tǒng)有Transclick、SpeechGear、AppTek、Spoken Translation公司的相應(yīng)產(chǎn)品等。
機(jī)器學(xué)習(xí) Machine Learning
機(jī)器學(xué)習(xí)是計算機(jī)科學(xué)中從人工智能的模式識別和計算學(xué)習(xí)理論(computational learning theory)中演化出的一個子領(lǐng)域,用算法來從數(shù)據(jù)中進(jìn)行學(xué)習(xí)、最終能夠?qū)?shù)據(jù)做預(yù)測。這些算法通過從輸入的樣例數(shù)據(jù)中建立起模型來作出數(shù)據(jù)驅(qū)動的預(yù)測或是決策。微軟劍橋研究院院長Christopher M. Bishop認(rèn)為機(jī)器學(xué)習(xí)和模式識別“是對同一個領(lǐng)域的兩種角度的稱呼”機(jī)器學(xué)習(xí)被應(yīng)用在許多難以設(shè)計和編寫明顯算法(explicit algorithms)的任務(wù)中,包括垃圾郵件過濾、光學(xué)字符識別、搜索引擎、以及計算機(jī)視覺。
可穿戴設(shè)備 Wearables
可穿戴設(shè)備指的是融合了計算機(jī)技術(shù)和高級電子技術(shù)的衣物和飾品。可穿戴設(shè)備主要有兩種應(yīng)用方向:個人應(yīng)用,或者是商務(wù)應(yīng)用。無論是哪一種應(yīng)用方向,在功能上一般屬于健康狀況跟蹤、導(dǎo)航、媒體設(shè)備、交流工具等等中的一種。可穿戴設(shè)備的持有量正在迅速增長:智能腕帶已經(jīng)成為一種相當(dāng)普及的產(chǎn)品,而智能手表市場也已有三星、Apple、華為等公司介入。
眼動控制 Gaze Control
眼動控制指的是一個人通過移動眼睛的注視點(diǎn)來影響電腦的行動。這包括了測量用戶視覺注視點(diǎn)的角度或位置(通常用攝像頭完成),以及從一些可用的、投射到這些位置的功能中進(jìn)行選擇。一些研究表明眼動控制可以應(yīng)用于控制無人機(jī)、繪畫軟件等活動;瑞典的眼動儀器生產(chǎn)商Tobii也推出了可以用眼動控制的windows 8 系統(tǒng)——相比與單純的觸屏控制,觸屏和眼動控制的結(jié)合讓用戶能夠更容易地操控計算機(jī),比如通過眨眼來代替按下鼠標(biāo)鍵。