王耀南 高躍
編者的話
科技興則民族興,科技強則國家強。習近平總書記指出:“必須充分認識科技的戰略先導地位和根本支撐作用,錨定2035年建成科技強國的戰略目標,加強頂層設計和統籌謀劃,加快實現高水平科技自立自強。”
當前,新一輪科技革命和產業變革深入發展,以人工智能、量子科技、生命科學、物質科學、空間科學、綠色低碳技術等為代表的前沿研究,不斷取得新進展、新突破。
即日起,每周六見報的“科技·新知”版就和讀者見面了。這塊版聚焦國內外前沿科技,以有趣視角解讀科學新知,讓我們一同在日新月異的科技里邂逅新知、遇見未來。
近年來,人工智能發展迅猛,大模型、強化學習、超圖計算和情感計算等新技術不斷取得突破,引領了從工具化到智能化再到情智化的躍遷。這一趨勢不僅驅動著產業升級,更催生了新一代具有情智兼備特征的智能體。
黨的二十大報告提出,“以國家戰略需求為導向,集聚力量進行原創性引領性科技攻關,堅決打贏關鍵核心技術攻堅戰。”具有情智兼備特征的智能體,即能夠感知環境,進行學習和推理,并能通情達理地采取行動、實現特定目標的自主系統。情智兼備的數字人和機器人作為人工智能的重要發展方向,正逐步成為科技創新的前沿。它們不僅代表了人工智能向更加人性化、智能化的方向發展,也為智能體與人類的深度互動提供了新機遇。基于此,中國圖象圖形學學會推薦的“情智兼備數字人與機器人的研究”問題入選中國科學技術協會2024十大前沿科學問題。
情智兼備:認知與情感的完美融合
情智兼備融合了認知智能和情感智能,代表了全新的智能演進方向。這樣的智能體不再是冰冷的計算機程序,而是具有情感、理解和關懷的存在,能夠與人類建立更加親密和深入的聯系。認知智能讓機器人具備如人一般思考和解決問題的本領,而情感智能則賦予了機器人進行情緒識別、情感表達和情感共鳴的能力。例如,在心理健康輔導中,情智兼備的智能體可以通過語音語調分析和表情識別來感知用戶的情緒波動和心理狀態。
從數字人與機器人的科研進展來看,國際上的頭部科技企業和知名高校在多模態情感識別、情感生成與交互、情感計算專用芯片與硬件方面已經有了一定的突破。例如,谷歌和微軟研究團隊開發了多模態情感識別系統,表現出色;麻省理工學院和斯坦福大學正在積極開展跨學科合作,結合心理學、神經科學和計算機科學,深入研究情感計算的理論和應用;谷歌的Gemini模型等已經在情感生成方面取得了顯著進展。
國內在情感計算算法方面也取得了顯著進展,特別是在多媒體信息處理、語音和文字情感識別等領域。許多研究機構和高校,如清華大學、哈爾濱工業大學及廈門大學等,正在構建大規模的情感數據集,支持情感計算模型的訓練和優化,研發面向多類開放場景的情感計算方法及工具。國內的科技公司,如科大訊飛和小米,相繼推出了具有情感交互功能的智能客服機器人;百度和阿里巴巴等公司開發了多模態情感識別系統,在實際應用中提供高效的情感識別和生成服務。此外,還有一些初創公司和研究團隊也正在探索情智兼備技術在教育和醫療領域的應用,開發出情感教育助手和陪伴機器人,提升用戶的滿意度和服務質量。
三大挑戰:情緒感知、個性化分析與仿生化交互
盡管我國在情感智能領域取得了眾多進展,但在實現“情智兼備數字人與機器人”的過程中,仍有三大難題亟待解決。
一是多模態情緒感知能力。人類情感的感知是通過多個感官的交織與互動實現的,然而目前的數字人或機器人往往只能依賴單一感官(如語音或面部表情)進行情感識別,在多模態數據的高效融合、多源異構數據一致性和時間同步方面還存在挑戰。如何實現跨模態情感表達的整合,如何在有限的資源下平衡模型復雜度和準確性仍是一個難點。
二是個性化情智分析能力。人的情感表達具有個體差異,同樣的表情或語句在不同個體、不同語境下的解讀可能存在本質區別。因此,人工智能需要具備個性化情智分析能力,能夠根據個體差異進行精準識別,避免情感誤讀。隨著大模型、強化學習和超圖計算等新技術的涌現與進步,人工智能顯著提升了復雜數據分析能力,能夠提供更加個性化的情感溝通功能。
三是仿生化情感交互能力。要讓數字人、機器人像人類一樣與他人進行情感互動,人工智能不僅需要識別情感,還要以自然、流暢的方式表達情感。目前,盡管語音識別和生成技術已有突破,但機器人與人類的情感交流仍顯生硬,缺乏深度情感的表達。為突破這一瓶頸,人工智能需要在情感數據處理的基礎上,結合肢體動作、面部表情等多維度的表達,形成更加自然的情感交互。
突破之路:多技術協同發展是關鍵
在通往情智兼備的數字人和機器人研究中,多學科的融合研究和跨領域的技術研發起著至關重要的作用。情智兼備不僅要求機器人具備情感感知能力,還需通過多種技術手段實現情感的生成與表達,形成情感識別與反饋的閉環。要實現這一目標,多個技術領域必須協同發展,其中情感生成與表達、情感識別與反饋、多模態情感感知技術是關鍵。
情感生成與表達,讓智能體更具人情味。情感生成與表達是指數字人和機器人通過特定方式表現出情感反應的能力。這一過程不僅僅是模擬人類的語音語調,還包括通過面部表情、肢體動作等多種方式進行情感的外化。在這方面,情感合成技術尤為重要。通過調節語調、語速、音量等參數,語音合成器能夠生成帶有情感色彩的聲音。例如,當機器人要表達高興的情緒時,其語調和語速會明顯提高,而在表達悲傷時,語調和語速則會相應降低。這種情感化的語音生成技術,使機器人能夠在與人類的互動中表現出更加自然和富有情感的反應。
情感識別與反饋,能精準捕捉并回應人類情感。情感識別技術使得機器人能夠準確地捕捉人類的情感信號,并基于這些信號做出合適的情感反饋。自然語言處理技術的應用,讓數字人、機器人能夠理解和生成自然語言,從對話內容的分析中找出情感的線索。通過對用戶的語言結構、語氣以及關鍵詞的分析,機器人不僅能夠判斷出用戶的情緒,還能夠適時地提供情感支持。例如,當用戶遇到問題時,機器人能夠通過語言和語氣的變化,表達出關切與安慰。
多模態情感感知,讓情感識別更加全面準確。通過結合語音、圖像等多種感知數據,人工智能可以獲得更加精準的情感信息。例如,通過同步分析用戶的語音語調與面部表情,機器人能夠從多個維度捕捉到情感的細節。這樣的信息融合極大地提高了情感識別的準確性和可靠性,為情感反饋提供了更為全面的數據支持。結合多模態感知數據,構建更為復雜的情感模型是當前的研究重點。例如,當用戶的面部表情和語音語調一致時,系統可以識別出用戶的愉悅情緒;而當面部表情和語音語調呈現憤怒時,系統能夠迅速判斷用戶的情緒變化并應對。
應用前景:醫療護理、教育與企業服務
情感智能技術的廣泛應用前景令人期待,特別是在醫療護理、教育和企業服務等領域,已展現出巨大的潛力。
在醫療護理領域,情智兼備的機器人在照護老年人、孤獨癥患者等方面具有極大的優勢。通過面部表情識別與語音分析技術,機器人有望實時感知患者的情感變化,為其提供情感支持,幫助緩解孤獨感和焦慮感。在孤獨癥患者的干預中,情智兼備的機器人可以通過互動游戲等方式幫助患者提高社交能力,促進情感認知。一個典型案例是日本軟銀公司的Pepper機器人在養老院中的應用。Pepper不僅能夠進行基礎的護理工作,還可以與老人進行情感互動,通過講故事、聊天和做游戲等方式,提高老人的情感體驗,實現更人性化的養老陪伴。
在教育領域,虛擬教師通過情感智能技術,能夠識別學生的情感狀態,動態調整教學內容和方式。例如,當學生表現出困惑或疲倦時,虛擬教師可以通過增加互動環節或安排休息時間來激發學生的學習興趣。通過情感分析,虛擬教師可以保持學生的高參與度。美國的一些學校已經開始使用情感智能虛擬教師進行在線教學。這些虛擬教師能夠通過面部表情和語音分析,實時了解學生的情緒狀態,調整教學策略,提高學習效率。
在企業服務領域,情感智能技術的應用能夠顯著提升客戶體驗和滿意度。通過分析客戶的情感狀態,企業能夠精準調整服務策略。例如,在客戶咨詢中,機器人可以根據客戶的情感反饋,來調整語氣和服務態度。
未來,隨著技術的不斷發展與突破,情智兼備的數字人和機器人將不再是科幻小說中的存在,而將成為現實生活中的重要伙伴。隨著跨學科合作的深入,情智兼備機器人將進一步縮短智能體與人之間的情感距離,推動社會各領域的智能化進程,為人類生活帶來更溫暖、更智能的服務。
(作者分別為中國工程院院士、中國圖象圖形學學會理事長,中國圖象圖形學學會情感計算與理解專業委員會常委、清華大學長聘副教授。趙思成對本文亦有貢獻)