OpenAI CEO山姆·奧爾特曼認(rèn)為,2025年人們將會(huì)看到第一批AI智能體“加入勞動(dòng)力大軍”。
當(dāng)?shù)貢r(shí)間周四,OpenAI發(fā)布了自主智能體Operator。在本月OpenAI推出新功能Tasks,被認(rèn)為產(chǎn)品方向開(kāi)始轉(zhuǎn)向AI智能體后,OpenAI有了更實(shí)質(zhì)性的動(dòng)作。
據(jù)OpenAI介紹,Operator可以代理用戶執(zhí)行基于網(wǎng)頁(yè)的操作,例如查看、輸入、點(diǎn)擊、滾用網(wǎng)頁(yè),Operator是OpenAI最早的智能體之一。目前Operator還是研究預(yù)覽版本,功能上有局限性,美國(guó)的ChatGPT Pro會(huì)員可以使用該功能。
在20多分鐘的介紹視頻中,OpenAI演示了Operator如何用于處理各種復(fù)雜的網(wǎng)頁(yè)任務(wù),如填寫表單、訂購(gòu)貨物。在演示中,操作人員要求Operator預(yù)定某家餐廳傍晚7點(diǎn)的座位,Operator就會(huì)自動(dòng)打開(kāi)網(wǎng)頁(yè)進(jìn)入預(yù)訂網(wǎng)站,搜索餐廳并完成預(yù)定。當(dāng)Operator發(fā)現(xiàn)該時(shí)間點(diǎn)餐廳座位已經(jīng)訂完,就會(huì)詢問(wèn)用戶是否改訂7點(diǎn)45分的餐廳。如果上傳一張寫有雞蛋、菠菜、蘑菇、雞肉等食物的購(gòu)物清單圖片,Operator則會(huì)打開(kāi)網(wǎng)頁(yè)并搜索這些物品、加入購(gòu)物車。Operator也能幫助用戶訂購(gòu)?fù)赓u。
從視頻中看,Operator的操作頁(yè)面與ChatGPT的頁(yè)面非常相似,用戶可以在對(duì)話框中向Operator提出要求。據(jù)OpenAI介紹,支撐Operator的模型則是CUA(計(jì)算機(jī)代理使用)模型。CUA結(jié)合了GPT-4o的視覺(jué)能力,且有高級(jí)推理能力,CUA可與用戶的圖形界面交互,“看到”屏幕上的按鈕、菜單和文本,也可以執(zhí)行鼠標(biāo)和鍵盤可執(zhí)行的操作。在CUA的能力支持下,當(dāng)遇到困難或犯了錯(cuò)誤時(shí),Operator會(huì)利用推理能力進(jìn)行自我糾正或?qū)⒖刂茩?quán)交還給用戶。
在安全和隱私方面,Operator執(zhí)行任務(wù)時(shí),人可以控制這個(gè)過(guò)程,而當(dāng)用戶輸入支付信息等敏感信息時(shí),Operator會(huì)要求用戶接管,在這個(gè)過(guò)程中Operator不會(huì)收集用戶輸入的信息。據(jù)介紹,Operator也會(huì)拒絕一些有害的請(qǐng)求。未來(lái)OpenAI計(jì)劃開(kāi)放CUA的使用接口,使開(kāi)發(fā)人員能用其構(gòu)建自己的智能體。目前可使用Operator的用戶群體還有限,ChatGPT Pro用戶每月會(huì)員費(fèi)達(dá)到200美元,Operator后續(xù)還計(jì)劃向ChatGPT Plus、Team、企業(yè)用戶開(kāi)放使用。
Operator發(fā)布后,OpenAI總裁兼聯(lián)合創(chuàng)始人Greg Brockman(格雷格·布羅克曼)在社交媒體上表示,2025年是智能體之年。此前,OpenAI也已多次釋放發(fā)力智能體的信號(hào)。
在被問(wèn)及接下來(lái)的模型更新情況時(shí),OpenAI CEO山姆·奧爾特曼(Sam Altman)去年曾提到,接下來(lái)會(huì)有更好的模型,但他相信下一個(gè)重大突破將是智能體。本月初,山姆·奧爾特曼在一篇博客長(zhǎng)文中表示,相信2025年人們將會(huì)看到第一批AI智能體“加入勞動(dòng)力大軍”,從根本上改變各公司產(chǎn)出的東西。當(dāng)?shù)貢r(shí)間1月14日,OpenAI還推出了名為Tasks的測(cè)試版新功能,用戶可用其創(chuàng)建和管理未來(lái)任務(wù)提醒,該功能也具備一定的智能體屬性。
有研發(fā)人員告訴記者,智能體的關(guān)鍵在于AI模型具備更強(qiáng)的主動(dòng)性。在國(guó)內(nèi),較早布局智能體企業(yè)是智譜AI。去年11月,智譜AI發(fā)布了PC端智能體GLM-PC并開(kāi)始邀請(qǐng)測(cè)試,該智能體的功能也包括點(diǎn)外賣、發(fā)微信。該智能體近日發(fā)布了更新,推出“深度思考”模式并增加了專用來(lái)做邏輯推理和代碼生成的功能。
智譜華章總裁王紹蘭去年12月表示,2025年AI領(lǐng)域有兩個(gè)重要發(fā)展方向,其中一個(gè)就是智能體技術(shù),也就是大模型使用工具,“現(xiàn)在手機(jī)APP還需要按照人的方式在操作,可以想象大模型能熟練使用工具對(duì)行業(yè)意味著什么?!?/p>