OpenAI CEO山姆·奧爾特曼認為,2025年人們將會看到第一批AI智能體“加入勞動力大軍”。
當地時間周四,OpenAI發(fā)布了自主智能體Operator。在本月OpenAI推出新功能Tasks,被認為產品方向開始轉向AI智能體后,OpenAI有了更實質性的動作。
據OpenAI介紹,Operator可以代理用戶執(zhí)行基于網頁的操作,例如查看、輸入、點擊、滾用網頁,Operator是OpenAI最早的智能體之一。目前Operator還是研究預覽版本,功能上有局限性,美國的ChatGPT Pro會員可以使用該功能。
在20多分鐘的介紹視頻中,OpenAI演示了Operator如何用于處理各種復雜的網頁任務,如填寫表單、訂購貨物。在演示中,操作人員要求Operator預定某家餐廳傍晚7點的座位,Operator就會自動打開網頁進入預訂網站,搜索餐廳并完成預定。當Operator發(fā)現該時間點餐廳座位已經訂完,就會詢問用戶是否改訂7點45分的餐廳。如果上傳一張寫有雞蛋、菠菜、蘑菇、雞肉等食物的購物清單圖片,Operator則會打開網頁并搜索這些物品、加入購物車。Operator也能幫助用戶訂購外賣。
從視頻中看,Operator的操作頁面與ChatGPT的頁面非常相似,用戶可以在對話框中向Operator提出要求。據OpenAI介紹,支撐Operator的模型則是CUA(計算機代理使用)模型。CUA結合了GPT-4o的視覺能力,且有高級推理能力,CUA可與用戶的圖形界面交互,“看到”屏幕上的按鈕、菜單和文本,也可以執(zhí)行鼠標和鍵盤可執(zhí)行的操作。在CUA的能力支持下,當遇到困難或犯了錯誤時,Operator會利用推理能力進行自我糾正或將控制權交還給用戶。
在安全和隱私方面,Operator執(zhí)行任務時,人可以控制這個過程,而當用戶輸入支付信息等敏感信息時,Operator會要求用戶接管,在這個過程中Operator不會收集用戶輸入的信息。據介紹,Operator也會拒絕一些有害的請求。未來OpenAI計劃開放CUA的使用接口,使開發(fā)人員能用其構建自己的智能體。目前可使用Operator的用戶群體還有限,ChatGPT Pro用戶每月會員費達到200美元,Operator后續(xù)還計劃向ChatGPT Plus、Team、企業(yè)用戶開放使用。
Operator發(fā)布后,OpenAI總裁兼聯合創(chuàng)始人Greg Brockman(格雷格·布羅克曼)在社交媒體上表示,2025年是智能體之年。此前,OpenAI也已多次釋放發(fā)力智能體的信號。
在被問及接下來的模型更新情況時,OpenAI CEO山姆·奧爾特曼(Sam Altman)去年曾提到,接下來會有更好的模型,但他相信下一個重大突破將是智能體。本月初,山姆·奧爾特曼在一篇博客長文中表示,相信2025年人們將會看到第一批AI智能體“加入勞動力大軍”,從根本上改變各公司產出的東西。當地時間1月14日,OpenAI還推出了名為Tasks的測試版新功能,用戶可用其創(chuàng)建和管理未來任務提醒,該功能也具備一定的智能體屬性。
有研發(fā)人員告訴記者,智能體的關鍵在于AI模型具備更強的主動性。在國內,較早布局智能體企業(yè)是智譜AI。去年11月,智譜AI發(fā)布了PC端智能體GLM-PC并開始邀請測試,該智能體的功能也包括點外賣、發(fā)微信。該智能體近日發(fā)布了更新,推出“深度思考”模式并增加了專用來做邏輯推理和代碼生成的功能。
智譜華章總裁王紹蘭去年12月表示,2025年AI領域有兩個重要發(fā)展方向,其中一個就是智能體技術,也就是大模型使用工具,“現在手機APP還需要按照人的方式在操作,可以想象大模型能熟練使用工具對行業(yè)意味著什么?!?/p>