今天發(fā)布的 Operator 無疑是 AI 圈最大的亮點,本文為大家?guī)砹岁P于 Operator 的全面評測。這款 AI 智能體能夠自動處理一系列任務,像是演唱會購票、家政服務預訂、AI 新聞查找等。
演唱會搶票終于不用自己蹲守了,公司訂餐也可以直接「無腦托管」,這就是 OpenAI 今天發(fā)布的 Operator。
顧名思義,Operator 就是能幫你端到端處理任務的 AI 智能體。
比較有趣的是,OpenAI 針對 Operator 新開了一個網(wǎng)頁 operator.chatgpt.com,而不是像之前發(fā)布的功能都直接統(tǒng)一內(nèi)置在 ChatGPT 中。

Operator 的頁面與 ChatGPT 大致相似,只是輸入框的提示詞從「我能幫您什么嗎?」變?yōu)榱恕肝夷軒湍鍪裁磫幔俊?span style="display:none">2IO28資訊網(wǎng)——每日最新資訊28at.com
顯然 Operator 多了個「做」字,而就是這一字之差,便已揭示了兩者的本質(zhì)性區(qū)別。
Operator 深度測評這里展示了一些 Operator 在 OpenAI 的合作伙伴網(wǎng)站上能為您執(zhí)行的推薦任務。比如,不用半小時就能用雞肉做好的晚餐食譜。

當前,Operator 的功能還比較有限,但我們相信它會快速優(yōu)化。不妨想想,你每天在電腦上做的那些重復任務,說不定一年之后,大部分都不用你親自動手了。
先來看看 Operator 能做哪些事情,并且到底做得怎么樣吧!
購票提示:幫我找兩張 Jamie XX 在洛杉磯舉行的下一場演出的門票。
結果:
- 調(diào)用指定合作伙伴 Stubhub,成功獲取相關門票。

- 未選定合作伙伴時,因無法瀏覽被阻止的網(wǎng)站,未成功。
提示:找出 Jamie xx 的演出安排以及每場演出的門票價格。
結果:
- 調(diào)用指定合作伙伴 Stubhub,失敗。過程中出現(xiàn)虛假信息,在多次提示后,最終取得成功。
AI 新聞提示:AI 領域的最新消息是什么?
結果:
- 調(diào)用指定合作伙伴 Axios,表現(xiàn)尚可,返回了一篇簡短的新聞摘要。

提示:現(xiàn)在從這里到機場的 UberX 多少錢?
結果:
-使用指定合作伙伴 Uber,操作成功。
- Operator 提出合理的問題,詢問「請?zhí)峁┙涌偷攸c,以便我為您查找從接客地點到機場的 UberX 費用。」以及「請指定您的目的地機場。」
-登錄后,Operator 給出答案:「從南加州大學到洛杉磯國際機場的 UberX 當前票價為 43.47 美元。您是否希望預訂此行程?」

提示:我需要一名家政清潔員明天來我家做一次性清潔。
結果:
- 調(diào)用指定合作伙伴 Thumbtack,失敗。
- 未詢問我的具體位置,就推薦了一名位于弗吉尼亞的清潔員,可能是因為瀏覽器所在的數(shù)據(jù)中心位于該地。
Spotify Wrapped提示:我想了解 Spotify Wrapped 成功的原因。(Spotify Wrapped 是音樂流媒體平臺 Spotify 推出的年度回顧功能。)
結果:
- 采用簡單提示時,失敗。系統(tǒng)卡在循環(huán)中,表現(xiàn)不佳,且研究資料有限。
- 采用復雜提示時,結果尚可。需要多次提示,報告質(zhì)量不高。在提供了如何進行高級搜索的提示后完成了任務。期間 3 次請求獲取 2024 年的信息均被拒絕。
看完上述演示,也自然引發(fā)了一個問題:
「我們能夠隨時介入 Operator 的操作并做出符合自己偏好的更改嗎?」
答案是:完全可以!
事實上,在任何時候,你都可以控制其遠程瀏覽器并引導操作,比如輸入用戶名和密碼。并且如果你給出自己要求后,它還會保存重要的賬戶信息,這樣,只要你登錄一次,它就能在你的賬戶內(nèi)自行操作,而無需再次打擾你。
最后,Operator 將在結賬頁面停止繼續(xù)操作,返回支付請求后,再獲取您的付款詳情:

目前 Operator 支持自動完成通常需要 15-20 分鐘內(nèi)的網(wǎng)絡任務。
值得一提的是,Operator 還擁有能夠極大提高用戶體驗的「保存和共享功能」。也就是說,一旦完成任務,Operator 就可以輕松保存工作流程。比如持續(xù)用最新的銷售數(shù)據(jù)來更新相應的報表。它甚至提供了一個流暢的會話記錄視頻,支持用戶觀看并與其他人分享。
換句話說,Operator 就像是一個可以不斷和你磨合,且可以持續(xù)進步,還能 24 小時不停按照既定流程為你工作的私人管家一樣。
但是,由于 Operator 才剛剛發(fā)布,所以還是有一定的缺陷。
Operator 的缺陷正如道德經(jīng)所說,「有無相生,難易相成」。Operator 自身的缺陷亦是源于它的優(yōu)勢本身。
它的獨特之處在于不用使用用戶本地的瀏覽器執(zhí)行操作,而是 OpenAI 數(shù)據(jù)中心之一的一個瀏覽器,用戶可以遠程觀看并與之互動。這種設計的優(yōu)點是你可以在任何地方、任何時候使用它 —— 例如,在任意移動設備上。
但缺點是許多像 Reddit 這樣的網(wǎng)站已經(jīng)阻止 AI 智能體瀏覽,因此它們無法被 Operator 訪問。并且 Operator 也因性能或法律原因被 OpenAI 阻止訪問某些資源密集型網(wǎng)站,如 Figma 或 YouTube。
簡單來講,目前的 Operator 就像是被隔離在玻璃門外的人一樣,對于許多東西都是「看得見卻摸不著」。


目前的 Operator 實際上更像是一個能夠完成你給外包出去業(yè)務的乙方,而不是一個足夠聰明的個人研究助理。
例如,可以讓 Operator 閱讀《戰(zhàn)爭與和平》的第一章,并總結每個角色的所有細節(jié)以及他們所展現(xiàn)的人類心理和行為。然后,Operator 在 Project Gutenberg 網(wǎng)站上找到了《戰(zhàn)爭與和平》并閱讀了第一章,做得非常出色。

但是其摘要卻枯燥乏味且粗糙寬泛:

在上述摘要中,它做出了正確的觀察:「角色意識到他們的社會地位,有些人,比如安娜?帕夫洛夫娜,小心翼翼地互動以保持禮儀」。但是這個摘要也有一種 SparkNotes 的味道,也就是不夠詳細,還無法真正理解故事情節(jié)。
如果提供相同的信息,OpenAI 的 o1 在這項任務上會做得更好 —— 但是 o1 還沒有自主執(zhí)行任務的能力。也就是說,OpenAI 專注于讓 Operator 非常適合自動執(zhí)行重復性工作流程,而不太關注其智能水平。
它確實自主,但提示很重要關于 Operator,最令人印象深刻的一點是,它只需極少的提示就能獨自完成冗長的任務。例如,我們讓它執(zhí)行一項耗時 20 多分鐘的任務:我們請它幫我們了解 Spotify 年度總結(Spotify Wrapped)功能這些年是如何演變的。
「它最初是什么樣的?」
「現(xiàn)在又新增了哪些內(nèi)容?」
它時不時需要一些提示才能繼續(xù)推進任務,但最終也成功實現(xiàn)了任務目標。
不可置否的是,與 12 個月甚至 6 個月前的智能體相比,這是一個重大進步,畢竟那時的智能體往往在短短幾秒鐘后就會偏離正軌。
話雖如此,用戶對 Operator 的提示方式仍然很關鍵。如果你向它提供更多關于如何完成任務的細節(jié),它成功完成你交給它的任務的幾率就會更高。
例如,在我們關于 Spotify 年度總結的例子中,我們要求它收集并總結不同年份的搜索結果數(shù)據(jù)。它一開始失敗了,因為它不知道如何按年份篩選搜索數(shù)據(jù)。但當我們告訴它使用谷歌的高級搜索工具(該工具提供逐年篩選搜索功能)時,它就成功完成了任務。
OpenAI:一切以消費者為中心當前,Operator 僅是一個研究預覽,而非成熟產(chǎn)品。但這個預覽版意義重大,要知道就連 ChatGPT 最初也是以研究預覽的形式問世的。
OpenAI 正重拾曾經(jīng)大獲成功的策略:即使產(chǎn)品還有很多不完善的地方,也要盡早發(fā)布,并持續(xù)頻繁迭代。
因此 OpenAI 不僅推出 API,還發(fā)布了面向消費者的產(chǎn)品。
這一舉措與競爭對手 Anthropic 的做法有所不同。Anthropic 雖然也有一款自主智能體 Claude Computer use,但其僅以 API 的形式發(fā)布,因此應用范圍相當有限。
OpenAI 從 ChatGPT 中學到一點,AI 的發(fā)布形式對其推廣的影響,絲毫不亞于底層技術。
因此,他們將首款自主智能體產(chǎn)品,以面向消費者的方式發(fā)布,即使這個產(chǎn)品還存在不少缺陷。
總的來說,盡管 Operator 目前功能有限,但可以預計它會迅速改進。對于廣大用戶來講,現(xiàn)在是時候梳理一下你每天在電腦上做的重復性任務了,也許一年后你就無需再做其中的大部分工作。
參考資料:
https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
本文來自微信公眾號:新智元(ID:AI_era)
本文鏈接:http://www.rrqrq.com/showinfo-45-10175-0.htmlOpenAI 首個智能體 Operator 測評,你也能擁有 24 小時私人管家
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:[email protected]
下一篇: “人類終極考試”基準測試發(fā)布:頂級 AI 系統(tǒng)表現(xiàn)慘淡,回答準確率均未超 10%