首個獲得駕照的AI!Agent擔任私人助理樣樣精通,還能幫助考試作弊
新智元報道編輯:alan【新智元導讀】最近,Jim Fan轉發了斯坦福博士生開發的一款AI Agent,它在美國加州的駕照考試現場獨立通過了考試。AI一小步,人類一大步,我們一起來看一下吧。關于當前基于Transformer的LLM能走多遠的問題,人們仍在爭論不休。與此同時,另一邊,能夠幫助人們處理各項工作的AI Agent已經悄然走入人們的生活。以前的ChatGPT等大模型,熱衷于在人類考試中刷分以凸顯自己的實力,而不久前,又有一位AI Agent通過了美國加州的駕照考試。——但與之前不同的是,這次的AI Agent是在監考員的眼皮底下幫助人類成功作弊,通過考試!對此,AI Agent的作者表示,「很高興與大家分享一項不朽的成就,我們的 Web AI 代理剛剛通過在線加州駕駛考試創造了歷史,成為第一個在加州獲得駕駛執照的虛擬 AI!」「這標志著一個開創性的時刻:人工智能首次完全自主地完成現實世界的人類知識任務,這是人工智能的一小步,也是人類的一大步。」雖然多少有點夸張,但不得不說,還是挺神奇的。從圖中我們可以看到,AI Agent完全靠自己審題、作答、并點擊下一道題。對于這樣成功的表現,Jim Fan也是表達了祝賀:從去年開始,一些加州居民可以在網上參加駕駛考試的筆試部分,免去了他們需要花時間去考試機構所在地的麻煩。為了防止作弊,官方采取了一些相應的措施,要求考生必須允許機動車輛管理局(DMV)訪問電腦的攝像頭,以記錄考試過程;并在考試期間共享屏幕。——這樣參加考試的人就無法在考試中途打小抄了。然而,還是有人在監考員的眼皮底下作弊成功,而助手正是我們前面介紹的AI Agent(到底誰是助手也不好說)。這個AI Agent來自一家名為 MultiOn 的初創公司,由 Div Garg 創立。Div Garg是斯坦福大學的博士輟學生,他最初創辦 MultiOn 是為了實現日常任務的自動化,比如從亞馬遜訂購廁紙或安排日歷約會。MultiOn 的產品可以控制用戶的瀏覽器,完成諸如在 Uber Eats 上訂餐或進行 Resy 預訂等任務。——需要注意的是,這并不是我們平時會見到的瀏覽器腳本,Agent背后依托的是AI的能力。這項服務目前是免費的,AI Agent位于瀏覽器的右下角,你可以在這里輸入命令,這與微軟的必應 ChatGPT 助手完全不同。這個AI Agent可以作為用戶的私人助理,它提供的大部分功能都很有用,即使不能完全改變生活。上個月在舊金山的一家咖啡館演示 MultiOn 時,Garg 用它向 Facebook 上的熟人群發了「生日快樂」信息。隨后又利用 MultiOn 安排了與記者的下一次會面,目的正是向大眾演示如何利用AI Agent通過車管局的正式駕駛考試。雖然看上去只不過是AI答對了一些問題,但實際上要達成這個目的并不簡單。一般來說,AI需要一段長長的提示,才能選擇正確答案,然后點擊進入下一個問題,而且AI不能有多余的動作,以免被發現作弊。平心而論,目前的這個AI Agent仍然需要人的手指隨時待命,以防出錯。根據設置,MultiOn 在出錯時會停止運行,這時就需要人類測試者自己按下「繼續」按鈕。另外,它也無法解析圖像,所以如果遇到了要求識別交通標志的問題,都會回答錯誤。當前的AI雖然擁有完善的知識,但通常需要嚴格的提示才能進行下一步。所以,對于這場考試來說,答對有關正確駕駛規范的難題是一方面,點擊按鈕進入下一個問題更體現出它的能力。Garg認為這依靠了很多運氣。這是 MultiOn 第一次參加正式的州立考,最終,MultiOn 在 46 道題中只錯了五六道,正式達到了通過標準。當然,根據加州法律,以這種方式使用該技術可能構成偽證罪。因為在考試之前會要求考生聲明自己將親自作答。加利福尼亞州車管局曾在一份聲明中寫道:「作為一項防欺詐措施,在線考試參與者必須驗證自己的身份,并同意在整個考試過程中接受監控。隨著技術的發展,DMV 將繼續更新保障措施」。人工智能助手的未來MultiOn在通過DMV考試之前,就已經引起了OpenAI及其首席執行官Sam Altman的注意,Garg 表示正在與OpenAI密切合作。但就目前而言,MultiOn對部署采取了謹慎的態度,這次成功的測試與其說是一項關鍵功能,不如說是一個概念驗證。Garg希望確保對自己產品的控制,從而避免出現惡意使用的情況。他希望人們不要在各種考試中作弊,因此他計劃對普通用戶禁用任何類似的「灰色地帶」功能。與主要存在于 ChatGPT 沙盒中的 OpenAI GPT 助手不同,MultiOn 助手是作為谷歌 Chrome 瀏覽器的擴展程序自主運行的。用戶必須授予它有效控制電腦的權限。「我們的技術直接在用戶的電腦上運行,它實際上是在控制,在做事,很多事情都可能出錯」。目前,大約有 3 萬人注冊試用了該應用的測試版。Garg預計 MultiOn 還會有更多新功能,比如加強版移動語音助手和內置 MultiOn 技術的瀏覽器。——不過,利用它在 SAT 或 ACT 等考試中作弊的可能性也不大,因為這兩個考試機構都要求學生到考試中心參加考試。MultiOn的官網上還向我們展示了產品的一些基本而有趣的用途,比如查詢天氣:更實用一點的是下面這個例子,用戶可以直接告訴Agent幫忙訂一個漢堡,后面的所有事情都完全不用操心了。包括選擇店鋪、選擇商品、下訂單和支付等等,Agent一條龍服務,統統幫你搞定——確實稱得上是私人助理了。除了這個演示,官網還列出了其他的一些功能:比如線上購物、文章摘要、查找并播放音樂和視頻、在線互動等。有網友使用MultiOn在亞馬遜買了一本書,并表示「太瘋狂了」。而另一位網友使用MultiOn自動搜索并播放想要的視頻,還自動進行了評論:有了這次成功的駕照考試經歷,Garg也是野心勃勃地表示,「明年我們的AI Agent就可以駕駛你的特斯拉了」!不知道大家對于未來的AI Agent又抱有怎樣的幻想呢?參考資料:https://twitter.com/DivGarg9/status/1728854189873549809https://sfstandard.com/2023/11/14/multion-ai-assistant-california-driving-test/