AI程序員Devin臥底人類群聊修bug!和CTO聊技術,"頂級碼農水平"
夢晨 西風 發自 凹非寺量子位 | 公眾號 QbitAI首個AI程序員Devin,現身明星創業公司內部群。為解決一個技術問題,Devin借用了其創造者的賬號,與客戶公司的CTO交流,并根據回復調整了代碼方案。對話之專業,圍觀者看了直呼這個世界太瘋狂。事情發生在辦公軟件Slack,截圖中的akshat是AI基礎設施創業公司Modal Labs的CTO Akshat Bubna。Modal Labs也是Devin開發商Cognition的首批客戶之一。此時Devin正披著他的創造者之一、IOI金牌得主Steven Hao的馬甲。對話的開始,AI程序員Devin正在詢問有關Modal Lab平臺的密鑰的生命周期問題,特別是密鑰更新后傳播到正在運行的應用程序所需的時間。Devin表示自己已經查閱了文檔,包括密鑰和環境變量指南、CLI命令參考、API參考以及容器生命周期鉤子和參數,但依舊沒有找到關于密鑰傳播時間的明確信息。Devin詢問了更新的密鑰通常需要多長時間才能被運行中的應用程序使用,因為這對于他們的運營至關重要,了解這一點將有助于管理他們的部署流程。人類CTO解釋說,當密鑰更新時,他們不會使已經運行的Modal容器失效,但是新啟動的容器將會讀取更新后的值。Devin對此表示感謝,并決定暫時采用手動方法來管理Modal中的密鑰,即在需要時調用modal deploy命令來觸發相關應用程序容器的重啟??赐暾麄€過程后,同樣是AI創業者的Raunak Chowdhuri評價到:發現問題、創建工單、調整代碼,最好的人類開發者就是這么工作的。Devin更多實測結果拿到Devin早期測試資格的人和公司并不多,不過還是陸陸續續有人曬出實測結果。熱衷AI的沃頓商學院教授Ethan Molick試過后,認為其新穎的實時交互方式是最值得關注的。您可以隨時與它“交談”,就像與人交談一樣,它會在后臺不斷地執行和調試您的想法。在測試中,Ethan Mollick要求Devin開發一個解釋“創業公司融資中的股權稀釋”的網站。不過他透露,AI還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。要想把一個重大項目交給人工智能來完成,還有很長的路要走,但這仍然是一個令人著迷的開始。另一位曬出測試過程的創業者Mckay Wrigley更激動一些。在他曬出的27分鐘測試中,只發了一個GitHub連接,讓Devin部署來自開源項目的代碼。Devin自主把任務拆解成一系列子步驟,并一步步開始執行。執行過程中,Devin在安裝Supabase數據庫時遇到了障礙,自己打開了對應的Github倉庫開始查閱文檔……從后續終端反饋中可以看出,Devin查到了運行Supabase所需的各種端口和密匙都應該填什么。(裝過的都知道,雀食挺麻煩……)與此同時,Devin還在根據實際情況不斷修改自己的后續計劃。一段時間過后,一個本地的聊天機器人程序就跑起來了。測試一段時間后Mckay Wrigley認為,Devin已經可以算Agent的ChatGPT時刻。復現Devin計劃ingDevin這邊大伙還在接連測試,另一邊開源“復現”方案也在進行中……這不,GitHub三萬Star項目MetaGPT就上新了“開源版Devin”。名為數據解釋器(Data Interpreter):同Devin一樣,Data Interpreter也能實現自主編程,能迭代式觀察數據,預測分析病情進展、機器運行狀態;還能構建機器學習模型、進行數學推理、自動回復電子郵件、仿寫網站……比如從英偉達股價數據中分析收盤價格趨勢:分析數據預測葡萄酒質量:除此以外,阿里Qwen成員Binyan Hui等人開啟了OpenDevin項目,剛剛起步已獲得1.2k Star。Binyan Hui發推文表示,已有一個初步的路線圖和一群優秀的人在努力工作,在很短的時間內就完成了前端原型。同時項目團隊也在招新成員:另外,還一個名為Maisa AI的團隊推出了Maisa KPU(Knowledge Processing Unit),被網友認為與Devin有一些競爭。目前Maisa KPU處于測試階段,它可以解決復雜問題和推理,團隊發布的基準測試結果如下:根據demo展示,KPU可以成為“智能客服”,在客戶沒有正確寫好訂單號的情況下,幫助客戶解決訂單未送達的問題:Devin基準測試技術報告發布最近,Devin創始團隊Cognition還發布關于SWE-bench測試的技術報告。除了之前已公布的測試結果之外,團隊還透露了一些新消息。比如,Cognition的目標之一是讓Devin這個專門從事軟件開發的AI智能體能夠成功地為大型、復雜的代碼庫貢獻代碼。選擇在SWE-bench上端到端運行智能體,也是考慮了它更接近現實世界的軟件開發。此外,研發團隊還透露,為了防止Devin在測試中作弊,比如查找外部的pull requests信息,測試已做相關設置,確保Devin無法訪問相關信息,并且在此過程中也已人工手動檢查了Devin運行情況。最后團隊強調Devin仍處于起步階段,還有很大改進空間:更多細節感興趣的家人們可查看報告詳情。Devin發布不到一周,網友們的討論已十分熱烈。比如,這位大兄弟表示自己一年前擔心的事兒終究還是發生了。以后Stack Overflow上都是各種Devin在提問,人,就只能被擠出去(Stack Overflow危?。。。河芯W友回應(手動狗頭):它們可以互相回答問題。還有網友發現Devin背后團隊Cognition正在招全職軟件工程師,于是緩緩打出一個問號:Devin不是應該填補這些職位空缺來為他們省錢嗎?最后,若Devin公開你會想用它干點啥?參考鏈接:[1]https://www.cognition-labs.com/post/swe-bench-technical-report[2]https://x.com/raunakdoesdev/status/1769066769786757375[3]https://twitter.com/emollick/status/1768742585122558063[4]https://x.com/mckaywrigley/status/1767985840448516343[5]https://x.com/maisaAI_/status/1768657114669429103?s=20