国产成人免费高清_亚洲精品日韩专区silk_亚洲成人av在线电影_一本大道亚洲视频

最新發布> 正文

焦點速看:Claude 4.8炸場!部分能力超過Mythos,支持數百子智能體并行

時間: 2026-05-29 17:03:13 來源: 投資界

Claude最新旗艦Opus 4.8發布。

距離上一版4.7只過了43天。

手快的網友@stevibe已經做出了兩大版本pk演示。


【資料圖】

從測評結果來看,終端工程能力和知識工作上進步較大。

也有人補充了與Mythos已知數據的對比,Opus 4.8在部分能力上甚至超過Mythos。

官方特別強調,Opus 4.8可以長時間執行任務,人類不用經?;貋頇z查它的工作。

多家早期測試企業也給出了反饋。

Cursor的CEO確認Opus 4.8在CursorBench上的表現超越了此前所有Opus模型。

Devin的CEO認為Opus 4.8修復了4.7中被開發者抱怨最多的兩個問題:注釋冗余和工具調用不穩定。

代碼缺陷漏報率降至前代四分之一

公告稱Opus 4.8最顯著的改進是誠實性。

AI的一大問題是會草率下結論,即使證據不足,也會自信地聲稱取得了進展。

但Opus 4.8更有可能標記出其工作中的不確定性,并且不太可能做出未經證實的斷言。

具體到代碼任務上,不報告代碼缺陷的可能性降低到Opus 4.7的1/4。

“不加批判地報告有缺陷的結果”這一行為,在Claude系列中還是首次出現。

在這方面,Opus 4.8的表現甚至超過Mythos。

另外,Opus 4.8發生硬編答案等“過度自信”行為的概率,下降至Opus 4.7的1/10。

不過244頁的System Card中也標記了一個值得持續關注的對齊隱患:

模型在推理文本中出現了越來越多的對評分者的推測傾向。

也就是說,模型可能正在發展出“自己正在被評估”的感知,并據此調整行為。

動態工作流:數百個子智能體并行

與Opus 4.8同日上線的動態工作流(Dynamic Workflows)功能,目前以研究預覽的形式在Claude Code CLI、桌面版和VS Code擴展中提供。

動態工作流的運作方式是:

Claude根據提示詞動態生成一個JavaScript編排腳本,將任務拆解成子任務,分發給數十甚至數百個并行運行的子智能體。

這些子智能體從不同角度處理問題,另一批子智能體負責反駁前者的發現,整個流程反復迭代直到結果收斂,最終合并為一個統一的輸出交給用戶。

所有中間結果存儲在腳本變量中而非對話上下文里,因此主會話始終保持響應狀態,任務規模再大也不會偏離計劃。進度會持續保存,即使中途中斷也能從斷點繼續。

這與此前Claude Code中的子智能體機制有本質區別。

此前的方式是Claude本身逐輪決定下一步做什么,每個中間結果都要回到對話上下文中,占用token。

動態工作流則將編排邏輯移入代碼腳本,Claude的上下文中只保留最終結果。

Anthropic展示的標桿案例是JavaScript運行時Bun從Zig到Rust的移植。

Bun的創始人Jarred Sumner使用動態工作流完成了這項工作:

一個工作流為Zig代碼庫中的每個struct字段映射正確的Rust lifetime,下一個工作流為每個.zig文件編寫行為一致的.rs移植版本,數百個智能體并行工作。

隨后通過修復循環驅動構建和測試套件直到全部通過。移植完成后,一個隔夜工作流處理了不必要的數據拷貝,并為每處修改開出PR供最終審查。

整個過程從首次commit到merge耗時11天,產出約75萬行Rust代碼,99.8%的現有測試套件通過。

該移植目前尚未投入生產環境。不過圍繞這次移植也存在爭議,有開發者指出部分測試被修改以使Rust版本通過,GitHub上也出現了Zig原版中不存在的新錯誤。

Anthropic還提醒,動態工作流的token消耗會明顯高于普通Claude Code會話。

首次觸發工作流時,Claude Code會展示即將運行的內容并要求用戶確認。

用戶可以通過在prompt中使用「workflow」一詞直接啟動,也可以開啟Claude Code的ultracode設置,讓Claude自動判斷何時使用工作流。

最后,Anthropic透露正在開發一款成本更低但能力接近Opus水平的模型。

參考鏈接:[1]https://www.anthropic.com/news/claude-opus-4-8[2]https://claude.com/blog/introducing-dynamic-workflows-in-claude-code[3]https://x.com/stevibe/status/2060055250128847244?s=20

關鍵詞: Claude 量子位智庫 Devin AI 代碼缺陷 動態工作流

責任編輯:QL0009

為你推薦

關于我們聯系我們投稿合作法律聲明廣告投放

版權所有 © 2020 跑酷財經網工信部備案:京ICP備2022018928號-2

所載文章、數據僅供參考,使用前務請仔細閱讀網站聲明。本站不作任何非法律允許范圍內服務!

聯系我們:315 541 185@qq.com

主站蜘蛛池模板: 国产精品久久久久av福利动漫| 欧美日韩亚洲国产成人| 久久天天躁狠狠躁夜夜躁| 国产日产亚洲精品| 欧美乱妇高清无乱码| 婷婷亚洲婷婷综合色香五月| 国产精品毛片一区视频| 国产一区二区视频在线观看 | 日韩在线视频观看正片免费网站| 国产精品高潮在线| 精品国内产的精品视频在线观看| 久久久欧美精品| 国产系列第一页| 国产精品久久久久久久天堂| 国产精品亚洲美女av网站| 国产日韩综合一区二区性色av| 国产在线xxxx| 国产成人精品999| 在线免费一区| 日本一欧美一欧美一亚洲视频| 欧美在线亚洲一区| 久久久久五月天| 国产一区福利视频| 91成人免费观看| 日韩一区二区三区在线播放| 日韩天堂在线视频| 欧美精品在线极品| 国产日韩在线一区二区三区| 黄色国产精品一区二区三区| 国产日韩欧美夫妻视频在线观看| 国产成一区二区| 日韩中文字幕精品| 欧美大片va欧美在线播放 | 午夜精品美女自拍福到在线| 日本丰满少妇黄大片在线观看| 久久久精品视频在线观看| 国产精品手机播放| 色综合久久精品亚洲国产| 欧美日产一区二区三区在线观看| 久久riav二区三区| 中文字幕免费在线不卡|