Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论

#科技

AI 解读

Anthropic 推出了 Claude Opus 4.8 模型,重点提升了 AI 在编程、多领域推理和知识工作方面的能力。新模型在保持价格不变的情况下,显著提高了代码的可靠性,减少了无依据结论的产生,并能更主动地识别和纠正自身错误。此外,Opus 4.8 在亲社会指标上表现更佳,欺骗行为减少。配套的 claude.ai 新增了 effort 程度控制,允许用户平衡响应速度与结果质量。Opus 4.8 在 SWE-Bench Pro 等基准测试中表现优于竞争对手,且快速模式运行速度提升至 2.5 倍,模型成本降低至前代的三分之一,为用户提供了更高效、更可靠的 AI 服务体验。

        <p data-vmark="325d"><a class="s_tag" href="https://www.ithome.com/" target="_blank">IT之家</a> 5 月 29 日消息,Anthropic 今天(5 月 29 日)宣布推出旗舰新模型 Claude Opus 4.8,<strong>主打更强的智能体编程、多领域推理和知识工作能力。</strong></p><p data-vmark="6b53">官方表示,相比较 Opus 4.7 模型,本次 Opus 4.8 更新幅度较小,在保持价格不变的情况下,主要提升编程、智能体、推理和知识工作等用户能感知的方面。</p><p data-vmark="1d0b" style="text-align: center;"><img src="//img.ithome.com/images/v2/t.png" w="1280" h="720" data-vmark="f01e" class="lazy" title="Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论" data-original="https://img.ithome.com/newsuploadfiles/2026/5/cf5f3846-4276-480c-a2ac-2e773bace385.jpg?x-bce-process=image/format,f_auto" width="1280" height="461"></p><p data-vmark="9d39">能力层面,官方援引多家早期测试方反馈称,表示 Opus 4.8 “更可靠,判断也更敏锐”,在复杂多步骤任务中判断更稳,能主动提问、识别自身错误,并在计划不合理时提出异议。</p><p data-vmark="9050">官方评估显示,和前代相比,Opus 4.8 放任自己所写代码缺陷、却不加说明的概率低了约 4 倍,更愿意主动标出不确定性,减少缺乏依据的结论。</p><p data-vmark="0551">对齐表现方面,Opus 4.8 在支持用户自主性、按用户最佳利益行动等亲社会指标上创下新高。与此同时,欺骗等失配行为的出现率低于 Opus 4.7,并与 Claude Mythos Preview 接近。IT之家附上相关截图如下:</p><p data-vmark="4133" style="text-align: center;"><img src="//img.ithome.com/images/v2/t.png" w="1440" h="810" data-vmark="d2f2" class="lazy" title="Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论" data-original="https://img.ithome.com/newsuploadfiles/2026/5/42f8e2a1-e53e-4782-aed6-c37d8d606df2.png?x-bce-process=image/format,f_auto" width="1440" height="461"></p><p data-vmark="830f">配套功能方面,<span class="link-text-start-with-http">claude.ai</span> 新增 effort 程度控制,用户可平衡更高质量与更快响应。默认是 high 档,在编码任务中,token 消耗与 Opus 4.7 默认档接近,但效果更好;若选择 extra(在 Claude Code 中为 xhigh)或者 max 更高档位,模型会消耗更多 tokens 以换取更优结果。</p><p data-vmark="f684">基准测试方面,Anthropic 称 Opus 4.8 在 SWE-Bench Pro 上得到 69.2%,并在该测试和其他多项基准中超过 GPT–5.5 与 Gemini 3.1 Pro。但在终端编程基准上,GPT–5.5 仍然领先。</p><p data-vmark="c45b" style="text-align: center;"><img src="//img.ithome.com/images/v2/t.png" w="1440" h="770" data-vmark="2546" class="lazy" title="Claude Opus 4.8 上线:提升 AI 编程可靠性,减少无依据结论" data-original="https://img.ithome.com/newsuploadfiles/2026/5/746c1d9f-e07f-4f18-9615-d56465fb4073.png?x-bce-process=image/format,f_auto" width="1440" height="438"></p><p data-vmark="aafa">这次更新还带来性能和价格调整。Anthropic 表示,Opus 4.8 的快速模式运行速度提升到 2.5 倍,模型成本则降到此前模型的 1/3。</p><p data-vmark="22b8">定价方面,常规模式维持每 100 万输入令牌 5 美元、每 100 万输出令牌 25 美元;快速模式为每 100 万输入令牌 10 美元、每 100 万输出令牌 50 美元。</p><p class="ad-tips">广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。</p>
    </div>

    
    

    


        <div class="newserror">
            <button class="water" data-nid="956827">投诉水文</button>
            <button class="error" data-nid="956827">我要纠错</button>
        </div>

        <div class="newsgrade"></div>
    <div class="shareto">
        
        <div class="bdsharebuttonbox">
            <a href="https://connect.qq.com/widget/shareqq/index.html?url=https%3a%2f%2fwww.ithome.com%2f0%2f956%2f827.htm&title=Claude+Opus+4.8+%e4%b8%8a%e7%ba%bf%ef%bc%9a%e6%8f%90%e5%8d%87+AI+%e7%bc%96%e7%a8%8b%e5%8f%af%e9%9d%a0%e6%80%a7%ef%bc%8c%e5%87%8f%e5%b0%91%e6%97%a0%e4%be%9d%e6%8d%ae%e7%bb%93%e8%ae%ba&summary=" class="bds_qzone" target="_blank" title="分享到QQ"></a>
            <a href="#" class="bds_weixin" data-cmd="weixin" title="分享到微信"></a>
            <a href="https://service.weibo.com/share/share.php?url=https%3a%2f%2fwww.ithome.com%2f0%2f956%2f827.htm&title=Claude+Opus+4.8+%e4%b8%8a%e7%ba%bf%ef%bc%9a%e6%8f%90%e5%8d%87+AI+%e7%bc%96%e7%a8%8b%e5%8f%af%e9%9d%a0%e6%80%a7%ef%bc%8c%e5%87%8f%e5%b0%91%e6%97%a0%e4%be%9d%e6%8d%ae%e7%bb%93%e8%ae%ba" target="_blank" class="bds_tsina" title="分享到新浪微博"></a>
        </div>
        <a class="down_app collapse" href="https://m.ithome.com/ithome/download/?popqr" target="_blank">
            <span class="d-p">
                <span></span>
                <span></span>
                <span></span>
                <span></span>
                <span></span>
            </span>
            <span class="d-t">下载IT之家APP,签到赚金币兑豪礼</span>
        </a>
    </div>

    
    <div class="related_post"><div class="title"><h2>相关文章</h2><div class="hot_tags"><span>关键词:<a href='/tags/Claude/' target='_blank'>Claude</a>,<a href='/tags/AI/' target='_blank'>AI</a></span></div></div><ul class="list_3"><li><a target="_blank" href="https://www.ithome.com/0/955/886.htm">继 OpenAI 后,Anthropic 的 Claude AI 也解出这道 80 年数学难题</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/955/820.htm">Anthropic Claude 有望加入 AI 熟练度评分卡,引导用户更充分使用 AI</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/955/098.htm">消息称 Anthropic 酝酿公开上线最强模型 Mythos,短暂现身 Claude Code</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/945/780.htm">“AI 抓虫能手”:Claude Security 公测上线,基于 Opus 4.7 发现漏洞</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/944/728.htm">加速你的创意落地:Claude AI 接入 Adobe、Blender 等创意软件生态</a></span></li><li><a target="_blank" href="https://www.ithome.com/0/942/458.htm">Anthropic Claude Desktop 被指未经用户授权,向 Chrome 等 7 款浏览器“静默安装间谍软件”</a></span></li></ul>