还有谁对 Claude Fable 印象深刻吗?这对半导体似乎是利好。
作者对 Claude 减少幻觉和自主调用工具的能力印象深刻,认为 AI 的进步扩大了 AI 的潜在市场,对半导体是利好。
- 先进的 AI 模型通过识别自身局限并自主使用外部工具,正在克服幻觉问题。
- AI 模型中幻觉的减少和自我意识的增强将显著扩大 AI 的总潜在市场 (TAM)。
- AI 能力的持续提升推动了对底层算力的更高需求,使半导体公司受益。
例如,我问了一个关于棋局的问题,它没有像之前的模型那样胡编乱猜,而是自行下载了一个叫 Stockfish 的国际象棋求解器,安装到它的操作系统上(我确定这个术语不准确,但你明白我的意思),运行它,然后解释了 Stockfish 为什么会那样做。它能够意识到这个问题很难回答,并且主动找到并利用了一个工具,这让我印象非常深刻。我对编码完全零了解,还让它为我创建了一个教练应用,整个过程大约花了30分钟。幻觉问题是限制人工智能总可寻址市场的最大障碍之一,而我看到这些模型越来越有自我意识了。
不。目前最大的放大器不是模型本身,而是工具调用和智能体框架;主要的专有框架是通用的,效率极低,而且没有动力让它们变得更高效(更便宜);它们是消耗token的怪兽。像Fable这样的模型只会有助于开发者快速原型设计出更好的框架,以及更高效的、适应特定用例的智能体框架,从而大幅削弱那些依赖大家使用其低效(昂贵、高利润)通用框架和模型、运行在过高定价芯片上的大玩家。然后(中国人)就会用Mythos将其提炼成自己的模型,运行成本低50倍;接着DeepSeek会用这个来改进自己的模型,内存使用减少95%;最后所有人都会忘记他们为什么要在无法承受价格战的高价IPO上梭哈。
我非常看好聪明人用这些模型能做些什么。商业案例是建立在脱离现实的希望之上的。智能体编程无疑已经改变了游戏规则,更好的模型固然很棒(但信不信由你,你并不需要那么多推理能力,而且你应该有意压缩上下文,并将推理模型限制在软件开发生命周期的特定阶段)。
你说商业案例是忽悠(hopium),主要指的是像Antropic这样的公司会被开源模型碾压,还是说连放射学、药物发现、物理AI、材料科学、数学、化学、法律、文档摘要、客户服务等应用也是如此?
没错,对于那些拥有专有模型且可能稍微好一点但成本高出 30-50 倍、并且面向大众消费的巨头来说,资本支出并不合理。说实话,大多数任务你甚至不需要最好的模型,而且很多时候你根本不应该用 LLM 来编排逻辑流程——当你可以用可测试、可验证的工具来引导它们的时候。看,总体而言,这个领域是货真价实的,而且发展很快。但我们不需要最新的 SOTA 模型来满足 90% 人的需求(跟他们的假 AI 女友聊天)。
这是一个非常有趣的评论。谢谢你的分享。
客户是最近两天用Fable发给你的,还是用更旧的模型?
还有,我听说像cocounsel/harvey这类AI工具的采用率开始变得显著了,你在实践中完全没有看到吗?
这些律师以为自己不会被替代。短期来看?可能说得对。一旦 AI 把细节搞对,他们就得滚蛋了。
没错,律师正是最容易让 AI 替代的岗位之一。任何靠文档/书籍/经验堆砌的知识领域,都到了被替代的成熟时机。
我敢打赌一大笔钱,10年后律师的数量和现在一样多。
这人的回应听起来像是:“是啊,我侄子用 Photoshop 5.0 画了些恐龙,画得跟屎一样,所以 CGI 永远取代不了传统动画。”
“喂给Claude”可以有很多含义。
Claude有很多模型和许多不同的努力等级。
如果你的客户用的是免费版,那确实他用的是个垃圾旧模型。
不管用了什么模型,你必须意识到这明显是用户错误,对吧?
“我好朋友的孩子让 AI 做了件事,结果 AI 给出了一个愚蠢的回答,AI 毫无用处。”
训练和运行这些模型所需的集群网络也在以难以置信的速度增长。ALAB和MRVL因此飙升。
Fable和Mythos完全相同,只是内置了防护栏。如果你尝试用Fable做任何与网络安全相关的事,它会回退到Opus 4.8。
不在我的活动领域...一些股市研究、市场概览、制作带有图表的Excel文件。只是稍微快一点,但token使用量和结果质量像Opus 4.6。
国际象棋测试早就成了 AI 的试金石,但找到并下载一个好程序然后运行它,这事儿并非 AI 独有。你也一样能做到。
真正看涨的是:Claude 能帮你编写你自己的分析软件,也许只是一个简单的网页应用。找到你感兴趣的股票,丢进你的自定义应用里,你就能立刻得到一份完全按你要求定制的分析,这是任何通用网站目前做不到的。
这个版块应该被定义为邓宁-克鲁格效应
你在说我吗?我说我个人觉得这令人印象深刻,它代表了进步,并且“似乎”对半导体来说是利好,我没有做出任何疯狂的确信断言。我甚至在一条评论中说过,我缺乏技术方面的专业知识,所以很难评估模型能力如何为企业创造价值。
令人印象深刻的部分不是它使用了 Stockfish,而是它把模型当作协调者而不是真相来源。这可能是这些系统变得有用的地方:知道何时直接回答,何时调用工具,何时停止假装。半导体角度是真实的,但更大的转变是工作流需求,因为每个有用的代理步骤都会转化为更多的算力、更多的内存以及围绕模型的基础设施。
我问了一个关于国际象棋局面问题
这到底跟股票有什么关系?
我在主帖里解释过。可能限制 AI 市场规模的最大因素是它的幻觉问题,如果 AI 只会胡编乱造,你就无法把人从工作流中剔除。过去,AI 会自信地对我提出的问题产生错误的幻觉回答。而在这里,它意识到了自身的局限性,想出了解决方案,自行下载了一个工具,然后给了我正确的答案。
我问它为什么这么做,它明确表示没有 Stockfish 它对答案没有信心,所以它想确保正确。这是自我意识、问题解决能力和工具使用能力。对我来说,这似乎是朝着正确方向迈出的重要一步。关键限制在于,对于 AI 来说,国际象棋比许多工作任务更容易解决。
他们问的具体问题并不重要,这只是对其能力的一次测试,尽管范围有点窄。

r/stocks