荆州市都会治理执法委员会

政府信息果真

LLM总是把简略使命复杂亚&亚洲姐妹在线图片专区#27954;男女爱视频在线观看化，，，，Karpathy无语：有些使命无需那么多考虑

泉源：荆州市融媒体中心 宣布时间： 2025-08-17 03:32:52

随着推理大模子和头脑链的泛起与普遍，，，，大模子具有了「深度思量」的才华，，，，差别使命的泛用性获得了很大的前进。。。

依附头脑链，，，，大模子可以对使命举行深化剖析，，，，完结使命妄想与拆解，，，，然后担当长周期、杂乱度高的作业。。。一起，，，，咱们也能更直观地相识模子的推理与剖析历程，，，，从中发明推行环节中的问题，，，，并有针对性地调解指令，，，，以更高效地完结目的。。。

可以说，，，，有了「深度思量」的推理模子，，，，才有了现在具有多种帮手功用与自主才华的 AI 智能体。。。

但现在的大模子逐步有些偏科了。。。为了构建运用才华更强的智能体，，，，对长周期的杂乱使命才华的追求现已影响到了大模子的推理形式。。。

不知道咱们在往常运用 AI 工具的时分有没有发明，，，，掀开了深度思量后，，，，一些简略的使命也需求许多的思量，，，，展现了十分冗长的头脑链，，，，而不掀开深度思量的时分，，，，又很难准确的获得想要的回复。。。

这种征象越来越显着了，，，，尤其是当大模子进入作业流（例如编码作业）的时分，，，，其负面效应就愈加显着。。。

这不，，，，AI 领域的大牛 Andrej Karpathy 也感受到差池劲，，，，发了长文推来指出这个令人无语的征象。。。

Karpathy 说，，，，「LLM 在默许状态下正变得比我一样平常运用需求更具『自主署理（Agentic）』倾向，，，，以致有些凌驾了我的匀称运用场景」。。。

最显着的简直是编码使命，，，，模子现在往É亚洲姐妹在线图片专区22;洲男女爱视频在线观看往会举行较长时刻的推理，，，，倾向于在整个代码库中列出并查找（grep）文件，，，，会重复举行网络查找，，，，对一些在开发中、且显着并不完好的代码里很少泛起的边际状态太过剖析、太过思量，，，，以致在十分简略的盘问中，，，，也经常需求几分钟后才回来效果。。。

尤其是在简略的使掷中，，，，例如在运行剧本前快速审查索引过错或其他初级过错，，，，基础不需求云云杂乱的使命剖析和代码处置惩罚。。。

因而 Karpathy 不得不经常打断 LLM，，，，并用相似这样的指令约束它：「停，，，，你想得太多了。。。只看这一份文件。。。不要用任何工具。。。不要太过妄想。。。」

这带来了许多费事，，，，不但是在编码使命，，，，咱们发明一样平常运用 LLM 工具时分的相似打断状态也越来越多了。。。

简略拿刚宣布几天的 GPT-5 举个好比，，，，宣布时 OpenAI 显着意识到深度思量的问题，，，，以是他们着重 GPT-5 是一个集成模子，，，，也就是说，，，，你用它的时分不需求在差别模子之间切换，，，，它会自己决议何时需求深化思量。。。

但这个问题显着没有这么简略。。。记着其时 GPT-4o 模子的图画编辑生乐成用很好用，，，，但在更新到新模子后就不太相同了。。。

咱们给了 GPT-5 这个指令：「去除图中文字，，，，把这张图变得高清一些，，，，机械人的脸看起来更温文一些」，，，，期望它可以挪用图画编辑的功用。。。

但效果它就起源举行「深度思量」了：

经由了 38 秒的思量，，，，它思量了许多细节，，，，但仍然未能起源运用图画生乐成用，，，，亚洲男女Ĥ亚洲姐妹在线图片专区33;视频在线观看导致不得不打断它的使命历程。。。

或许这也是用户们无比忖量 GPT-4o 的缘故原由之一。。。

正如 Karpathy 指出的，，，，随着默许形式逐步向这种「超深度思量」的高署理化状态靠拢，，，，咱们反而更需求一个相反的选项—— 一种更直接有用的要领去表达或转达我的目的和使命的迫切水平，，，，从「快速看一眼」到「花 30 分钟彻底认可后再回来」都能准确指定。。。

网友们也苦「太过思量」久矣，，，，以致为此回到了最质朴的运用要领。。。

关于这件事，，，，Karpathy以为元凶巨恶似乎是大模子「在长周期使命前进行了许多基准考试优化」，，，，为了在基准考试上获得更好的效果，，，，LLM的思量就更倾向于长周期的杂乱使命的完成，，，，因而影响了一样平常使命的呼应。。。

他指出了两种情境：

1. 我招待同伴过来看我屏幕上掀开的一个文件，，，，问他「这样对吗？？？？？」

2. 我让某人坐在桌前，，，，他们有 2 个小时来作答。。。这是一场考试，，，，危险很高。。。问题是「这样对吗？？？？？」

人类协作者能很自然地区别情境 1 和情境 2。。。但 LLM 并不知道你问的是 1 仍是 2，，，，而随着时刻推移、基准考试的一直「极限化」，，，，它会越来越倾向于假定你问的是情境 2。。。

这指出了大模子太过思量，，，，杂乱化使命的或许缘故原由，，，，大模子的开展不可彻底以基准考试分数作为追求。。。

关于大模子的「太过思量」，，，，有相关阅历和主意接待在谈论区别享。。。

本文来自微信公共号“机械之心”（ID：almosthuman2014），，，，作者：冷猫，，，，36氪经授权宣布。。。

博源国际

荆州市都会治理执法委员会

政府信息果真

LLM总是把简略使命复杂亚&亚洲姐妹在线图片专区#27954;男女爱视频在线观看化，，，，Karpathy无语：有些使命无需那么多考虑

相关附件

博源国际

荆州市都会治理执法委员会

政府信息果真

LLM总是把简略使命复杂亚&亚洲姐妹在线图片专区#27954;男女爱视频在线观看化，，，，Karpathy无语：有些使命无需那么多考虑

相关附件

LLM总是把简略使命复杂亚&亚洲姐妹在线图片专区#27954;男女爱视频在线观看化，，，，Karpathy无语：有些使命无需那么多考虑