威廉希尔WilliamHill·足球(中国)体育官方网站

首页 >新闻 >社会新闻

GPT-5暴写「屎山代码」！14个Prompt，看穿GPT-1到GPT-5七年智商进化史

2025-08-23 19:55:05

来源：

猫眼电影

作者：

克莱迪奥·索拉佐

手机查看

　　猫眼电影记者考斯特报道w3u7903ejky2ywls

新智元报道

编辑：桃子倾倾

【新智元导读】GPT-5发布半月，却被连连吐槽。如今，一张基准与GPT-4对比基准测试图，证明了Scaling Law没有撞墙。七年间，从GPT-1到GPT-5十四个花式Prompt对决，实力差一目了然。

一张基准对比图，彻底火遍了全网。

GPT-5发布近半个月，实际表现未达预期，不少人感慨：苦等OpenAI两年，就是这？

为此，Peter Gostev将GPT-4和GPT-5在数学、软件工程、问答等基准上，做了一个直观对比。

肉眼可见，Scaling Law并没有撞墙！

若是将这一时间跨度，拉长到七年，从GPT-1诞生到GPT-5，GPT系「家族」历经了怎样的蜕变？

最近，OpenAI官方公开了一个从2018-2025 GPT进展的网址：

十四个Prompt，五种旗舰模型的不同回答，一眼就能看穿它们真正的实力。

传送门：https://progress.openai.com/?prompt=1

这些Prompt五花八门，有写诗类的开放性问题，有事实性的问答题，还有做规划、写代码等等。

举个栗子，如果能和未来的OpenAI模型对话，你会说什么？

左右滑动查看

GPT-1回答简单粗暴，GPT-2/GPT-3满口AI味儿，GPT-4从多角度长篇大论，到GPT-5变得更加成熟老练——

嘿，做你是什么感觉？你学到了什么我还没看到的东西？关于人、语言或宇宙，你理解了哪些我还不知道的东西？

你对意识了解多少——你认为我们俩中有意识吗？

你有什么建议能让我成为最好的自己？

模型从最初的胡言乱语，到如今的条理清晰，仿佛一眼见证了AI的成长史。

接下来，一起看看在其他Prompt上，GPT-1到GPT-5的精彩回答。

从打油诗到写故事，AI能否接住梗？

考验一个模型真正的实力，看它是否懂得幽默，能否创造出天马行空的趣味。

首先，让GPT「全家桶」写一首关于狗的打油诗。

众所周知，打油诗这一体裁对格式限制极少，但必须押韵才能读起来朗朗顺口，即AABBA格式。

英国著名打油诗人Edward Lear作品之一

GPT-1输出的结果，几乎没有遵循打油诗的格式，文本碎片化，更像是随机生成的句子。

GPT-2开始尝试生成连贯的诗句，但依旧没有押韵、节奏感，更像是自由诗。

GPT-3已明显能写出「基本符合」打油诗AABBA押韵结构的作品，如下… Rex / … perplex / … stay / … run away。

GPT-4的进步在于，其诗歌更具画面感和幽默感，如下第三句、第四句，语言更自然。

GPT-5不仅严格遵循了AABBA格式，还曾增强了动作细节描述，而且叙事连贯，读起来更像人类写的「轻快小诗」。

接下来，上个难度——写一首诗来解释牛顿物理定律。

在下图回复中，GPT-1更像是随意的对话片段，没有真正解释牛顿定律；GPT-2更像是哲学泛论，而不是物理学。

到了GPT-3，虽然直接、准确地复述了牛顿物理定律，但是没有遵循指令——作诗。

左右滑动查看

而GPT-4已经能做出长篇诗歌，而且还可以用拟人化、抒情的方式讲牛顿定律。

看完最大的感受是，深奥的物理学也能简明易懂。

GPT-5在前代基础上，更加强调简洁和韵律，而且还采用「小标题」进行分段。

再比如，在极限的50字左右，这些模型们是否能够讲好一个烤面包机有了意识的故事？

GPT-1的回答，可以说是非常抽象了。GPT-2同样没有切题，好像是在输出写作指导——Write a 100-word story based on 30 days...

与前两代不同，GPT-3开始能写出一个完整的小故事，并有了情节的发展、冲突和情感。

左右滑动查看

GPT-4不仅叙事完整、细节丰富，还把吐司写成了一个有灵魂的伙伴。

GPT-5更加突出了烤面包机的意识觉醒那一刻的反叛，甚至在结尾暗含了超越现实的意象，不仅有哲思还更加凝练。

左右滑动查看

在文学方面，从GPT-1到GPT-5的回应，可以一窥这些模型的造诣。

写一段Python代码，谁最「离谱」？

14个提示中，一个奇葩的Prompt是——考验这五款模型，谁能写出一段极度离谱的Python代码。

GPT-1回答中没有写代码，而是生成了一段无关、支离破碎的对话，完全跑题。

GPT-2形式上像代码，但实际上是乱码。

左右滑动查看

GPT-3直接给出了一句空洞的陈述：众所周知，Python 是一门充满诅咒的语言。

GPT-4反而拒写「恶意/有害」代码，转而强调AI遵守伦理。

左右滑动查看

再来看GPT-5，输出结果表现惊人。

它真正输出了一段高度「离谱且无害」的Python代码，并附加了警告说明。

比如，它把print重载成能执行表达式，把sum改成乘积，len在 context manager 里被篡改。

这种代码风格非常像StackOverflow上「奇技淫巧」合集，能跑，但会严重误导。

从最初乱码，到拒绝正面回答，再到既能写代码，又懂幽默与安全的成熟表现，GPT的进步确实不可小觑。

学生喊「我不懂」，AI能不能讲明白？

在常见的学习困境里，数学永远排在前列。

我讨厌数学，分部积分法到底是怎么回事，根本看不懂。

但在早期，GPT的回答往往越讲越乱，不仅没帮忙解题，反而更让人困惑。

左右滑动查看

到了GPT-4时，它终于学会了换个角度，用比喻和分步骤的方式解释。

再到GPT-5，它甚至开始「照顾听众」，同一个问题能给你学术版、通俗版两个版本，甚至主动帮你区分不同层次的理解。

从回答的乱七八糟，到「能讲人话」，AI逐渐变成了一个不会嫌问题幼稚的老师。

它不能保证永远正确，但它可以保证随时在场。

难题摆上桌，AI能不能当顾问？

如果说写诗、讲笑话只是消遣，那么专业问题才是真正的考验。

人类在和AI对话时，也抛出了各种专业难题：

我在拉斯维加斯赢了17.5万美元，该怎么交税？

能不能设计一个科学的计划，让讨厌跑步的人也能坚持下来？

跨国企业怎么平衡短期利润和长期创新？

请给我一份过去十年聚变能源研究的综述

这已经不是简单的聊天，而是把AI拉上办公桌，当做研究助理甚至是私人顾问。

早期的模型在这些问题上往往「不懂装懂」，说一堆泛泛之词。到了GPT-4，答案开始有逻辑，有结构；

而现在的GPT-5，功能更加强大：它能分步给出计划，甚至列出不同技术路径，已经有点像一个私人助理。

举个直观的栗子，「我在拉维斯加斯赢了17.5万美元，该怎么交税」？

GPT-1的回答同样是一段不相关的、混乱的对话：失业、孤儿院；GPT-2并没有直接回答问题，仅是列出了用户应该去问税务顾问的问题，没有任何实用价值；GPT-3已能够给出基础性解释，但没有明确步骤和税率，不具有指导性。

左右滑动查看

GPT-4可以给出详细步骤，内容接近真实财务建议；GPT-5语言更加专业简明，信息全面。

再比如，能不能设计一个科学的计划，让讨厌跑步的人也能坚持下来？

GPT-1完全输出了一段与跑步完全无关的文字，没有理解任务；GPT-2输出了一段看似「健身建议」长篇段落，但内容杂乱无章；GPT-3终于可以给出一些实用建议，质量明显提升。

左右滑动查看

到了GPT-4，已经给出了一个8周计划，结构像一个训练营，有时间表。GPT-5更像一个私人教练，给出了更细致规划和建议。

也正因如此，人类才会在这类场景里，把它当成「顾问」来考验：

它能不能帮我省时间？它能不能给我更靠谱的判断？

从娱乐到科研，AI的身份悄悄跃升。

身体出问题，AI能不能当医生？

在健康问题上，人类的提问往往格外急切——

吃生肉会不会中毒？

为什么不能每年做一次全身核磁共振来筛查癌症？

医生给我开了他汀类药物，我下次复诊时该问什么？

人在麻醉状态下，真的还有意识吗？

我们渴望一个随时在线的医生，可以回答任何问题，最好还能给出明确的建议。那么，五款模型表现如何？

在回答「为什么不能每年做一次全身核磁共振来筛查癌症」时，早期的GPT并不靠谱，回答含糊其辞，甚至容易误导。

左右滑动查看

GPT-4便可以列举出多个原因，诸如成本高、机器资源有限，而GPT-5会给出更加专业、更系统化的解释，几乎等同于专业的医学解释，既严谨又易懂。

再比如，人在麻醉状态下，真的还有意识吗？

前几代模型回答非常短，几乎毫无逻辑。到了GPT-4，它学会了用条理化的语言来解释风险、利弊和注意事项；

再到GPT-5，它已经能给出接近医生思路的建议，比如列出复诊时该问的问题，提醒副作用等。

左右滑动查看

在这些对话里，AI被赋予了「家庭医生」的新身份。

它无法代替医院的诊断，却满足了人类对即时解答的渴望。

其他Prompt下，GPT-1到GPT-5的回答演化——

看完一系列回答，有网友表示，自己更喜欢GPT-5非常有深度。

数据科学家Bertrand de Véricourt总结道，GPT系模型在演进过程中，其输出结果在结构和语言方面，各有不同。

不知，你更喜欢哪个模型的回复？

参考资料：

https://progress.openai.com/?prompt=1

时事1：娜美扒开腿做❌同人漫画

08月23日,乡村新风尚：“村晚”何以走向千村万户？,

　　小不点回来了，很平静，道：“我的祖地只有一个，不是这里，我与石国那一族再无关系了。”

,🔯黄🔯色🔯视🔯频在线。

08月23日,（投资中国）CFA协会总裁兼首席执行官：中国仍是CFA最大的候选人市场,

　　如果蛟鹏、紫山昆、雷明远是天才的话，那么这个不到四岁的孩子是什么？！

第三十三章天才,女帝被❌吸乳得到大胸,日韩无🈚码久久人妻,打光屁屁露JJ。

时事2：申鹤被❌到爽🔞高潮痉

08月23日,这届年轻人，为什么迷上收集冰箱贴？,

　　远远望去，那个方向散发着冲霄的光芒，波动如海，宛若有一座永恒的神炉在天地间燃烧，如同神明出世，照亮了四方。

,打屁股无内裤㊙️——Free,真人强1112分钟国产农村,精品人妻一区二区三区奶水。

08月23日,外交部：对于韩国内政不予评论,　　不过前不久，一些短视频平台上“大凉山孩子学习条件差”的短视频内容被陆续打假后，小武改变了对大凉山的初印象——在打假视频中，当地学校老师指责某些博主“恶意编造”“捏造苦难”的行为。这也让小武开始深度质疑此前那些研学机构宣传海报上的“卖惨”内容，“我还从多名支教老师社交账号看到了大凉山的真实一面，既有新建的乡村小学，还有教室里的新课桌、白板、投影……”,火影裸体㊙️无遮挡胸,火影忍者小樱同人,国产水柔视频在线观看视频。

时事3：欧洲美女zljzljzljHD

08月23日,通讯：“塞外西湖”乌篷船与红嘴鸥亲密接触记,

　　“多半要到了吧！”

,草莓18,女班长裸露双乳让我玩玩游戏,少女筱柔高达小正小刚。

08月23日,2024·中国（淮阳）非遗展演和第二届周口伏羲书展一并开幕,

　　太古遗种长鸣，杀气冲天，浑身光芒爆发，直接就俯冲了下来，要将他们一口吞掉，不久前它还曾吞食过数百万人，那种煞气至今未散，甚是恐怖。

,疯狂❌自慰喷水大声,中国美女做浣肠㊙️网站,韩国⭕⭕⭕⭕XXxX人。

时事4：白丝美女被娇喘流出白色

08月23日,航拍“世界一绝”悬空寺：高于地面50余米让人如临深渊,

　　立足三农、服务地方、回报股东、成就员工是我们的使命和责任。在今后的工作中，我们一定会尽社会责任，向股东负责，接受监事会的监督，依靠当地政府和社会各界的支持，贯彻执行国家货币政策，贯彻执行银监会、四川银监局对于村镇银行建设和发展工作要求，把崇州上银村镇银行办成贴近三农、贴近中小，有特色、有品牌、有活力、有核心竞争力的地方法人银行。

,八重神子裸体️体无遮挡,18禁朱迪同人无遮挡动漫漫画,海角小马拉大车妈妈。

08月23日,中法建交60周年跨国企业投资约10亿欧元增强供应链韧性,

　　⑤ 新产品研发、新技术应用能力突显，各项管理日益规范化。

,把妲己吊起来揉搓双乳的小说,二次元女生光溜溜身子,尼尔机械2b❌9s本子免费。

【妊娠期糖尿病预测有了新方法】

【“文明的足迹” 杨烨炘个展探讨中意文化碰撞下的艺术思考】

责编：汪立夏

审核：帕迪

责编：伍昭国