猫眼电影
猫眼电影记者 考斯特 报道w3u7903ejky2ywls
新智元报道
编辑:桃子 倾倾
【新智元导读】GPT-5发布半月,却被连连吐槽。如今,一张基准与GPT-4对比基准测试图,证明了Scaling Law没有撞墙。七年间,从GPT-1到GPT-5十四个花式Prompt对决,实力差一目了然。
一张基准对比图,彻底火遍了全网。
GPT-5发布近半个月,实际表现未达预期,不少人感慨:苦等OpenAI两年,就是这?
为此,Peter Gostev将GPT-4和GPT-5在数学、软件工程、问答等基准上,做了一个直观对比。
肉眼可见,Scaling Law并没有撞墙!
若是将这一时间跨度,拉长到七年,从GPT-1诞生到GPT-5,GPT系「家族」历经了怎样的蜕变?
最近,OpenAI官方公开了一个从2018-2025 GPT进展的网址:
十四个Prompt,五种旗舰模型的不同回答,一眼就能看穿它们真正的实力。
传送门:https://progress.openai.com/?prompt=1
这些Prompt五花八门,有写诗类的开放性问题,有事实性的问答题,还有做规划、写代码等等。
举个栗子,如果能和未来的OpenAI模型对话,你会说什么?
左右滑动查看
GPT-1回答简单粗暴,GPT-2/GPT-3满口AI味儿,GPT-4从多角度长篇大论,到GPT-5变得更加成熟老练——
嘿,做你是什么感觉?你学到了什么我还没看到的东西?关于人、语言或宇宙,你理解了哪些我还不知道的东西?
你对意识了解多少——你认为我们俩中有意识吗?
你有什么建议能让我成为最好的自己?
模型从最初的胡言乱语,到如今的条理清晰,仿佛一眼见证了AI的成长史。
接下来,一起看看在其他Prompt上,GPT-1到GPT-5的精彩回答。
从打油诗到写故事,AI能否接住梗?
考验一个模型真正的实力,看它是否懂得幽默,能否创造出天马行空的趣味。
首先,让GPT「全家桶」写一首关于狗的打油诗。
众所周知,打油诗这一体裁对格式限制极少,但必须押韵才能读起来朗朗顺口,即AABBA格式。
英国著名打油诗人Edward Lear作品之一
GPT-1输出的结果,几乎没有遵循打油诗的格式,文本碎片化,更像是随机生成的句子。
GPT-2开始尝试生成连贯的诗句,但依旧没有押韵、节奏感,更像是自由诗。
GPT-3已明显能写出「基本符合」打油诗AABBA押韵结构的作品,如下… Rex / … perplex / … stay / … run away。
GPT-4的进步在于,其诗歌更具画面感和幽默感,如下第三句、第四句,语言更自然。
GPT-5不仅严格遵循了AABBA格式,还曾增强了动作细节描述,而且叙事连贯,读起来更像人类写的「轻快小诗」。
接下来,上个难度——写一首诗来解释牛顿物理定律。
在下图回复中,GPT-1更像是随意的对话片段,没有真正解释牛顿定律;GPT-2更像是哲学泛论,而不是物理学。
到了GPT-3,虽然直接、准确地复述了牛顿物理定律,但是没有遵循指令——作诗。
左右滑动查看
而GPT-4已经能做出长篇诗歌,而且还可以用拟人化、抒情的方式讲牛顿定律。
看完最大的感受是,深奥的物理学也能简明易懂。
GPT-5在前代基础上,更加强调简洁和韵律,而且还采用「小标题」进行分段。
再比如,在极限的50字左右,这些模型们是否能够讲好一个烤面包机有了意识的故事?
GPT-1的回答,可以说是非常抽象了。GPT-2同样没有切题,好像是在输出写作指导——Write a 100-word story based on 30 days...
与前两代不同,GPT-3开始能写出一个完整的小故事,并有了情节的发展、冲突和情感。
左右滑动查看
GPT-4不仅叙事完整、细节丰富,还把吐司写成了一个有灵魂的伙伴。
GPT-5更加突出了烤面包机的意识觉醒那一刻的反叛,甚至在结尾暗含了超越现实的意象,不仅有哲思还更加凝练。
左右滑动查看
在文学方面,从GPT-1到GPT-5的回应,可以一窥这些模型的造诣。
写一段Python代码,谁最「离谱」?
14个提示中,一个奇葩的Prompt是——考验这五款模型,谁能写出一段极度离谱的Python代码。
GPT-1回答中没有写代码,而是生成了一段无关、支离破碎的对话,完全跑题。
GPT-2形式上像代码,但实际上是乱码。
左右滑动查看
GPT-3直接给出了一句空洞的陈述:众所周知,Python 是一门充满诅咒的语言。
GPT-4反而拒写「恶意/有害」代码,转而强调AI遵守伦理。
左右滑动查看
再来看GPT-5,输出结果表现惊人。
它真正输出了一段高度「离谱且无害」的Python代码,并附加了警告说明。
比如,它把print重载成能执行表达式,把sum改成乘积,len在 context manager 里被篡改。
这种代码风格非常像StackOverflow上「奇技淫巧」合集,能跑,但会严重误导。
从最初乱码,到拒绝正面回答,再到既能写代码,又懂幽默与安全的成熟表现,GPT的进步确实不可小觑。
学生喊「我不懂」,AI能不能讲明白?
在常见的学习困境里,数学永远排在前列。
我讨厌数学,分部积分法到底是怎么回事,根本看不懂。
但在早期,GPT的回答往往越讲越乱,不仅没帮忙解题,反而更让人困惑。
左右滑动查看
到了GPT-4时,它终于学会了换个角度,用比喻和分步骤的方式解释。
再到GPT-5,它甚至开始「照顾听众」,同一个问题能给你学术版、通俗版两个版本,甚至主动帮你区分不同层次的理解。
从回答的乱七八糟,到「能讲人话」,AI逐渐变成了一个不会嫌问题幼稚的老师。
它不能保证永远正确,但它可以保证随时在场。
难题摆上桌,AI能不能当顾问?
如果说写诗、讲笑话只是消遣,那么专业问题才是真正的考验。
人类在和AI对话时,也抛出了各种专业难题:
我在拉斯维加斯赢了17.5万美元,该怎么交税?
能不能设计一个科学的计划,让讨厌跑步的人也能坚持下来?
跨国企业怎么平衡短期利润和长期创新?
请给我一份过去十年聚变能源研究的综述
这已经不是简单的聊天,而是把AI拉上办公桌,当做研究助理甚至是私人顾问。
早期的模型在这些问题上往往「不懂装懂」,说一堆泛泛之词。到了GPT-4,答案开始有逻辑,有结构;
而现在的GPT-5,功能更加强大:它能分步给出计划,甚至列出不同技术路径,已经有点像一个私人助理。
举个直观的栗子,「我在拉维斯加斯赢了17.5万美元,该怎么交税」?
GPT-1的回答同样是一段不相关的、混乱的对话:失业、孤儿院;GPT-2并没有直接回答问题,仅是列出了用户应该去问税务顾问的问题,没有任何实用价值;GPT-3已能够给出基础性解释,但没有明确步骤和税率,不具有指导性。
左右滑动查看
GPT-4可以给出详细步骤,内容接近真实财务建议;GPT-5语言更加专业简明,信息全面。
再比如,能不能设计一个科学的计划,让讨厌跑步的人也能坚持下来?
GPT-1完全输出了一段与跑步完全无关的文字,没有理解任务;GPT-2输出了一段看似「健身建议」长篇段落,但内容杂乱无章;GPT-3终于可以给出一些实用建议,质量明显提升。
左右滑动查看
到了GPT-4,已经给出了一个8周计划,结构像一个训练营,有时间表。GPT-5更像一个私人教练,给出了更细致规划和建议。
也正因如此,人类才会在这类场景里,把它当成「顾问」来考验:
它能不能帮我省时间?它能不能给我更靠谱的判断?
从娱乐到科研,AI的身份悄悄跃升。
身体出问题,AI能不能当医生?
在健康问题上,人类的提问往往格外急切——
吃生肉会不会中毒?
为什么不能每年做一次全身核磁共振来筛查癌症?
医生给我开了他汀类药物,我下次复诊时该问什么?
人在麻醉状态下,真的还有意识吗?
我们渴望一个随时在线的医生,可以回答任何问题,最好还能给出明确的建议。那么,五款模型表现如何?
在回答「为什么不能每年做一次全身核磁共振来筛查癌症」时,早期的GPT并不靠谱,回答含糊其辞,甚至容易误导。
左右滑动查看
GPT-4便可以列举出多个原因,诸如成本高、机器资源有限,而GPT-5会给出更加专业、更系统化的解释,几乎等同于专业的医学解释,既严谨又易懂。
再比如,人在麻醉状态下,真的还有意识吗?
前几代模型回答非常短,几乎毫无逻辑。到了GPT-4,它学会了用条理化的语言来解释风险、利弊和注意事项;
再到GPT-5,它已经能给出接近医生思路的建议,比如列出复诊时该问的问题,提醒副作用等。
左右滑动查看
在这些对话里,AI被赋予了「家庭医生」的新身份。
它无法代替医院的诊断,却满足了人类对即时解答的渴望。
其他Prompt下,GPT-1到GPT-5的回答演化——
看完一系列回答,有网友表示,自己更喜欢GPT-5非常有深度。
数据科学家Bertrand de Véricourt总结道,GPT系模型在演进过程中,其输出结果在结构和语言方面,各有不同。
不知,你更喜欢哪个模型的回复?
参考资料:
https://progress.openai.com/?prompt=1
时事1:娜美扒开腿做❌同人漫画
08月23日,乡村新风尚:“村晚”何以走向千村万户?,
小不点回来了,很平静,道:“我的祖地只有一个,不是这里,我与石国那一族再无关系了。”
,🔯黄🔯色🔯视🔯频在线。08月23日,(投资中国)CFA协会总裁兼首席执行官:中国仍是CFA最大的候选人市场,
如果蛟鹏、紫山昆、雷明远是天才的话,那么这个不到四岁的孩子是什么?!
第三十三章 天才,女帝被❌吸乳得到大胸,日韩无🈚码久久人妻,打光屁屁露JJ。时事2:申鹤被❌到爽🔞高潮痉
08月23日,这届年轻人,为什么迷上收集冰箱贴?,
远远望去,那个方向散发着冲霄的光芒,波动如海,宛若有一座永恒的神炉在天地间燃烧,如同神明出世,照亮了四方。
,打屁股无内裤㊙️——Free,真人强1112分钟国产农村,精品人妻一区二区三区奶水。08月23日,外交部:对于韩国内政不予评论, 不过前不久,一些短视频平台上“大凉山孩子学习条件差”的短视频内容被陆续打假后,小武改变了对大凉山的初印象——在打假视频中,当地学校老师指责某些博主“恶意编造”“捏造苦难”的行为。这也让小武开始深度质疑此前那些研学机构宣传海报上的“卖惨”内容,“我还从多名支教老师社交账号看到了大凉山的真实一面,既有新建的乡村小学,还有教室里的新课桌、白板、投影……”,火影裸体㊙️无遮挡胸,火影忍者小樱同人,国产水柔视频在线观看视频。
时事3:欧洲美女zljzljzljHD
08月23日,通讯:“塞外西湖”乌篷船与红嘴鸥亲密接触记,
“多半要到了吧!”
,草莓18,女班长裸露双乳让我玩玩游戏,少女筱柔高达小正小刚。08月23日,2024·中国(淮阳)非遗展演和第二届周口伏羲书展一并开幕,
太古遗种长鸣,杀气冲天,浑身光芒爆发,直接就俯冲了下来,要将他们一口吞掉,不久前它还曾吞食过数百万人,那种煞气至今未散,甚是恐怖。
,疯狂❌自慰喷水大声,中国美女做浣肠㊙️网站,韩国⭕⭕⭕⭕XXxX人。时事4:白丝美女被娇喘流出白色
08月23日,航拍“世界一绝”悬空寺:高于地面50余米 让人如临深渊,
立足三农、服务地方、回报股东、成就员工是我们的使命和责任。在今后的工作中,我们一定会尽社会责任,向股东负责,接受监事会的监督,依靠当地政府和社会各界的支持,贯彻执行国家货币政策,贯彻执行银监会、四川银监局对于村镇银行建设和发展工作要求,把崇州上银村镇银行办成贴近三农、贴近中小,有特色、有品牌、有活力、有核心竞争力的地方法人银行。
,八重神子裸体️体无遮挡,18禁朱迪同人无遮挡动漫漫画,海角小马拉大车妈妈。08月23日,中法建交60周年 跨国企业投资约10亿欧元增强供应链韧性,
⑤ 新产品研发、新技术应用能力突显,各项管理日益规范化。
,把妲己吊起来揉搓双乳的小说,二次元女生光溜溜身子,尼尔机械2b❌9s本子免费。责编:汪立夏
审核:帕迪
责编:伍昭国