该模型上线后遭到大量用户吐槽,最新认为其从常识问答到情感交互,模型“智商不稳定”。打不动WhatsApp%E3%80%90+86%2015855158769%E3%80%91free%20standing%20crane
OpenAI推出不到一周的最新最新旗舰模型没能等来“好评如潮”。
近日,模型OpenAI在十周年之际发布了GPT-5.2系列模型,打不动官方数据显示其在GDPval等专业基准测试中超越人类专家,最新是模型迄今为止在“专业知识工作方面”表现最好的模型。
据OpenAI官方披露,打不动WhatsApp%E3%80%90+86%2015855158769%E3%80%91free%20standing%20craneGPT-5.2在多领域实现技术突破:GDPval测试中覆盖44个职业的最新任务表现70.9%优于顶尖专家,SWE-bench Pro编程测试获55.6%的模型SOTA成绩,还将幻觉率较GPT-5.1降低38%。打不动该公司CEO山姆·奥特曼称其为“许久以来最大的最新升级”,并透露计划2026年1月解除应对谷歌竞争的模型“红色警报”。
但该模型上线后遭到大量用户吐槽,打不动认为其从常识问答到情感交互,“智商不稳定”。
SimpleBench常识推理测试显示,GPT-5.2得分低于Anthropic发布的Claude Sonnet 3.7,甚至在“garlic有几个r”的基础问题上反复出错——有用户三次测试仅一次答对,而谷歌的Gemini 3.0等竞品均稳定通关。该测试旨在评估大模型在处理普通人认为简单,但对机器而言充满挑战的逻辑推理任务的能力。前AWS总经理Bindu Reddy直言,“不值得从GPT-5.1升级”。
网友晒出的网友晒出GPT-5.2在SimpleBench上的成绩单。
一些编程爱好者则发现,GPT-5.2生成的交通灯模拟代码画面仅达“黑白火柴人级别”,蒙娜丽莎ASCII艺术创作效果远逊于GPT-4o。情感交互中有用户倾诉“恐慌发作”,竟收到“很高兴听到这个消息”的回复,安慰失宠孩童时则机械强调“生物都会停止运作”,缺乏此前版本的亲和力和自然表达。
此外,该版本在处理连续对话时不稳定,甚至在明确选择“高级思考模式”时也会返回低质量的自动响应,令用户不得不重新调整使用方式。
还有用户表示,GPT-5.2的安全策略实施过于严格,在执行普通且无风险的请求时也会拒绝操作并给出无关的安全提示。
有观察人士指出,这轮差评潮背后存在几重因素。一方面,OpenAI推广时着重强调GPT-5.2的专业能力和基准测试成绩,但普通用户更关注日常对话、流畅性和创造性体验,两者的期望存在错位;另一方面,由于竞争加剧和内部发布节奏加快,有观点认为该版本可能发布过早,尚未充分优化在关键使用场景中的稳定性与一致性,因此用户的实际感受出现明显落差。
截至发稿,OpenAI尚未就这轮用户反馈作出公开回应,但公司在官方资料中表示,会持续改善用户体验、优化安全策略,并根据用户反馈推进后续版本的迭代。
当前,OpenAI仍面临来自谷歌的巨大竞争压力。谷歌此前推出的Gemini 3在编程、多模态理解等关键企业应用场景上实现了对ChatGPT的性能超越。11月,谷歌宣布Gemini月活跃用户已突破6.5 亿,较7月报告的4.5亿实现大幅增长,而OpenAI披露的周活跃用户数接近8亿。
为此,奥特曼曾发布“红色代码”警报,决定暂时搁置包括Sora视频生成器在内的长期研发项目,转而在短期内全力通过提升用户活跃度来巩固ChatGPT的大众市场地位。但急转直下的口碑或在很大程度上影响ChatGPT的使用率,OpenAI能否拿出更强有力的“武器”反击谷歌仍存在不确定性。
(責任編輯:百科)
体育3月3日讯 利物浦将于周三在欧冠16强首回合迎战巴黎圣日耳曼,队长维吉尔·范戴克向队友发出警示,强调淘汰赛阶段已无犯错余地。范戴克深知,随着小组赛的“舒适保护毯”褪去,任何一次失误都可能葬送利物浦
...[詳細]
海峡网9月17日讯 泉州网记者黄文珍 通讯员陈永添)记者从市经信委获悉,为引导制造业企业专注于细分产品市场的创新、产品质量提升和品牌培育,提升制造业核心竞争力,日前福建省第二批制造业单项冠军企业产品)
...[詳細]
10月4日讯 今日深圳新鹏城正式完成主教练的更迭,前曼城助教拉坦齐奥取代塔托,成为球队的代理主教练。记者赵宇谈到新鹏城的这次变更,认为这是一场“赌博”。赵宇表示:距离联赛结束还有三轮,需要保级的深圳新
...[詳細]
人民网北京2月9日电 去年7月,全国总工会下发了《关于加强基层工会经费收支管理的通知》。通知规定,基层工会逢年过节可以向全体员工发放少量节日慰问品。关于“少量”的标准,去年12
...[詳細]
在第三个全国生态日到来之际,记者在多地走访看到,公园、湿地内不少“追鸟人”手持望远镜、肩扛长焦镜头,捕捉着珍稀鸟类影像。近年来,我国观鸟爱好者人数呈持续增长态势,《中国鸟类观察
...[詳細]
今年国庆中秋长假期间,合肥的城市公园成为了市民休闲出游的“热门打卡地”。在骆岗公园,精彩刺激的马戏表演引来孩子们阵阵惊呼与欢笑,成为假期最热门的家庭打卡点之一;天鹅湖畔,林下咖啡座一位难求,悠扬的民谣
...[詳細]伊万:最近4个对手是亚洲最强4支队每一分都很珍贵不能轻视印尼
10月04日讯 今日国足在上海进行集训,球队主帅伊万科维奇和武磊接受了媒体采访。记者:目前出线形势对国足并不乐观,怎么在逆境下调整出球员最好的状态?伊万科维奇:我们在一个艰苦的小组里,下一场我们对阵澳
...[詳細]
海峡网9月17日讯泉州网记者杜妮娜)今年第22号台风“山竹”昨天17时前后在广东台山沿海登陆,登陆时中心附近最大风力14级45米/秒),中心最低气压955百帕。随着&ldquo
...[詳細]
3月3日消息,鲁尼在参加一档节目时表示,他渴望看到维尔贝克重回曼联。在最近的足总杯比赛中,维尔贝克在第114分钟打入制胜球,帮助布莱顿成功击败纽卡斯尔。其实,早在2024年夏天,前曼联主帅滕哈赫就非常
...[詳細]
新华社北京11月18日电记者姬烨、王梦、汪涌)经国际奥委会批准,北京冬奥组委日前发布北京2022年冬奥会第七版竞赛日程。随着筹备工作的深入,北京冬奥会竞赛日程仍可能调整。北京冬奥会将于2022年2月4
...[詳細]