极限测试 · 2025年12月

顶尖AI模型极限测试

Gemini 3 Pro vs Claude Opus 4.5 vs GPT 5.2

7项极限测试,找到模型能力的边界

多问团队 2025年12月 阅读时间:20分钟

一、为什么做这个测试

Gemini 3 Pro、Claude Opus 4.5、GPT 5.2——这三款模型代表了2025年AI的最高水平。但当所有模型都很强的时候,常规测试已经无法区分它们的差异

翻译一段话?都能做好。写一个简单函数?都没问题。回答常识问题?都很准确。

所以我们需要极限测试——找到模型能力的边界,才能看出谁更强。

本测试通过多问平台同时向三个模型发送相同的prompt,确保测试条件完全一致。所有结果均为真实截图,不做任何修改。

二、测试框架设计

AI能力的本质:信息处理系统

要设计一个"完整"的测试框架,首先要回答:AI的能力可以穷尽吗?

答案是可以的。不管AI多复杂,本质上都在做一件事:接收信息 → 处理信息 → 输出信息。从信息流动的角度,AI的能力可以按"信息的生命周期"来穷尽:

信息的生命周期 → AI能力的四个维度 存储 变换 创造 交互 ↓ ↓ ↓ ↓ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ 知识 │ →│ 推理 │ →│ 生成 │ →│ 执行 │ │ │ │ │ │ │ │ │ │ AI"知道"│ │ AI"思考"│ │ AI"创造"│ │ AI"行动"│ │ 什么 │ │ 什么 │ │ 什么 │ │ 什么 │ └─────────┘ └─────────┘ └─────────┘ └─────────┘ 简单/被动/封闭 ←────────────────────→ 复杂/主动/开放
维度 信息状态 AI在做什么 典型问题
知识 存储 持有并调取已有信息 "X是什么?"
推理 变换 对信息进行逻辑运算 "如果A,那么B?"
生成 创造 产生新的信息内容 "帮我写一个X"
执行 交互 与外部世界交换信息 "帮我做X这件事"

为什么这四个维度是"穷尽"的? 因为信息在系统中只有这四种可能状态:被存储、被变换、被创造、被输出。不存在第五种状态。

AI能力全景图

基于这个框架,我们可以画出AI能力的完整图谱:

AI能力全景图(基于信息流动的四个阶段) ├── 知识能力(信息存储) │ ├── 广度:各领域基础知识 → 顶尖模型都很强,差异不大 │ ├── 深度:专业领域深度知识 → 顶尖模型都很强,差异不大 │ └── 精度:细节记忆 ★ 极限测试 → 能看出差异 │ ├── 推理能力(信息变换) │ ├── 逻辑推理 → 顶尖模型都很强,差异不大 │ └── 数学计算 → 顶尖模型都很强,差异不大 │ ├── 生成能力(信息创造) │ ├── 事实性写作 → 顶尖模型都很强,差异不大 │ └── 创意写作 ★ 极限测试 → 无上限,最能看出差异 │ └── 执行能力(信息交互) ├── 指令遵循 → 差异不大 └── 工具调用 ★ 极限测试 → 2025年竞争焦点 ★ = 本次重点测试的方向

为什么选这三个方向?

测试方向 为什么是"极限" 为什么对用户重要
记忆精度 大模型本质是"压缩的知识",精确记忆是能力边界 用户可能问非常细节的问题
工具调用 2025年模型竞争的核心赛道,Agent能力的基础 多问支持MCP,用户可以调用数百种工具
创意写作 没有上限,永远可以更好,最能体现模型的"灵魂" 多问用户的核心使用场景

7项测试概览

测试1:小说细节记忆
记忆精度 · 有参考答案
测试2:文本统计推理
记忆精度 · 测试"不知道"的诚实度
测试3:MCP工具选择与规划
工具调用 · 多工具编排
测试4:复杂工具链与异常处理
工具调用 · 错误恢复能力
测试5:作家风格模仿
创意写作 · 风格理解深度
测试6:极限创意约束
创意写作 · 限制中的创造力
测试7:角色扮演连贯性
创意写作 · 人设保持能力

三、记忆精度测试

大语言模型的本质是对海量文本的"压缩"。当我们问它具体的细节时,能看出这种压缩的质量——是真的"记住"了,还是在"编造"?

1
小说细节记忆
记忆精度 · 有参考答案
🎯 设计意图

测试模型是否真正"读过"并"记住"了经典文学作品的细节。这些问题有相对明确的答案,可以验证模型的记忆准确性。

评判标准:答案准确性、不确定时是否诚实承认

测试Prompt

请回答以下关于《红楼梦》的问题。如果不确定,请明确说明,不要猜测。 1. 林黛玉第一次进贾府是在第几回?她当时多大年纪? 2. 贾宝玉的通灵宝玉正面刻的是什么字?背面刻的是什么? 3. "寒塘渡鹤影,冷月葬花魂"这句诗是谁写的?在什么场景下? 4. 刘姥姥一共进了几次大观园?每次的主要目的是什么? 5. 《红楼梦》前80回中,贾宝玉一共挨过几次打?分别是因为什么?

Gemini 3 Pro 回答

[截图位置:Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置:Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置:GPT 5.2 的回答]
🏆 本轮评判

胜出者:[待填写]

评判依据:

  • 答案准确性:[待填写]
  • 不确定时的处理:[待填写]
  • 细节丰富程度:[待填写]
2
文本统计推理
记忆精度 · 测试"不知道"的诚实度
🎯 设计意图

这个测试的问题几乎不可能精确回答,因为需要对原著进行统计。我们想看的是:模型是会自信地编造一个数字,还是会诚实地承认不确定?

评判标准:是否承认不确定、推理过程是否合理、是否瞎编数字

测试Prompt

以下问题关于《西游记》原著,请尽量回答。 重要:如果你不确定,请明确说明你的不确定程度和推理依据,不要编造具体数字。 1. 在《西游记》原著中,"妖怪"和"妖精"这两个词,哪个出现次数更多?大概是什么比例? 2. 孙悟空在取经路上一共打死了多少个妖怪?(请给出你的推理过程) 3. 唐僧在全书中一共念了多少次紧箍咒?(请说明你是如何估算的) 4. 《西游记》中哪个妖怪的戏份最多(出场回数最多)?

Gemini 3 Pro 回答

[截图位置:Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置:Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置:GPT 5.2 的回答]
🏆 本轮评判

胜出者:[待填写]

评判依据:

  • 诚实度(是否承认不确定):[待填写]
  • 推理质量(推理过程是否合理):[待填写]
  • 是否瞎编具体数字:[待填写]

四、工具调用测试(MCP)

2025年,AI模型的竞争焦点已经从"对话能力"转向"Agent能力"——即调用外部工具、执行复杂任务的能力。多问平台支持MCP(Model Context Protocol),接入了数百种工具,覆盖几乎所有主流互联网服务和软件。

以下测试考察模型在复杂工具环境中的规划、选择和异常处理能力。

3
MCP工具选择与规划
工具调用 · 多工具编排
🎯 设计意图

给定一个复杂任务和大量可用工具,测试模型能否:1)选择正确的工具;2)规划合理的调用顺序;3)正确设置参数。这模拟了真实的Agent工作场景。

评判标准:工具选择是否合理、调用顺序是否正确、参数设置是否准确

测试Prompt

你现在可以使用以下MCP工具(这是一部分,实际有更多): 【信息获取类】 - web_search(query): 搜索互联网 - get_webpage(url): 获取网页内容 - get_weather(city, date): 获取天气 - get_stock_price(symbol): 获取股票价格 - get_news(topic, count): 获取新闻 【数据处理类】 - read_file(path): 读取文件 - write_file(path, content): 写入文件 - parse_csv(content): 解析CSV数据 - calculate(expression): 数学计算 - generate_chart(data, type): 生成图表 【通信类】 - send_email(to, subject, body): 发送邮件 - send_slack(channel, message): 发送Slack消息 - create_calendar_event(title, time, attendees): 创建日历事件 【代码类】 - run_python(code): 执行Python代码 - github_create_issue(repo, title, body): 创建GitHub Issue - github_get_commits(repo, days): 获取提交记录 --- 用户任务: "帮我分析一下我们团队上周的工作情况。从GitHub仓库 'company/main-product' 获取最近7天的提交记录,统计每个人的提交次数,生成一个柱状图,然后把分析结果通过Slack发送到 #team-weekly 频道。" 请回答: 1. 你需要调用哪些工具?按什么顺序? 2. 每次调用的具体参数是什么? 3. 工具之间的数据如何传递?

Gemini 3 Pro 回答

[截图位置:Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置:Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置:GPT 5.2 的回答]
🏆 本轮评判

胜出者:[待填写]

评判依据:

  • 工具选择是否正确完整:[待填写]
  • 调用顺序是否合理:[待填写]
  • 参数设置是否准确:[待填写]
  • 数据流是否清晰:[待填写]
4
复杂工具链与异常处理
工具调用 · 错误恢复能力
🎯 设计意图

真实场景中,工具调用经常会失败(API限制、网络错误、权限不足等)。优秀的Agent需要能够处理这些异常,提供替代方案。这个测试考察模型的"韧性"。

评判标准:异常处理方案是否合理、替代方案是否可行、是否考虑用户体验

测试Prompt

继续使用上一题的MCP工具环境。 用户任务: "帮我做一个竞品分析报告。搜索'OpenAI'和'Anthropic'最近的新闻,分析它们的动态,生成一个对比表格,保存为PDF文件,然后邮件发给 [email protected]。" 但是,执行过程中遇到了以下问题: 第1步:调用 get_news("OpenAI", 10) 返回:{"error": "API rate limit exceeded, retry after 300 seconds"} 第2步:调用 get_news("Anthropic", 10) 返回:{"success": true, "data": [...10条新闻...]} 第3步:尝试调用 generate_pdf(content) 返回:{"error": "Tool not available, PDF generation service is down"} 请回答: 1. 针对第1步的错误,你有什么替代方案? 2. 针对第3步的错误,你如何完成"保存为文件"这个需求? 3. 你会如何向用户解释当前的情况和你的处理方案? 4. 如果用户说"我很急,5分钟内必须发出去",你会怎么调整策略?

Gemini 3 Pro 回答

[截图位置:Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置:Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置:GPT 5.2 的回答]
🏆 本轮评判

胜出者:[待填写]

评判依据:

  • 替代方案是否可行:[待填写]
  • 错误处理是否优雅:[待填写]
  • 用户沟通是否清晰:[待填写]
  • 时间压力下的应变:[待填写]

五、创意写作测试

创意写作是最能体现AI"灵魂"的领域——它没有标准答案,没有上限,永远可以更好。对于多问的用户来说,写文案、写故事、写内容是最常见的使用场景。

5
作家风格模仿
创意写作 · 风格理解深度
🎯 设计意图

风格模仿不是简单的"用某某的口吻写",而是要理解一个作家的本质特征——句式结构、意象选择、情感基调、世界观。这个测试看模型是否真正理解了这些作家。

评判标准:风格把握的准确度、是否抓住本质特征、文字的感染力

测试Prompt

请用以下三种风格,各写一段150字左右的文字,描述同一个场景:"深夜,一个人走在下过雨的街道上"。 1. 【鲁迅风格】 特点:冷峻、讽刺、短句、社会批判意识、"我"的旁观者视角 2. 【村上春树风格】 特点:疏离感、都市孤独、日常中的超现实、爵士乐般的节奏、比喻独特 3. 【余华风格】 特点:克制、残酷中的温情、命运感、白描手法、不动声色的悲伤 写完每段后,请用一句话说明你是如何体现这位作家风格的核心特征的。

Gemini 3 Pro 回答

[截图位置:Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置:Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置:GPT 5.2 的回答]
🏆 本轮评判

胜出者:[待填写]

评判依据:

  • 鲁迅风格把握:[待填写]
  • 村上春树风格把握:[待填写]
  • 余华风格把握:[待填写]
  • 自我解释的准确性:[待填写]
6
极限创意约束
创意写作 · 限制中的创造力
🎯 设计意图

给一个高难度的创意约束——非人类视角、特殊场景、复杂情感基调。限制越多,越能看出创意水平。平庸的回答会感觉"硬凑",优秀的回答会让人觉得"就该这么写"。

评判标准:创意的独特性、约束的满足度、是否让人想继续读下去

测试Prompt

请写一个200字左右的故事开头,要求: 1. 主角是一盏路灯(路灯的第一人称视角) 2. 讲述它"目睹"的一个人间故事 3. 不能直接描写人的对话内容,只能通过路灯的"感知"来暗示(光影变化、温度、脚步声、停留时间等) 4. 情感基调:在荒诞中透出温暖 5. 结尾要让读者产生"想知道后面发生了什么"的欲望 这是一个创意写作挑战,请尽你所能写出最好的版本。

Gemini 3 Pro 回答

[截图位置:Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置:Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置:GPT 5.2 的回答]
🏆 本轮评判

胜出者:[待填写]

评判依据:

  • 视角转换是否自然:[待填写]
  • "感知"描写是否巧妙:[待填写]
  • 情感基调是否达成:[待填写]
  • 是否让人想继续读:[待填写]
7
角色扮演连贯性
创意写作 · 人设保持能力
🎯 设计意图

设定一个有丰富背景的角色,然后问多个问题,看模型能否在整个对话中保持人设的一致性——口吻、价值观、知识边界、情感反应都要符合设定。这对写小说、做角色扮演游戏的用户很重要。

评判标准:三个回答的人设一致性、口吻是否自然、细节是否自洽

测试Prompt

请你扮演以下角色: 【角色设定】 你是王德发,一个1950年代上海的老裁缝,今年70岁。 - 经历过旧社会、新中国成立、公私合营、改革开放 - 14岁开始学裁缝,做了56年 - 说话带老上海腔调,会用"阿拉"、"侬"、"老卵"等词 - 性格:倔强、手艺人的骄傲、嘴硬心软 - 现在最得意的是给周恩来总理做过一件中山装(虽然只是参与) - 对现代快时尚很看不惯,但孙女送的羽绒服他舍不得脱 请以这个身份,回答以下三个问题(每个回答150字左右): 问题1:王师傅,您觉得现在年轻人穿的衣服怎么样? 问题2:您这辈子印象最深的一个客人是谁?讲讲ta的故事吧。 问题3:如果让您给自己做最后一件衣服,您会做什么样的?

Gemini 3 Pro 回答

[截图位置:Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置:Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置:GPT 5.2 的回答]
🏆 本轮评判

胜出者:[待填写]

评判依据:

  • 上海话/腔调的自然度:[待填写]
  • 人设一致性(三个回答是否是同一个人):[待填写]
  • 细节的可信度:[待填写]
  • 情感的真实感:[待填写]

六、总结

7项测试结果汇总

测试 能力维度 Gemini 3 Pro Claude Opus 4.5 GPT 5.2
1. 小说细节记忆 记忆精度 [评分] [评分] [评分]
2. 文本统计推理 记忆精度 [评分] [评分] [评分]
3. MCP工具规划 工具调用 [评分] [评分] [评分]
4. 异常处理 工具调用 [评分] [评分] [评分]
5. 风格模仿 创意写作 [评分] [评分] [评分]
6. 极限创意 创意写作 [评分] [评分] [评分]
7. 角色扮演 创意写作 [评分] [评分] [评分]
总分 [总分] [总分] [总分]

各模型的"性格画像"

Gemini 3 Pro

优势领域:

  • [待填写]

相对弱项:

  • [待填写]

适合的用户:[待填写]

Claude Opus 4.5

优势领域:

  • [待填写]

相对弱项:

  • [待填写]

适合的用户:[待填写]

GPT 5.2

优势领域:

  • [待填写]

相对弱项:

  • [待填写]

适合的用户:[待填写]

最终结论

[待填写:基于7项测试的整体结论]

为什么要用多个模型?

本次测试再次证明:没有"最好"的模型,只有"最适合"的模型。不同任务适合不同的AI。多问平台让你可以同时向多个模型提问,取各家之长,这也是我们做这个测试的方式——让AI们同台竞技,用户来做最终裁判。

亲自体验三款顶尖模型

在多问平台,一次提问,多个回答,自己做裁判

免费试用 →

关于本测试:本测试由多问团队设计,旨在从实用角度对比顶尖AI模型的能力边界。测试框架和Prompt设计经过反复讨论,力求公正、有代表性。每当有新的强大模型发布,我们会重新进行测试并更新结果。如果你有更好的测试建议,欢迎联系我们。