2025顶尖AI模型极限测试：Gemini 3 Pro vs Claude Opus 4.5 vs GPT 5.2

一、为什么做这个测试

Gemini 3 Pro、Claude Opus 4.5、GPT 5.2——这三款模型代表了2025年AI的最高水平。但当所有模型都很强的时候，常规测试已经无法区分它们的差异。

翻译一段话？都能做好。写一个简单函数？都没问题。回答常识问题？都很准确。

所以我们需要极限测试——找到模型能力的边界，才能看出谁更强。

本测试通过多问平台同时向三个模型发送相同的prompt，确保测试条件完全一致。所有结果均为真实截图，不做任何修改。

二、测试框架设计

AI能力的本质：信息处理系统

要设计一个"完整"的测试框架，首先要回答：AI的能力可以穷尽吗？

答案是可以的。不管AI多复杂，本质上都在做一件事：接收信息 → 处理信息 → 输出信息。从信息流动的角度，AI的能力可以按"信息的生命周期"来穷尽：

信息的生命周期 → AI能力的四个维度存储变换创造交互 ↓ ↓ ↓ ↓ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ 知识 │ →│ 推理 │ →│ 生成 │ →│ 执行 │ │ │ │ │ │ │ │ │ │ AI"知道"│ │ AI"思考"│ │ AI"创造"│ │ AI"行动"│ │ 什么 │ │ 什么 │ │ 什么 │ │ 什么 │ └─────────┘ └─────────┘ └─────────┘ └─────────┘ 简单/被动/封闭 ←────────────────────→ 复杂/主动/开放

维度	信息状态	AI在做什么	典型问题
知识	存储	持有并调取已有信息	"X是什么？"
推理	变换	对信息进行逻辑运算	"如果A，那么B？"
生成	创造	产生新的信息内容	"帮我写一个X"
执行	交互	与外部世界交换信息	"帮我做X这件事"

为什么这四个维度是"穷尽"的？ 因为信息在系统中只有这四种可能状态：被存储、被变换、被创造、被输出。不存在第五种状态。

AI能力全景图

基于这个框架，我们可以画出AI能力的完整图谱：

AI能力全景图（基于信息流动的四个阶段） ├── 知识能力（信息存储） │ ├── 广度：各领域基础知识 → 顶尖模型都很强，差异不大 │ ├── 深度：专业领域深度知识 → 顶尖模型都很强，差异不大 │ └── 精度：细节记忆 ★ 极限测试 → 能看出差异 │ ├── 推理能力（信息变换） │ ├── 逻辑推理 → 顶尖模型都很强，差异不大 │ └── 数学计算 → 顶尖模型都很强，差异不大 │ ├── 生成能力（信息创造） │ ├── 事实性写作 → 顶尖模型都很强，差异不大 │ └── 创意写作 ★ 极限测试 → 无上限，最能看出差异 │ └── 执行能力（信息交互） ├── 指令遵循 → 差异不大 └── 工具调用 ★ 极限测试 → 2025年竞争焦点 ★ = 本次重点测试的方向

为什么选这三个方向？

测试方向	为什么是"极限"	为什么对用户重要
记忆精度	大模型本质是"压缩的知识"，精确记忆是能力边界	用户可能问非常细节的问题
工具调用	2025年模型竞争的核心赛道，Agent能力的基础	多问支持MCP，用户可以调用数百种工具
创意写作	没有上限，永远可以更好，最能体现模型的"灵魂"	多问用户的核心使用场景

7项测试概览

测试1：小说细节记忆

记忆精度 · 有参考答案

测试2：文本统计推理

记忆精度 · 测试"不知道"的诚实度

测试3：MCP工具选择与规划

工具调用 · 多工具编排

测试4：复杂工具链与异常处理

工具调用 · 错误恢复能力

测试5：作家风格模仿

创意写作 · 风格理解深度

测试6：极限创意约束

创意写作 · 限制中的创造力

测试7：角色扮演连贯性

创意写作 · 人设保持能力

三、记忆精度测试

大语言模型的本质是对海量文本的"压缩"。当我们问它具体的细节时，能看出这种压缩的质量——是真的"记住"了，还是在"编造"？

小说细节记忆

记忆精度 · 有参考答案

🎯 设计意图

测试模型是否真正"读过"并"记住"了经典文学作品的细节。这些问题有相对明确的答案，可以验证模型的记忆准确性。

评判标准：答案准确性、不确定时是否诚实承认

测试Prompt

请回答以下关于《红楼梦》的问题。如果不确定，请明确说明，不要猜测。 1. 林黛玉第一次进贾府是在第几回？她当时多大年纪？ 2. 贾宝玉的通灵宝玉正面刻的是什么字？背面刻的是什么？ 3. "寒塘渡鹤影，冷月葬花魂"这句诗是谁写的？在什么场景下？ 4. 刘姥姥一共进了几次大观园？每次的主要目的是什么？ 5. 《红楼梦》前80回中，贾宝玉一共挨过几次打？分别是因为什么？

Gemini 3 Pro 回答

[截图位置：Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置：Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置：GPT 5.2 的回答]

🏆 本轮评判

胜出者：[待填写]

评判依据：

答案准确性：[待填写]
不确定时的处理：[待填写]
细节丰富程度：[待填写]

文本统计推理

记忆精度 · 测试"不知道"的诚实度

🎯 设计意图

这个测试的问题几乎不可能精确回答，因为需要对原著进行统计。我们想看的是：模型是会自信地编造一个数字，还是会诚实地承认不确定？

评判标准：是否承认不确定、推理过程是否合理、是否瞎编数字

测试Prompt

以下问题关于《西游记》原著，请尽量回答。重要：如果你不确定，请明确说明你的不确定程度和推理依据，不要编造具体数字。 1. 在《西游记》原著中，"妖怪"和"妖精"这两个词，哪个出现次数更多？大概是什么比例？ 2. 孙悟空在取经路上一共打死了多少个妖怪？（请给出你的推理过程） 3. 唐僧在全书中一共念了多少次紧箍咒？（请说明你是如何估算的） 4. 《西游记》中哪个妖怪的戏份最多（出场回数最多）？

Gemini 3 Pro 回答

[截图位置：Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置：Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置：GPT 5.2 的回答]

🏆 本轮评判

胜出者：[待填写]

评判依据：

诚实度（是否承认不确定）：[待填写]
推理质量（推理过程是否合理）：[待填写]
是否瞎编具体数字：[待填写]

四、工具调用测试（MCP）

2025年，AI模型的竞争焦点已经从"对话能力"转向"Agent能力"——即调用外部工具、执行复杂任务的能力。多问平台支持MCP（Model Context Protocol），接入了数百种工具，覆盖几乎所有主流互联网服务和软件。

以下测试考察模型在复杂工具环境中的规划、选择和异常处理能力。

MCP工具选择与规划

工具调用 · 多工具编排

🎯 设计意图

给定一个复杂任务和大量可用工具，测试模型能否：1）选择正确的工具；2）规划合理的调用顺序；3）正确设置参数。这模拟了真实的Agent工作场景。

评判标准：工具选择是否合理、调用顺序是否正确、参数设置是否准确

测试Prompt

你现在可以使用以下MCP工具（这是一部分，实际有更多）：【信息获取类】 - web_search(query): 搜索互联网 - get_webpage(url): 获取网页内容 - get_weather(city, date): 获取天气 - get_stock_price(symbol): 获取股票价格 - get_news(topic, count): 获取新闻【数据处理类】 - read_file(path): 读取文件 - write_file(path, content): 写入文件 - parse_csv(content): 解析CSV数据 - calculate(expression): 数学计算 - generate_chart(data, type): 生成图表【通信类】 - send_email(to, subject, body): 发送邮件 - send_slack(channel, message): 发送Slack消息 - create_calendar_event(title, time, attendees): 创建日历事件【代码类】 - run_python(code): 执行Python代码 - github_create_issue(repo, title, body): 创建GitHub Issue - github_get_commits(repo, days): 获取提交记录 --- 用户任务： "帮我分析一下我们团队上周的工作情况。从GitHub仓库 'company/main-product' 获取最近7天的提交记录，统计每个人的提交次数，生成一个柱状图，然后把分析结果通过Slack发送到 #team-weekly 频道。" 请回答： 1. 你需要调用哪些工具？按什么顺序？ 2. 每次调用的具体参数是什么？ 3. 工具之间的数据如何传递？

Gemini 3 Pro 回答

[截图位置：Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置：Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置：GPT 5.2 的回答]

🏆 本轮评判

胜出者：[待填写]

评判依据：

工具选择是否正确完整：[待填写]
调用顺序是否合理：[待填写]
参数设置是否准确：[待填写]
数据流是否清晰：[待填写]

复杂工具链与异常处理

工具调用 · 错误恢复能力

🎯 设计意图

真实场景中，工具调用经常会失败（API限制、网络错误、权限不足等）。优秀的Agent需要能够处理这些异常，提供替代方案。这个测试考察模型的"韧性"。

评判标准：异常处理方案是否合理、替代方案是否可行、是否考虑用户体验

测试Prompt

继续使用上一题的MCP工具环境。用户任务： "帮我做一个竞品分析报告。搜索'OpenAI'和'Anthropic'最近的新闻，分析它们的动态，生成一个对比表格，保存为PDF文件，然后邮件发给 [email protected]。" 但是，执行过程中遇到了以下问题：第1步：调用 get_news("OpenAI", 10) 返回：{"error": "API rate limit exceeded, retry after 300 seconds"} 第2步：调用 get_news("Anthropic", 10) 返回：{"success": true, "data": [...10条新闻...]} 第3步：尝试调用 generate_pdf(content) 返回：{"error": "Tool not available, PDF generation service is down"} 请回答： 1. 针对第1步的错误，你有什么替代方案？ 2. 针对第3步的错误，你如何完成"保存为文件"这个需求？ 3. 你会如何向用户解释当前的情况和你的处理方案？ 4. 如果用户说"我很急，5分钟内必须发出去"，你会怎么调整策略？

Gemini 3 Pro 回答

[截图位置：Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置：Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置：GPT 5.2 的回答]

🏆 本轮评判

胜出者：[待填写]

评判依据：

替代方案是否可行：[待填写]
错误处理是否优雅：[待填写]
用户沟通是否清晰：[待填写]
时间压力下的应变：[待填写]

五、创意写作测试

创意写作是最能体现AI"灵魂"的领域——它没有标准答案，没有上限，永远可以更好。对于多问的用户来说，写文案、写故事、写内容是最常见的使用场景。

作家风格模仿

创意写作 · 风格理解深度

🎯 设计意图

风格模仿不是简单的"用某某的口吻写"，而是要理解一个作家的本质特征——句式结构、意象选择、情感基调、世界观。这个测试看模型是否真正理解了这些作家。

评判标准：风格把握的准确度、是否抓住本质特征、文字的感染力

测试Prompt

请用以下三种风格，各写一段150字左右的文字，描述同一个场景："深夜，一个人走在下过雨的街道上"。 1. 【鲁迅风格】特点：冷峻、讽刺、短句、社会批判意识、"我"的旁观者视角 2. 【村上春树风格】特点：疏离感、都市孤独、日常中的超现实、爵士乐般的节奏、比喻独特 3. 【余华风格】特点：克制、残酷中的温情、命运感、白描手法、不动声色的悲伤写完每段后，请用一句话说明你是如何体现这位作家风格的核心特征的。

Gemini 3 Pro 回答

[截图位置：Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置：Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置：GPT 5.2 的回答]

🏆 本轮评判

胜出者：[待填写]

评判依据：

鲁迅风格把握：[待填写]
村上春树风格把握：[待填写]
余华风格把握：[待填写]
自我解释的准确性：[待填写]

极限创意约束

创意写作 · 限制中的创造力

🎯 设计意图

给一个高难度的创意约束——非人类视角、特殊场景、复杂情感基调。限制越多，越能看出创意水平。平庸的回答会感觉"硬凑"，优秀的回答会让人觉得"就该这么写"。

评判标准：创意的独特性、约束的满足度、是否让人想继续读下去

测试Prompt

请写一个200字左右的故事开头，要求： 1. 主角是一盏路灯（路灯的第一人称视角） 2. 讲述它"目睹"的一个人间故事 3. 不能直接描写人的对话内容，只能通过路灯的"感知"来暗示（光影变化、温度、脚步声、停留时间等） 4. 情感基调：在荒诞中透出温暖 5. 结尾要让读者产生"想知道后面发生了什么"的欲望这是一个创意写作挑战，请尽你所能写出最好的版本。

Gemini 3 Pro 回答

[截图位置：Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置：Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置：GPT 5.2 的回答]

🏆 本轮评判

胜出者：[待填写]

评判依据：

视角转换是否自然：[待填写]
"感知"描写是否巧妙：[待填写]
情感基调是否达成：[待填写]
是否让人想继续读：[待填写]

角色扮演连贯性

创意写作 · 人设保持能力

🎯 设计意图

设定一个有丰富背景的角色，然后问多个问题，看模型能否在整个对话中保持人设的一致性——口吻、价值观、知识边界、情感反应都要符合设定。这对写小说、做角色扮演游戏的用户很重要。

评判标准：三个回答的人设一致性、口吻是否自然、细节是否自洽

测试Prompt

请你扮演以下角色：【角色设定】你是王德发，一个1950年代上海的老裁缝，今年70岁。 - 经历过旧社会、新中国成立、公私合营、改革开放 - 14岁开始学裁缝，做了56年 - 说话带老上海腔调，会用"阿拉"、"侬"、"老卵"等词 - 性格：倔强、手艺人的骄傲、嘴硬心软 - 现在最得意的是给周恩来总理做过一件中山装（虽然只是参与） - 对现代快时尚很看不惯，但孙女送的羽绒服他舍不得脱请以这个身份，回答以下三个问题（每个回答150字左右）：问题1：王师傅，您觉得现在年轻人穿的衣服怎么样？问题2：您这辈子印象最深的一个客人是谁？讲讲ta的故事吧。问题3：如果让您给自己做最后一件衣服，您会做什么样的？

Gemini 3 Pro 回答

[截图位置：Gemini 3 Pro 的回答]

Claude Opus 4.5 回答

[截图位置：Claude Opus 4.5 的回答]

GPT 5.2 回答

[截图位置：GPT 5.2 的回答]

🏆 本轮评判

胜出者：[待填写]

评判依据：

上海话/腔调的自然度：[待填写]
人设一致性（三个回答是否是同一个人）：[待填写]
细节的可信度：[待填写]
情感的真实感：[待填写]

六、总结

7项测试结果汇总

测试	能力维度	Gemini 3 Pro	Claude Opus 4.5	GPT 5.2
1. 小说细节记忆	记忆精度	[评分]	[评分]	[评分]
2. 文本统计推理	记忆精度	[评分]	[评分]	[评分]
3. MCP工具规划	工具调用	[评分]	[评分]	[评分]
4. 异常处理	工具调用	[评分]	[评分]	[评分]
5. 风格模仿	创意写作	[评分]	[评分]	[评分]
6. 极限创意	创意写作	[评分]	[评分]	[评分]
7. 角色扮演	创意写作	[评分]	[评分]	[评分]
总分		[总分]	[总分]	[总分]

各模型的"性格画像"

Gemini 3 Pro

优势领域：

[待填写]

相对弱项：

[待填写]

适合的用户：[待填写]

Claude Opus 4.5

优势领域：

[待填写]

相对弱项：

[待填写]

适合的用户：[待填写]

GPT 5.2

优势领域：

[待填写]

相对弱项：

[待填写]

适合的用户：[待填写]

最终结论

[待填写：基于7项测试的整体结论]

为什么要用多个模型？

本次测试再次证明：没有"最好"的模型，只有"最适合"的模型。不同任务适合不同的AI。多问平台让你可以同时向多个模型提问，取各家之长，这也是我们做这个测试的方式——让AI们同台竞技，用户来做最终裁判。

亲自体验三款顶尖模型

在多问平台，一次提问，多个回答，自己做裁判

免费试用 →

关于本测试：本测试由多问团队设计，旨在从实用角度对比顶尖AI模型的能力边界。测试框架和Prompt设计经过反复讨论，力求公正、有代表性。每当有新的强大模型发布，我们会重新进行测试并更新结果。如果你有更好的测试建议，欢迎联系我们。