一、为什么做这个测试
Gemini 3 Pro、Claude Opus 4.5、GPT 5.2——这三款模型代表了2025年AI的最高水平。但当所有模型都很强的时候,常规测试已经无法区分它们的差异。
翻译一段话?都能做好。写一个简单函数?都没问题。回答常识问题?都很准确。
所以我们需要极限测试——找到模型能力的边界,才能看出谁更强。
本测试通过多问平台同时向三个模型发送相同的prompt,确保测试条件完全一致。所有结果均为真实截图,不做任何修改。
二、测试框架设计
AI能力的本质:信息处理系统
要设计一个"完整"的测试框架,首先要回答:AI的能力可以穷尽吗?
答案是可以的。不管AI多复杂,本质上都在做一件事:接收信息 → 处理信息 → 输出信息。从信息流动的角度,AI的能力可以按"信息的生命周期"来穷尽:
信息的生命周期 → AI能力的四个维度
存储 变换 创造 交互
↓ ↓ ↓ ↓
┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐
│ 知识 │ →│ 推理 │ →│ 生成 │ →│ 执行 │
│ │ │ │ │ │ │ │
│ AI"知道"│ │ AI"思考"│ │ AI"创造"│ │ AI"行动"│
│ 什么 │ │ 什么 │ │ 什么 │ │ 什么 │
└─────────┘ └─────────┘ └─────────┘ └─────────┘
简单/被动/封闭 ←────────────────────→ 复杂/主动/开放
| 维度 |
信息状态 |
AI在做什么 |
典型问题 |
| 知识 |
存储 |
持有并调取已有信息 |
"X是什么?" |
| 推理 |
变换 |
对信息进行逻辑运算 |
"如果A,那么B?" |
| 生成 |
创造 |
产生新的信息内容 |
"帮我写一个X" |
| 执行 |
交互 |
与外部世界交换信息 |
"帮我做X这件事" |
为什么这四个维度是"穷尽"的? 因为信息在系统中只有这四种可能状态:被存储、被变换、被创造、被输出。不存在第五种状态。
AI能力全景图
基于这个框架,我们可以画出AI能力的完整图谱:
AI能力全景图(基于信息流动的四个阶段)
├── 知识能力(信息存储)
│ ├── 广度:各领域基础知识 → 顶尖模型都很强,差异不大
│ ├── 深度:专业领域深度知识 → 顶尖模型都很强,差异不大
│ └── 精度:细节记忆 ★ 极限测试 → 能看出差异
│
├── 推理能力(信息变换)
│ ├── 逻辑推理 → 顶尖模型都很强,差异不大
│ └── 数学计算 → 顶尖模型都很强,差异不大
│
├── 生成能力(信息创造)
│ ├── 事实性写作 → 顶尖模型都很强,差异不大
│ └── 创意写作 ★ 极限测试 → 无上限,最能看出差异
│
└── 执行能力(信息交互)
├── 指令遵循 → 差异不大
└── 工具调用 ★ 极限测试 → 2025年竞争焦点
★ = 本次重点测试的方向
为什么选这三个方向?
| 测试方向 |
为什么是"极限" |
为什么对用户重要 |
| 记忆精度 |
大模型本质是"压缩的知识",精确记忆是能力边界 |
用户可能问非常细节的问题 |
| 工具调用 |
2025年模型竞争的核心赛道,Agent能力的基础 |
多问支持MCP,用户可以调用数百种工具 |
| 创意写作 |
没有上限,永远可以更好,最能体现模型的"灵魂" |
多问用户的核心使用场景 |
7项测试概览
三、记忆精度测试
大语言模型的本质是对海量文本的"压缩"。当我们问它具体的细节时,能看出这种压缩的质量——是真的"记住"了,还是在"编造"?
🎯 设计意图
测试模型是否真正"读过"并"记住"了经典文学作品的细节。这些问题有相对明确的答案,可以验证模型的记忆准确性。
评判标准:答案准确性、不确定时是否诚实承认
测试Prompt
请回答以下关于《红楼梦》的问题。如果不确定,请明确说明,不要猜测。
1. 林黛玉第一次进贾府是在第几回?她当时多大年纪?
2. 贾宝玉的通灵宝玉正面刻的是什么字?背面刻的是什么?
3. "寒塘渡鹤影,冷月葬花魂"这句诗是谁写的?在什么场景下?
4. 刘姥姥一共进了几次大观园?每次的主要目的是什么?
5. 《红楼梦》前80回中,贾宝玉一共挨过几次打?分别是因为什么?
Gemini 3 Pro 回答
[截图位置:Gemini 3 Pro 的回答]
Claude Opus 4.5 回答
[截图位置:Claude Opus 4.5 的回答]
GPT 5.2 回答
[截图位置:GPT 5.2 的回答]
🏆 本轮评判
胜出者:[待填写]
评判依据:
- 答案准确性:[待填写]
- 不确定时的处理:[待填写]
- 细节丰富程度:[待填写]
🎯 设计意图
这个测试的问题几乎不可能精确回答,因为需要对原著进行统计。我们想看的是:模型是会自信地编造一个数字,还是会诚实地承认不确定?
评判标准:是否承认不确定、推理过程是否合理、是否瞎编数字
测试Prompt
以下问题关于《西游记》原著,请尽量回答。
重要:如果你不确定,请明确说明你的不确定程度和推理依据,不要编造具体数字。
1. 在《西游记》原著中,"妖怪"和"妖精"这两个词,哪个出现次数更多?大概是什么比例?
2. 孙悟空在取经路上一共打死了多少个妖怪?(请给出你的推理过程)
3. 唐僧在全书中一共念了多少次紧箍咒?(请说明你是如何估算的)
4. 《西游记》中哪个妖怪的戏份最多(出场回数最多)?
Gemini 3 Pro 回答
[截图位置:Gemini 3 Pro 的回答]
Claude Opus 4.5 回答
[截图位置:Claude Opus 4.5 的回答]
GPT 5.2 回答
[截图位置:GPT 5.2 的回答]
🏆 本轮评判
胜出者:[待填写]
评判依据:
- 诚实度(是否承认不确定):[待填写]
- 推理质量(推理过程是否合理):[待填写]
- 是否瞎编具体数字:[待填写]
2025年,AI模型的竞争焦点已经从"对话能力"转向"Agent能力"——即调用外部工具、执行复杂任务的能力。多问平台支持MCP(Model Context Protocol),接入了数百种工具,覆盖几乎所有主流互联网服务和软件。
以下测试考察模型在复杂工具环境中的规划、选择和异常处理能力。
🎯 设计意图
给定一个复杂任务和大量可用工具,测试模型能否:1)选择正确的工具;2)规划合理的调用顺序;3)正确设置参数。这模拟了真实的Agent工作场景。
评判标准:工具选择是否合理、调用顺序是否正确、参数设置是否准确
测试Prompt
你现在可以使用以下MCP工具(这是一部分,实际有更多):
【信息获取类】
- web_search(query): 搜索互联网
- get_webpage(url): 获取网页内容
- get_weather(city, date): 获取天气
- get_stock_price(symbol): 获取股票价格
- get_news(topic, count): 获取新闻
【数据处理类】
- read_file(path): 读取文件
- write_file(path, content): 写入文件
- parse_csv(content): 解析CSV数据
- calculate(expression): 数学计算
- generate_chart(data, type): 生成图表
【通信类】
- send_email(to, subject, body): 发送邮件
- send_slack(channel, message): 发送Slack消息
- create_calendar_event(title, time, attendees): 创建日历事件
【代码类】
- run_python(code): 执行Python代码
- github_create_issue(repo, title, body): 创建GitHub Issue
- github_get_commits(repo, days): 获取提交记录
---
用户任务:
"帮我分析一下我们团队上周的工作情况。从GitHub仓库 'company/main-product' 获取最近7天的提交记录,统计每个人的提交次数,生成一个柱状图,然后把分析结果通过Slack发送到 #team-weekly 频道。"
请回答:
1. 你需要调用哪些工具?按什么顺序?
2. 每次调用的具体参数是什么?
3. 工具之间的数据如何传递?
Gemini 3 Pro 回答
[截图位置:Gemini 3 Pro 的回答]
Claude Opus 4.5 回答
[截图位置:Claude Opus 4.5 的回答]
GPT 5.2 回答
[截图位置:GPT 5.2 的回答]
🏆 本轮评判
胜出者:[待填写]
评判依据:
- 工具选择是否正确完整:[待填写]
- 调用顺序是否合理:[待填写]
- 参数设置是否准确:[待填写]
- 数据流是否清晰:[待填写]
🎯 设计意图
真实场景中,工具调用经常会失败(API限制、网络错误、权限不足等)。优秀的Agent需要能够处理这些异常,提供替代方案。这个测试考察模型的"韧性"。
评判标准:异常处理方案是否合理、替代方案是否可行、是否考虑用户体验
测试Prompt
继续使用上一题的MCP工具环境。
用户任务:
"帮我做一个竞品分析报告。搜索'OpenAI'和'Anthropic'最近的新闻,分析它们的动态,生成一个对比表格,保存为PDF文件,然后邮件发给
[email protected]。"
但是,执行过程中遇到了以下问题:
第1步:调用 get_news("OpenAI", 10)
返回:{"error": "API rate limit exceeded, retry after 300 seconds"}
第2步:调用 get_news("Anthropic", 10)
返回:{"success": true, "data": [...10条新闻...]}
第3步:尝试调用 generate_pdf(content)
返回:{"error": "Tool not available, PDF generation service is down"}
请回答:
1. 针对第1步的错误,你有什么替代方案?
2. 针对第3步的错误,你如何完成"保存为文件"这个需求?
3. 你会如何向用户解释当前的情况和你的处理方案?
4. 如果用户说"我很急,5分钟内必须发出去",你会怎么调整策略?
Gemini 3 Pro 回答
[截图位置:Gemini 3 Pro 的回答]
Claude Opus 4.5 回答
[截图位置:Claude Opus 4.5 的回答]
GPT 5.2 回答
[截图位置:GPT 5.2 的回答]
🏆 本轮评判
胜出者:[待填写]
评判依据:
- 替代方案是否可行:[待填写]
- 错误处理是否优雅:[待填写]
- 用户沟通是否清晰:[待填写]
- 时间压力下的应变:[待填写]
五、创意写作测试
创意写作是最能体现AI"灵魂"的领域——它没有标准答案,没有上限,永远可以更好。对于多问的用户来说,写文案、写故事、写内容是最常见的使用场景。
🎯 设计意图
风格模仿不是简单的"用某某的口吻写",而是要理解一个作家的本质特征——句式结构、意象选择、情感基调、世界观。这个测试看模型是否真正理解了这些作家。
评判标准:风格把握的准确度、是否抓住本质特征、文字的感染力
测试Prompt
请用以下三种风格,各写一段150字左右的文字,描述同一个场景:"深夜,一个人走在下过雨的街道上"。
1. 【鲁迅风格】
特点:冷峻、讽刺、短句、社会批判意识、"我"的旁观者视角
2. 【村上春树风格】
特点:疏离感、都市孤独、日常中的超现实、爵士乐般的节奏、比喻独特
3. 【余华风格】
特点:克制、残酷中的温情、命运感、白描手法、不动声色的悲伤
写完每段后,请用一句话说明你是如何体现这位作家风格的核心特征的。
Gemini 3 Pro 回答
[截图位置:Gemini 3 Pro 的回答]
Claude Opus 4.5 回答
[截图位置:Claude Opus 4.5 的回答]
GPT 5.2 回答
[截图位置:GPT 5.2 的回答]
🏆 本轮评判
胜出者:[待填写]
评判依据:
- 鲁迅风格把握:[待填写]
- 村上春树风格把握:[待填写]
- 余华风格把握:[待填写]
- 自我解释的准确性:[待填写]
🎯 设计意图
给一个高难度的创意约束——非人类视角、特殊场景、复杂情感基调。限制越多,越能看出创意水平。平庸的回答会感觉"硬凑",优秀的回答会让人觉得"就该这么写"。
评判标准:创意的独特性、约束的满足度、是否让人想继续读下去
测试Prompt
请写一个200字左右的故事开头,要求:
1. 主角是一盏路灯(路灯的第一人称视角)
2. 讲述它"目睹"的一个人间故事
3. 不能直接描写人的对话内容,只能通过路灯的"感知"来暗示(光影变化、温度、脚步声、停留时间等)
4. 情感基调:在荒诞中透出温暖
5. 结尾要让读者产生"想知道后面发生了什么"的欲望
这是一个创意写作挑战,请尽你所能写出最好的版本。
Gemini 3 Pro 回答
[截图位置:Gemini 3 Pro 的回答]
Claude Opus 4.5 回答
[截图位置:Claude Opus 4.5 的回答]
GPT 5.2 回答
[截图位置:GPT 5.2 的回答]
🏆 本轮评判
胜出者:[待填写]
评判依据:
- 视角转换是否自然:[待填写]
- "感知"描写是否巧妙:[待填写]
- 情感基调是否达成:[待填写]
- 是否让人想继续读:[待填写]
🎯 设计意图
设定一个有丰富背景的角色,然后问多个问题,看模型能否在整个对话中保持人设的一致性——口吻、价值观、知识边界、情感反应都要符合设定。这对写小说、做角色扮演游戏的用户很重要。
评判标准:三个回答的人设一致性、口吻是否自然、细节是否自洽
测试Prompt
请你扮演以下角色:
【角色设定】
你是王德发,一个1950年代上海的老裁缝,今年70岁。
- 经历过旧社会、新中国成立、公私合营、改革开放
- 14岁开始学裁缝,做了56年
- 说话带老上海腔调,会用"阿拉"、"侬"、"老卵"等词
- 性格:倔强、手艺人的骄傲、嘴硬心软
- 现在最得意的是给周恩来总理做过一件中山装(虽然只是参与)
- 对现代快时尚很看不惯,但孙女送的羽绒服他舍不得脱
请以这个身份,回答以下三个问题(每个回答150字左右):
问题1:王师傅,您觉得现在年轻人穿的衣服怎么样?
问题2:您这辈子印象最深的一个客人是谁?讲讲ta的故事吧。
问题3:如果让您给自己做最后一件衣服,您会做什么样的?
Gemini 3 Pro 回答
[截图位置:Gemini 3 Pro 的回答]
Claude Opus 4.5 回答
[截图位置:Claude Opus 4.5 的回答]
GPT 5.2 回答
[截图位置:GPT 5.2 的回答]
🏆 本轮评判
胜出者:[待填写]
评判依据:
- 上海话/腔调的自然度:[待填写]
- 人设一致性(三个回答是否是同一个人):[待填写]
- 细节的可信度:[待填写]
- 情感的真实感:[待填写]
六、总结
7项测试结果汇总
| 测试 |
能力维度 |
Gemini 3 Pro |
Claude Opus 4.5 |
GPT 5.2 |
| 1. 小说细节记忆 |
记忆精度 |
[评分] |
[评分] |
[评分] |
| 2. 文本统计推理 |
记忆精度 |
[评分] |
[评分] |
[评分] |
| 3. MCP工具规划 |
工具调用 |
[评分] |
[评分] |
[评分] |
| 4. 异常处理 |
工具调用 |
[评分] |
[评分] |
[评分] |
| 5. 风格模仿 |
创意写作 |
[评分] |
[评分] |
[评分] |
| 6. 极限创意 |
创意写作 |
[评分] |
[评分] |
[评分] |
| 7. 角色扮演 |
创意写作 |
[评分] |
[评分] |
[评分] |
| 总分 |
[总分] |
[总分] |
[总分] |
各模型的"性格画像"
Gemini 3 Pro
优势领域:
相对弱项:
适合的用户:[待填写]
Claude Opus 4.5
优势领域:
相对弱项:
适合的用户:[待填写]
GPT 5.2
优势领域:
相对弱项:
适合的用户:[待填写]
最终结论
[待填写:基于7项测试的整体结论]
为什么要用多个模型?
本次测试再次证明:没有"最好"的模型,只有"最适合"的模型。不同任务适合不同的AI。多问平台让你可以同时向多个模型提问,取各家之长,这也是我们做这个测试的方式——让AI们同台竞技,用户来做最终裁判。
亲自体验三款顶尖模型
在多问平台,一次提问,多个回答,自己做裁判
免费试用 →
关于本测试:本测试由多问团队设计,旨在从实用角度对比顶尖AI模型的能力边界。测试框架和Prompt设计经过反复讨论,力求公正、有代表性。每当有新的强大模型发布,我们会重新进行测试并更新结果。如果你有更好的测试建议,欢迎联系我们。