JetBrainsAI 模型对比 20250425
目录
主要模型概述
OpenAI系列
- GPT-4.1:OpenAI于2025年4月发布的旗舰模型,具有100万token上下文窗口,支持多模态输入
- GPT-4.1 Mini:GPT-4.1的轻量化版本,性能与价格之间取得良好平衡
- GPT-4.1 Nano:GPT-4.1家族中最小最经济的版本,专为低延迟应用设计
- GPT-4o:2024年5月发布的多模态模型,擅长处理文本、图像和音频
- GPT-4o Mini:GPT-4o的轻量版本,保持大部分功能但价格更低
- o1:专注于深度思考与推理的模型,采用"思维链"方法解决复杂问题
- o1-Mini:o1的轻量版本,保持部分推理能力但响应速度更快
- o3:专为科学、数学和编程任务优化的推理模型
- o3-Mini:o3的轻量版本,为STEM领域优化,同时保持200K上下文窗口
- o4-Mini:OpenAI最新的轻量级推理模型,性能与速度之间取得平衡
Anthropic系列
- Claude 3.5 Sonnet:Anthropic的中型模型,擅长编码和内容生成
- Claude 3.5 Haiku:Anthropic的轻量高速模型,适合实时应用
- Claude 3.7 Sonnet:Anthropic最新的旗舰模型,支持计算机使用功能
Google系列
- Gemini 1.5 Pro:Google的高性能模型,拥有200万token上下文窗口
- Gemini 1.5 Flash:更快速、更经济的Gemini版本
- Gemini 2.0 Flash:提供新一代功能和增强能力的多模态模型
- Gemini 2.5 Pro:Google最新的旗舰思考型模型,推理能力强化
- Gemini 2.5 Flash:高性价比模型,具有100万token上下文窗口和思考预算功能
性能对比
基准测试成绩对比
模型 | MMLU | MATH | HumanEval | GPQA | MMMU |
---|---|---|---|---|---|
Claude 3.7 Sonnet | 90.2% | 96.2% | 94.5% | 不适用 | 75% |
Claude 3.5 Sonnet | 89.3% | 78.3% | 93.7% | 不适用 | 71.4% |
Claude 3.5 Haiku | 不适用 | 69.4% | 88.1% | 41.6% | 不适用 |
GPT-4.1 | 90.5% | 88% | 95% | 83% | 72% |
GPT-4.1 Mini | 85.3% | 76% | 89% | 68% | 63% |
GPT-4.1 Nano | 80.1% | 不适用 | 不适用 | 50.3% | 55.4% |
GPT-4o | 88.7% | 83.5% | 90.2% | 75.8% | 69.8% |
GPT-4o Mini | 82.4% | 74.1% | 83.6% | 58.4% | 60.2% |
o1 | 90% | 87% | 89% | 79% | 70% |
o1-Mini | 84% | 78% | 82% | 65% | 不适用 |
o3-Mini | 86.9% | 97.9% | 不适用 | 79.7% | 不适用 |
Gemini 2.5 Pro | 90.0% | 84.2% | 92.1% | 76.3% | 74.5% |
Gemini 2.0 Flash | 83.5% | 76.8% | 86.2% | 65.2% | 65.3% |
Gemini 1.5 Pro | 81.2% | 73.5% | 84.7% | 63.8% | 63.4% |
MMLU: 大规模多任务语言理解;MATH: 数学问题解决;HumanEval: 代码生成;GPQA: 研究生级物理问题;MMMU: 多模态多任务理解
上下文窗口与响应速度
模型 | 上下文窗口 | 最大输出token | 推理速度(token/秒) | 思考延迟(TTFT) |
---|---|---|---|---|
Claude 3.7 Sonnet | 200K | 64K | 约55 | 中等 |
Claude 3.5 Sonnet | 200K | 8K | 约50 | 0.64秒 |
Claude 3.5 Haiku | 200K | 8K | 约52 | 0.36秒 |
GPT-4.1 | 1M | 32K | 约50 | 高 |
GPT-4.1 Mini | 1M | 32K | 约60 | 中等 |
GPT-4.1 Nano | 1M | 32K | 约75 | 低 |
GPT-4o | 128K | 16K | 约65 | 低 |
GPT-4o Mini | 128K | 16K | 约75 | 很低 |
o1 | 200K | 100K | 约30 | 非常高 |
o1-Mini | 128K | 64K | 约40 | 高 |
o3-Mini | 200K | 100K | 约55 | 中等 |
o4-Mini | 128K | 不适用 | 约60 | 中等 |
Gemini 2.5 Pro | 1M | 65K | 约45 | 中等 |
Gemini 2.5 Flash | 1M | 65K | 约55 | 低 |
Gemini 2.0 Flash | 1M | 8K | 约60 | 很低 |
Gemini 1.5 Pro | 2M | 8K | 约40 | 中等 |
价格对比
输入价格(每百万token,美元)
模型 | 文本输入 | 图像/视频输入 | 音频输入 |
---|---|---|---|
Claude 3.7 Sonnet | $3.00 | $3.00 | 不适用 |
Claude 3.5 Sonnet | $3.00 | $3.00 | 不适用 |
Claude 3.5 Haiku | $1.00 | $1.00 | 不适用 |
GPT-4.1 | $2.00 | $2.00 | 不适用 |
GPT-4.1 Mini | $0.40 | $0.40 | 不适用 |
GPT-4.1 Nano | $0.10 | $0.10 | 不适用 |
GPT-4o | $2.50 | $2.50 | $40.00 |
GPT-4o Mini | $0.15 | $0.15 | $10.00 |
o1 | $15.00 | $15.00 | 不适用 |
o1-Mini | $1.10 | 不适用 | 不适用 |
o3-Mini | $1.10 | 不适用 | 不适用 |
o4-Mini | 不适用 | 不适用 | 不适用 |
Gemini 2.5 Pro | $1.25 | $1.25 | 不适用 |
Gemini 2.5 Flash | $0.15 | $0.15 | $1.00 |
Gemini 2.0 Flash | $0.10 | $0.10 | $0.70 |
Gemini 1.5 Pro | $1.25 | $1.25 | 不适用 |
输出价格(每百万token,美元)
模型 | 文本输出 | 音频输出 |
---|---|---|
Claude 3.7 Sonnet | $15.00 | 不适用 |
Claude 3.5 Sonnet | $15.00 | 不适用 |
Claude 3.5 Haiku | $5.00 | 不适用 |
GPT-4.1 | $8.00 | 不适用 |
GPT-4.1 Mini | $1.60 | 不适用 |
GPT-4.1 Nano | $0.40 | 不适用 |
GPT-4o | $10.00 | $80.00 |
GPT-4o Mini | $0.60 | $20.00 |
o1 | $60.00 | 不适用 |
o1-Mini | $4.40 | 不适用 |
o3-Mini | $4.40 | 不适用 |
o4-Mini | 不适用 | 不适用 |
Gemini 2.5 Pro | $10.00 | 不适用 |
Gemini 2.5 Flash | 0.60 (非思考)/3.50 (思考) | 不适用 |
Gemini 2.0 Flash | $0.40 | 不适用 |
Gemini 1.5 Pro | $5.00 | 不适用 |
各模型优缺点分析
OpenAI系列
GPT-4.1系列
- 优点:
- 具有1M token的超大上下文窗口
- 性能全面,在各项基准测试中表现出色
- 知识更新到2024年6月
- 支持多模态输入
- 缺点:
- 高端版本价格昂贵
- 部分专业领域知识深度不足
GPT-4o系列
- 优点:
- 多模态能力强,包括文本、图像、音频等
- 交互速度快,延迟低
- 支持音频输入输出
- GPT-4o Mini提供极高性价比
- 缺点:
- 上下文窗口(128K)小于最新的GPT-4.1和Claude模型
- 在某些复杂推理任务上不如专用推理模型
o系列
- 优点:
- o1系列具有出色的深度思考和复杂推理能力
- o3系列在科学、数学和编程任务上表现卓越
- 大多具有200K的上下文窗口
- 缺点:
- o1系列响应速度较慢,需要更长的思考时间
- 价格较高,尤其是o1和o1-Pro
- 不如GPT-4o系列的多模态能力强
Anthropic系列
- 优点:
- Claude 3.7 Sonnet具有计算机使用功能
- 在代码生成方面表现出色(HumanEval成绩高)
- 安全性和可控性良好
- Claude 3.5 Haiku速度快且价格合理
- 缺点:
- 多模态能力不如GPT-4o系列全面
- 价格相对较高,尤其是输出token
- 对某些复杂科学推理任务的支持有限
Google系列
- 优点:
- Gemini 2.5系列思考能力强化
- Gemini 1.5 Pro拥有行业最大的2M token上下文窗口
- Gemini 2.5 Flash提供思考预算功能,可按需平衡性能与速度
- 整体价格比竞争对手更经济实惠
- 缺点:
- 某些基准测试中表现略逊于OpenAI和Anthropic模型
- 调用API的稳定性有待提高
- 多模态处理能力不如GPT-4o系列完善
使用场景推荐
开发者和编程
- 最佳选择:
- Claude 3.7 Sonnet (HumanEval 94.5%,输出价格$15/1M tokens)
- Claude 3.5 Sonnet (HumanEval 93.7%,输出价格$15/1M tokens)
- GPT-4.1 (HumanEval 95%,输出价格$8/1M tokens)
- 经济选择:
- GPT-4o Mini (HumanEval 83.6%,输出价格仅$0.60/1M tokens)
- Claude 3.5 Haiku (HumanEval 88.1%,输出价格$5/1M tokens)
- GPT-4.1 Nano (输出价格仅$0.40/1M tokens,适合简单编程任务)
内容创作和写作
- 最佳选择:
- Claude 3.7 Sonnet (MMLU 90.2%,创意写作能力强,输出价格$15/1M tokens)
- GPT-4.1 (MMLU 90.5%,内容全面性最佳,输出价格$8/1M tokens)
- o1 (深度思考生成高质量内容,但输出价格高达$60/1M tokens)
- 经济选择:
- GPT-4o Mini (输出价格仅$0.60/1M tokens,多模态支持强)
- Gemini 2.0 Flash (输出价格仅$0.40/1M tokens,适合大量内容生成)
数据分析和科学研究
- 最佳选择:
- o3 (STEM专用模型,科学推理能力卓越,价格未公开)
- GPT-4.1 (GPQA 83%,全面科学能力,输出价格$8/1M tokens)
- 经济选择:
- o3-Mini (MATH 97.9%,STEM优化,输出价格$4.40/1M tokens)
- Gemini 2.5 Pro (科学推理能力强,输出价格$10/1M tokens)
聊天机器人和客服应用
- 最佳选择:
- GPT-4o (多模态支持全面,响应速度快,但输出价格$10/1M tokens)
- Claude 3.5 Haiku (0.36秒思考延迟,适合实时对话,输出价格$5/1M tokens)
- Gemini 2.0 Flash (高速响应,输出价格仅$0.40/1M tokens)
- 经济选择:
- GPT-4o Mini (延迟低,多模态能力强,输出价格仅$0.60/1M tokens)
- GPT-4.1 Nano (1M上下文窗口,输出价格仅$0.40/1M tokens)
- Gemini 2.5 Flash (思考预算功能,基础输出价格仅$0.60/1M tokens)
多模态应用
- 最佳选择:
- GPT-4o (完整多模态支持,语音输出能力,MMMU 69.8%,输出价格$10/1M tokens)
- GPT-4.1 (强大多模态支持,MMMU 72%,输出价格$8/1M tokens)
- Gemini 2.5 Pro (MMMU 74.5%,最优多模态评分,输出价格$10/1M tokens)
- 经济选择:
- GPT-4o Mini (完整多模态支持,输出价格仅$0.60/1M tokens)
- Gemini 2.0 Flash (多模态支持,最低输入价格$0.10/1M tokens)
处理大量文档和长上下文
- 最佳选择:
- Gemini 1.5 Pro (2M上下文窗口,业界最大,输出价格$5/1M tokens)
- GPT-4.1 (1M上下文窗口,顶级理解能力,输出价格$8/1M tokens)
- Gemini 2.5 Pro (1M上下文窗口,输出价格$10/1M tokens)
- 经济选择:
- GPT-4.1 Nano (1M上下文窗口,最低输出价格仅$0.40/1M tokens)
性价比排行榜
- GPT-4.1 Nano - 最高性价比,参数量100-300B,1M上下文窗口,输入价格0.10/1M tokens,输出价格0.40/1M tokens,适合大规模部署
- GPT-4o Mini - 参数量500-800B,多模态能力强,输出价格$0.60/1M tokens,语音输入输出支持,性价比卓越
- Gemini 2.5 Flash - 参数量500-800B,1M上下文窗口,思考预算功能(基础0.60/思考3.50),可灵活平衡成本与性能
- Claude 3.5 Haiku - 参数量300-500B,高速度(0.36秒思考延迟),输出价格$5/1M tokens,适合需要速度的场景
- Gemini 2.0 Flash - 参数量300-500B,1M上下文窗口,输出价格$0.40/1M tokens,预算极其有限时的理想选择
- GPT-4.1 Mini - 参数量500-800B,全功能支持,1M上下文窗口,输出价格$1.60/1M tokens,性能与价格平衡
- o3-Mini - 参数量300-500B,STEM领域专精,MATH 97.9%,输出价格$4.40/1M tokens,科学应用性价比高
- Gemini 2.5 Pro - 参数量1000-2000B,顶级功能但输出价格$10/1M tokens,比同级竞争对手便宜
- o1-Mini - 参数量300-500B,强大推理能力,输出价格$4.40/1M tokens,比o1便宜约93%
- GPT-4o - 参数量1000-2000B,全面多模态能力,输出价格$10/1M tokens,对多模态应用的投资回报率高
综合实力排行榜
- GPT-4.1 - 参数量1000-2000B,全面顶级性能(MMLU 90.5%),1M上下文窗口,输出价格8/1M tokens,输入价格2/1M tokens
- Claude 3.7 Sonnet - 参数量1000-2000B,顶级代码能力(HumanEval 94.5%),支持计算机使用功能,输出价格$15/1M tokens
- o1 - 参数量1000-2000B,深度思考能力(MMLU 90%),输出价格$60/1M tokens,适合复杂决策支持
- Claude 3.5 Sonnet - 参数量800-1000B,编码能力出色(HumanEval 93.7%),输出价格$15/1M tokens
- GPT-4o - 参数量1000-2000B,多模态交互全面,输出价格10/1M tokens,支持语音输入(40/1M)和输出($80/1M)
- Gemini 2.5 Pro - 参数量1000-2000B,强大思考能力,1M上下文窗口,输出价格$10/1M tokens,比类似性能模型更经济
- o3 - 参数量未公开,STEM领域专用,价格未公开,科学任务最佳选择
- o3-Mini - 参数量300-500B,STEM领域优化(MATH 97.9%),输出价格$4.40/1M tokens
- Gemini 1.5 Pro - 参数量1000-2000B,超大2M上下文窗口,输出价格$5/1M tokens,长文档处理最具成本效益
价格与参数汇总
模型 | 参数规模 | 文本输入($/1M) | 文本输出($/1M) | 图像/视频输入($/1M) | 音频输入($/1M) | 音频输出($/1M) | 上下文窗口 |
---|---|---|---|---|---|---|---|
GPT-4.1 | 1000-2000B | $2.00 | $8.00 | $2.00 | 不适用 | 不适用 | 1M |
GPT-4.1 Mini | 500-800B | $0.40 | $1.60 | $0.40 | 不适用 | 不适用 | 1M |
GPT-4.1 Nano | 100-300B | $0.10 | $0.40 | $0.10 | 不适用 | 不适用 | 1M |
GPT-4o | 1000-2000B | $2.50 | $10.00 | $2.50 | $40.00 | $80.00 | 128K |
GPT-4o Mini | 500-800B | $0.15 | $0.60 | $0.15 | $10.00 | $20.00 | 128K |
o1 | 1000-2000B | $15.00 | $60.00 | $15.00 | 不适用 | 不适用 | 200K |
o1-Mini | 300-500B | $1.10 | $4.40 | 不适用 | 不适用 | 不适用 | 128 |
o3-Mini | 300-500B | $1.10 | $4.40 | 不适用 | 不适用 | 不适用 | 200K |
Claude 3.7 Sonnet | 1000-2000B | $3.00 | $15.00 | $3.00 | 不适用 | 不适用 | 200K |
Claude 3.5 Sonnet | 800-1000B | $3.00 | $15.00 | $3.00 | 不适用 | 不适用 | 200K |
Claude 3.5 Haiku | 300-500B | $1.00 | $5.00 | $1.00 | 不适用 | 不适用 | 200K |
Gemini 2.5 Pro | 1000-2000B | $1.25 | $10.00 | $1.25 | 不适用 | 不适用 | 1M |
Gemini 2.5 Flash | 500-800B | $0.15 | 0.60-3.50 | $0.15 | $1.00 | 不适用 | 1M |
Gemini 2.0 Flash | 300-500B | $0.10 | $0.40 | $0.10 | $0.70 | 不适用 | 1M |
Gemini 1.5 Pro | 1000-2000B | $1.25 | $5.00 | $1.25 | 不适用 | 不适用 | 2M |
场景应用排行榜
1. 成本敏感型应用
- GPT-4.1 Nano - 参数量100-300B,输入0.10/输出0.40/1M tokens,拥有1M上下文窗口
- Gemini 2.0 Flash - 参数量300-500B,输入0.10/输出0.40/1M tokens,多模态支持
- GPT-4o Mini - 参数量500-800B,输入0.15/输出0.60/1M tokens,全面多模态支持
- Gemini 2.5 Flash - 参数量500-800B,基础输出0.60/思考输出3.50/1M tokens,可按需调整推理深度
- Claude 3.5 Haiku - 参数量300-500B,输入1.00/输出5.00/1M tokens,速度与成本平衡性好
2. 实时应用与聊天机器人
- Claude 3.5 Haiku - 思考延迟仅0.36秒,速度52 tokens/秒,输出价格$5/1M tokens
- GPT-4o Mini - 速度约75 tokens/秒,思考延迟很低,输出价格$0.60/1M tokens
- Gemini 2.0 Flash - 速度约60 tokens/秒,输出价格$0.40/1M tokens,成本效益最高
- GPT-4.1 Nano - 速度约75 tokens/秒,输出价格$0.40/1M tokens,上下文窗口大
- GPT-4o - 延迟低,速度约65 tokens/秒,多模态实时交互能力强,但输出价格$10/1M tokens
3. 编程与开发辅助
- Claude 3.7 Sonnet - HumanEval 94.5%,最佳代码生成能力,但输出价格$15/1M tokens
- Claude 3.5 Sonnet - HumanEval 93.7%,输出价格$15/1M tokens,专业编程能力强
- GPT-4.1 - HumanEval 95%,输出价格$8/1M tokens,性价比较Claude系列高
- Gemini 2.5 Pro - HumanEval 92.1%,输出价格$10/1M tokens,性价比适中
- o3-Mini - 专为STEM优化,输出价格$4.40/1M tokens,科学编程性价比高
4. 科学与学术研究
- o3-Mini - MATH 97.9%,GPQA 79.7%,专为STEM优化,输出价格$4.40/1M tokens,性价比最高
- GPT-4.1 - GPQA 83%,全面顶级性能,输出价格$8/1M tokens,适中预算选择
- Claude 3.7 Sonnet - MATH 96.2%,数学能力出色,输出价格$15/1M tokens
- o1 - 参数量1000-2000B,复杂问题解决能力强,但输出价格$60/1M tokens
5. 处理长文档与大数据
- Gemini 1.5 Pro - 2M上下文窗口,输出价格$5/1M tokens,最佳长文档经济选择
- GPT-4.1 - 1M上下文窗口,顶级理解能力,输出价格$8/1M tokens
- GPT-4.1 Nano - 1M上下文窗口,输出价格仅$0.40/1M tokens,处理大量文档最经济选择
- Gemini 2.5 Pro - 1M上下文窗口,输出价格$10/1M tokens,高性能大数据处理
- o1 - 200K上下文窗口,深度理解能力强,但输出价格高达$60/1M tokens
6. 多模态交互应用
- GPT-4o - 最全面多模态支持,文本输出10/1M,音频输出80/1M,图像输入$2.50/1M
- GPT-4o Mini - 全面多模态支持,但价格更低:文本输出0.60/1M,音频输出20/1M
- GPT-4.1 - 多模态支持与顶级性能结合,图像输入2.00/1M,文本输出8.00/1M
- Gemini 2.5 Flash - 经济型多模态支持,音频输入仅1.00/1M,文本输出基础0.60/1M
- Gemini 2.0 Flash - 最低价格多模态支持,图像输入0.10/1M,音频输入0.70/1M
7. 企业级应用和产品集成
- GPT-4.1 - 全面顶级性能,1M上下文窗口,输出价格$8/1M tokens,企业级可靠性
- Claude 3.7 Sonnet - 计算机使用功能,安全可控,输出价格$15/1M tokens,适合高安全需求
- Gemini 2.5 Pro - 1M上下文窗口,输出价格$10/1M tokens,比同类产品经济
- GPT-4.1 Mini - 平衡性能与成本,输出价格$1.60/1M tokens,企业大规模部署适合
- GPT-4o - 多模态交互能力强,输出价格$10/1M tokens,适合客户体验提升
License:
CC BY 4.0