GPT-4.1：OpenAI于2025年4月发布的旗舰模型，具有100万token上下文窗口，支持多模态输入
GPT-4.1 Mini：GPT-4.1的轻量化版本，性能与价格之间取得良好平衡
GPT-4.1 Nano：GPT-4.1家族中最小最经济的版本，专为低延迟应用设计
GPT-4o：2024年5月发布的多模态模型，擅长处理文本、图像和音频
GPT-4o Mini：GPT-4o的轻量版本，保持大部分功能但价格更低
o1：专注于深度思考与推理的模型，采用"思维链"方法解决复杂问题
o1-Mini：o1的轻量版本，保持部分推理能力但响应速度更快
o3：专为科学、数学和编程任务优化的推理模型
o3-Mini：o3的轻量版本，为STEM领域优化，同时保持200K上下文窗口
o4-Mini：OpenAI最新的轻量级推理模型，性能与速度之间取得平衡

Anthropic系列

Claude 3.5 Sonnet：Anthropic的中型模型，擅长编码和内容生成
Claude 3.5 Haiku：Anthropic的轻量高速模型，适合实时应用
Claude 3.7 Sonnet：Anthropic最新的旗舰模型，支持计算机使用功能

Google系列

Gemini 1.5 Pro：Google的高性能模型，拥有200万token上下文窗口
Gemini 1.5 Flash：更快速、更经济的Gemini版本
Gemini 2.0 Flash：提供新一代功能和增强能力的多模态模型
Gemini 2.5 Pro：Google最新的旗舰思考型模型，推理能力强化
Gemini 2.5 Flash：高性价比模型，具有100万token上下文窗口和思考预算功能

性能对比

基准测试成绩对比

模型	MMLU	MATH	HumanEval	GPQA	MMMU
Claude 3.7 Sonnet	90.2%	96.2%	94.5%	不适用	75%
Claude 3.5 Sonnet	89.3%	78.3%	93.7%	不适用	71.4%
Claude 3.5 Haiku	不适用	69.4%	88.1%	41.6%	不适用
GPT-4.1	90.5%	88%	95%	83%	72%
GPT-4.1 Mini	85.3%	76%	89%	68%	63%
GPT-4.1 Nano	80.1%	不适用	不适用	50.3%	55.4%
GPT-4o	88.7%	83.5%	90.2%	75.8%	69.8%
GPT-4o Mini	82.4%	74.1%	83.6%	58.4%	60.2%
o1	90%	87%	89%	79%	70%
o1-Mini	84%	78%	82%	65%	不适用
o3-Mini	86.9%	97.9%	不适用	79.7%	不适用
Gemini 2.5 Pro	90.0%	84.2%	92.1%	76.3%	74.5%
Gemini 2.0 Flash	83.5%	76.8%	86.2%	65.2%	65.3%
Gemini 1.5 Pro	81.2%	73.5%	84.7%	63.8%	63.4%

MMLU: 大规模多任务语言理解；MATH: 数学问题解决；HumanEval: 代码生成；GPQA: 研究生级物理问题；MMMU: 多模态多任务理解

上下文窗口与响应速度

模型	上下文窗口	最大输出token	推理速度(token/秒)	思考延迟(TTFT)
Claude 3.7 Sonnet	200K	64K	约55	中等
Claude 3.5 Sonnet	200K	8K	约50	0.64秒
Claude 3.5 Haiku	200K	8K	约52	0.36秒
GPT-4.1	1M	32K	约50	高
GPT-4.1 Mini	1M	32K	约60	中等
GPT-4.1 Nano	1M	32K	约75	低
GPT-4o	128K	16K	约65	低
GPT-4o Mini	128K	16K	约75	很低
o1	200K	100K	约30	非常高
o1-Mini	128K	64K	约40	高
o3-Mini	200K	100K	约55	中等
o4-Mini	128K	不适用	约60	中等
Gemini 2.5 Pro	1M	65K	约45	中等
Gemini 2.5 Flash	1M	65K	约55	低
Gemini 2.0 Flash	1M	8K	约60	很低
Gemini 1.5 Pro	2M	8K	约40	中等

价格对比

输入价格（每百万token，美元）

模型	文本输入	图像/视频输入	音频输入
Claude 3.7 Sonnet	$3.00	$3.00	不适用
Claude 3.5 Sonnet	$3.00	$3.00	不适用
Claude 3.5 Haiku	$1.00	$1.00	不适用
GPT-4.1	$2.00	$2.00	不适用
GPT-4.1 Mini	$0.40	$0.40	不适用
GPT-4.1 Nano	$0.10	$0.10	不适用
GPT-4o	$2.50	$2.50	$40.00
GPT-4o Mini	$0.15	$0.15	$10.00
o1	$15.00	$15.00	不适用
o1-Mini	$1.10	不适用	不适用
o3-Mini	$1.10	不适用	不适用
o4-Mini	不适用	不适用	不适用
Gemini 2.5 Pro	$1.25	$1.25	不适用
Gemini 2.5 Flash	$0.15	$0.15	$1.00
Gemini 2.0 Flash	$0.10	$0.10	$0.70
Gemini 1.5 Pro	$1.25	$1.25	不适用

输出价格（每百万token，美元）

模型	文本输出	音频输出
Claude 3.7 Sonnet	$15.00	不适用
Claude 3.5 Sonnet	$15.00	不适用
Claude 3.5 Haiku	$5.00	不适用
GPT-4.1	$8.00	不适用
GPT-4.1 Mini	$1.60	不适用
GPT-4.1 Nano	$0.40	不适用
GPT-4o	$10.00	$80.00
GPT-4o Mini	$0.60	$20.00
o1	$60.00	不适用
o1-Mini	$4.40	不适用
o3-Mini	$4.40	不适用
o4-Mini	不适用	不适用
Gemini 2.5 Pro	$10.00	不适用
Gemini 2.5 Flash	0.60 (非思考)/3.50 (思考)	不适用
Gemini 2.0 Flash	$0.40	不适用
Gemini 1.5 Pro	$5.00	不适用

各模型优缺点分析

OpenAI系列

GPT-4.1系列

优点：
- 具有1M token的超大上下文窗口
- 性能全面，在各项基准测试中表现出色
- 知识更新到2024年6月
- 支持多模态输入
缺点：
- 高端版本价格昂贵
- 部分专业领域知识深度不足

GPT-4o系列

优点：
- 多模态能力强，包括文本、图像、音频等
- 交互速度快，延迟低
- 支持音频输入输出
- GPT-4o Mini提供极高性价比
缺点：
- 上下文窗口（128K）小于最新的GPT-4.1和Claude模型
- 在某些复杂推理任务上不如专用推理模型

o系列

优点：
- o1系列具有出色的深度思考和复杂推理能力
- o3系列在科学、数学和编程任务上表现卓越
- 大多具有200K的上下文窗口
缺点：
- o1系列响应速度较慢，需要更长的思考时间
- 价格较高，尤其是o1和o1-Pro
- 不如GPT-4o系列的多模态能力强

Anthropic系列

优点：
- Claude 3.7 Sonnet具有计算机使用功能
- 在代码生成方面表现出色（HumanEval成绩高）
- 安全性和可控性良好
- Claude 3.5 Haiku速度快且价格合理
缺点：
- 多模态能力不如GPT-4o系列全面
- 价格相对较高，尤其是输出token
- 对某些复杂科学推理任务的支持有限

Google系列

优点：
- Gemini 2.5系列思考能力强化
- Gemini 1.5 Pro拥有行业最大的2M token上下文窗口
- Gemini 2.5 Flash提供思考预算功能，可按需平衡性能与速度
- 整体价格比竞争对手更经济实惠
缺点：
- 某些基准测试中表现略逊于OpenAI和Anthropic模型
- 调用API的稳定性有待提高
- 多模态处理能力不如GPT-4o系列完善

使用场景推荐

开发者和编程

最佳选择：
- Claude 3.7 Sonnet (HumanEval 94.5%，输出价格$15/1M tokens)
- Claude 3.5 Sonnet (HumanEval 93.7%，输出价格$15/1M tokens)
- GPT-4.1 (HumanEval 95%，输出价格$8/1M tokens)
经济选择：
- GPT-4o Mini (HumanEval 83.6%，输出价格仅$0.60/1M tokens)
- Claude 3.5 Haiku (HumanEval 88.1%，输出价格$5/1M tokens)
- GPT-4.1 Nano (输出价格仅$0.40/1M tokens，适合简单编程任务)

内容创作和写作

最佳选择：
- Claude 3.7 Sonnet (MMLU 90.2%，创意写作能力强，输出价格$15/1M tokens)
- GPT-4.1 (MMLU 90.5%，内容全面性最佳，输出价格$8/1M tokens)
- o1 (深度思考生成高质量内容，但输出价格高达$60/1M tokens)
经济选择：
- GPT-4o Mini (输出价格仅$0.60/1M tokens，多模态支持强)
- Gemini 2.0 Flash (输出价格仅$0.40/1M tokens，适合大量内容生成)

数据分析和科学研究

最佳选择：
- o3 (STEM专用模型，科学推理能力卓越，价格未公开)
- GPT-4.1 (GPQA 83%，全面科学能力，输出价格$8/1M tokens)
经济选择：
- o3-Mini (MATH 97.9%，STEM优化，输出价格$4.40/1M tokens)
- Gemini 2.5 Pro (科学推理能力强，输出价格$10/1M tokens)

聊天机器人和客服应用

最佳选择：
- GPT-4o (多模态支持全面，响应速度快，但输出价格$10/1M tokens)
- Claude 3.5 Haiku (0.36秒思考延迟，适合实时对话，输出价格$5/1M tokens)
- Gemini 2.0 Flash (高速响应，输出价格仅$0.40/1M tokens)
经济选择：
- GPT-4o Mini (延迟低，多模态能力强，输出价格仅$0.60/1M tokens)
- GPT-4.1 Nano (1M上下文窗口，输出价格仅$0.40/1M tokens)
- Gemini 2.5 Flash (思考预算功能，基础输出价格仅$0.60/1M tokens)

多模态应用

最佳选择：
- GPT-4o (完整多模态支持，语音输出能力，MMMU 69.8%，输出价格$10/1M tokens)
- GPT-4.1 (强大多模态支持，MMMU 72%，输出价格$8/1M tokens)
- Gemini 2.5 Pro (MMMU 74.5%，最优多模态评分，输出价格$10/1M tokens)
经济选择：
- GPT-4o Mini (完整多模态支持，输出价格仅$0.60/1M tokens)
- Gemini 2.0 Flash (多模态支持，最低输入价格$0.10/1M tokens)

处理大量文档和长上下文

最佳选择：
- Gemini 1.5 Pro (2M上下文窗口，业界最大，输出价格$5/1M tokens)
- GPT-4.1 (1M上下文窗口，顶级理解能力，输出价格$8/1M tokens)
- Gemini 2.5 Pro (1M上下文窗口，输出价格$10/1M tokens)
经济选择：
- GPT-4.1 Nano (1M上下文窗口，最低输出价格仅$0.40/1M tokens)

性价比排行榜

GPT-4.1 Nano - 最高性价比，参数量100-300B，1M上下文窗口，输入价格0.10/1M tokens，输出价格0.40/1M tokens，适合大规模部署
GPT-4o Mini - 参数量500-800B，多模态能力强，输出价格$0.60/1M tokens，语音输入输出支持，性价比卓越
Gemini 2.5 Flash - 参数量500-800B，1M上下文窗口，思考预算功能（基础0.60/思考3.50），可灵活平衡成本与性能
Claude 3.5 Haiku - 参数量300-500B，高速度(0.36秒思考延迟)，输出价格$5/1M tokens，适合需要速度的场景
Gemini 2.0 Flash - 参数量300-500B，1M上下文窗口，输出价格$0.40/1M tokens，预算极其有限时的理想选择
GPT-4.1 Mini - 参数量500-800B，全功能支持，1M上下文窗口，输出价格$1.60/1M tokens，性能与价格平衡
o3-Mini - 参数量300-500B，STEM领域专精，MATH 97.9%，输出价格$4.40/1M tokens，科学应用性价比高
Gemini 2.5 Pro - 参数量1000-2000B，顶级功能但输出价格$10/1M tokens，比同级竞争对手便宜
o1-Mini - 参数量300-500B，强大推理能力，输出价格$4.40/1M tokens，比o1便宜约93%
GPT-4o - 参数量1000-2000B，全面多模态能力，输出价格$10/1M tokens，对多模态应用的投资回报率高

综合实力排行榜

GPT-4.1 - 参数量1000-2000B，全面顶级性能(MMLU 90.5%)，1M上下文窗口，输出价格8/1M tokens，输入价格2/1M tokens
Claude 3.7 Sonnet - 参数量1000-2000B，顶级代码能力(HumanEval 94.5%)，支持计算机使用功能，输出价格$15/1M tokens
o1 - 参数量1000-2000B，深度思考能力(MMLU 90%)，输出价格$60/1M tokens，适合复杂决策支持
Claude 3.5 Sonnet - 参数量800-1000B，编码能力出色(HumanEval 93.7%)，输出价格$15/1M tokens
GPT-4o - 参数量1000-2000B，多模态交互全面，输出价格10/1M tokens，支持语音输入(40/1M)和输出($80/1M)
Gemini 2.5 Pro - 参数量1000-2000B，强大思考能力，1M上下文窗口，输出价格$10/1M tokens，比类似性能模型更经济
o3 - 参数量未公开，STEM领域专用，价格未公开，科学任务最佳选择
o3-Mini - 参数量300-500B，STEM领域优化(MATH 97.9%)，输出价格$4.40/1M tokens
Gemini 1.5 Pro - 参数量1000-2000B，超大2M上下文窗口，输出价格$5/1M tokens，长文档处理最具成本效益

价格与参数汇总

模型	参数规模	文本输入($/1M)	文本输出($/1M)	图像/视频输入($/1M)	音频输入($/1M)	音频输出($/1M)	上下文窗口
GPT-4.1	1000-2000B	$2.00	$8.00	$2.00	不适用	不适用	1M
GPT-4.1 Mini	500-800B	$0.40	$1.60	$0.40	不适用	不适用	1M
GPT-4.1 Nano	100-300B	$0.10	$0.40	$0.10	不适用	不适用	1M
GPT-4o	1000-2000B	$2.50	$10.00	$2.50	$40.00	$80.00	128K
GPT-4o Mini	500-800B	$0.15	$0.60	$0.15	$10.00	$20.00	128K
o1	1000-2000B	$15.00	$60.00	$15.00	不适用	不适用	200K
o1-Mini	300-500B	$1.10	$4.40	不适用	不适用	不适用	128
o3-Mini	300-500B	$1.10	$4.40	不适用	不适用	不适用	200K
Claude 3.7 Sonnet	1000-2000B	$3.00	$15.00	$3.00	不适用	不适用	200K
Claude 3.5 Sonnet	800-1000B	$3.00	$15.00	$3.00	不适用	不适用	200K
Claude 3.5 Haiku	300-500B	$1.00	$5.00	$1.00	不适用	不适用	200K
Gemini 2.5 Pro	1000-2000B	$1.25	$10.00	$1.25	不适用	不适用	1M
Gemini 2.5 Flash	500-800B	$0.15	0.60-3.50	$0.15	$1.00	不适用	1M
Gemini 2.0 Flash	300-500B	$0.10	$0.40	$0.10	$0.70	不适用	1M
Gemini 1.5 Pro	1000-2000B	$1.25	$5.00	$1.25	不适用	不适用	2M

场景应用排行榜

1. 成本敏感型应用

GPT-4.1 Nano - 参数量100-300B，输入0.10/输出0.40/1M tokens，拥有1M上下文窗口
Gemini 2.0 Flash - 参数量300-500B，输入0.10/输出0.40/1M tokens，多模态支持
GPT-4o Mini - 参数量500-800B，输入0.15/输出0.60/1M tokens，全面多模态支持
Gemini 2.5 Flash - 参数量500-800B，基础输出0.60/思考输出3.50/1M tokens，可按需调整推理深度
Claude 3.5 Haiku - 参数量300-500B，输入1.00/输出5.00/1M tokens，速度与成本平衡性好

2. 实时应用与聊天机器人

Claude 3.5 Haiku - 思考延迟仅0.36秒，速度52 tokens/秒，输出价格$5/1M tokens
GPT-4o Mini - 速度约75 tokens/秒，思考延迟很低，输出价格$0.60/1M tokens
Gemini 2.0 Flash - 速度约60 tokens/秒，输出价格$0.40/1M tokens，成本效益最高
GPT-4.1 Nano - 速度约75 tokens/秒，输出价格$0.40/1M tokens，上下文窗口大
GPT-4o - 延迟低，速度约65 tokens/秒，多模态实时交互能力强，但输出价格$10/1M tokens

3. 编程与开发辅助

Claude 3.7 Sonnet - HumanEval 94.5%，最佳代码生成能力，但输出价格$15/1M tokens
Claude 3.5 Sonnet - HumanEval 93.7%，输出价格$15/1M tokens，专业编程能力强
GPT-4.1 - HumanEval 95%，输出价格$8/1M tokens，性价比较Claude系列高
Gemini 2.5 Pro - HumanEval 92.1%，输出价格$10/1M tokens，性价比适中
o3-Mini - 专为STEM优化，输出价格$4.40/1M tokens，科学编程性价比高

4. 科学与学术研究

o3-Mini - MATH 97.9%，GPQA 79.7%，专为STEM优化，输出价格$4.40/1M tokens，性价比最高
GPT-4.1 - GPQA 83%，全面顶级性能，输出价格$8/1M tokens，适中预算选择
Claude 3.7 Sonnet - MATH 96.2%，数学能力出色，输出价格$15/1M tokens
o1 - 参数量1000-2000B，复杂问题解决能力强，但输出价格$60/1M tokens

5. 处理长文档与大数据

Gemini 1.5 Pro - 2M上下文窗口，输出价格$5/1M tokens，最佳长文档经济选择
GPT-4.1 - 1M上下文窗口，顶级理解能力，输出价格$8/1M tokens
GPT-4.1 Nano - 1M上下文窗口，输出价格仅$0.40/1M tokens，处理大量文档最经济选择
Gemini 2.5 Pro - 1M上下文窗口，输出价格$10/1M tokens，高性能大数据处理
o1 - 200K上下文窗口，深度理解能力强，但输出价格高达$60/1M tokens

6. 多模态交互应用

GPT-4o - 最全面多模态支持，文本输出10/1M，音频输出80/1M，图像输入$2.50/1M
GPT-4o Mini - 全面多模态支持，但价格更低：文本输出0.60/1M，音频输出20/1M
GPT-4.1 - 多模态支持与顶级性能结合，图像输入2.00/1M，文本输出8.00/1M
Gemini 2.5 Flash - 经济型多模态支持，音频输入仅1.00/1M，文本输出基础0.60/1M
Gemini 2.0 Flash - 最低价格多模态支持，图像输入0.10/1M，音频输入0.70/1M

7. 企业级应用和产品集成

GPT-4.1 - 全面顶级性能，1M上下文窗口，输出价格$8/1M tokens，企业级可靠性
Claude 3.7 Sonnet - 计算机使用功能，安全可控，输出价格$15/1M tokens，适合高安全需求
Gemini 2.5 Pro - 1M上下文窗口，输出价格$10/1M tokens，比同类产品经济
GPT-4.1 Mini - 平衡性能与成本，输出价格$1.60/1M tokens，企业大规模部署适合
GPT-4o - 多模态交互能力强，输出价格$10/1M tokens，适合客户体验提升

JetBrainsAI 模型对比 20250425

目录

主要模型概述

OpenAI系列

Anthropic系列

Google系列

性能对比

基准测试成绩对比

上下文窗口与响应速度

价格对比

输入价格（每百万token，美元）

输出价格（每百万token，美元）

各模型优缺点分析

OpenAI系列

GPT-4.1系列

GPT-4o系列

o系列

Anthropic系列

Google系列

使用场景推荐

开发者和编程

内容创作和写作

数据分析和科学研究

聊天机器人和客服应用

多模态应用

处理大量文档和长上下文

性价比排行榜

综合实力排行榜

价格与参数汇总

场景应用排行榜

1. 成本敏感型应用

2. 实时应用与聊天机器人

3. 编程与开发辅助

4. 科学与学术研究

5. 处理长文档与大数据

6. 多模态交互应用

7. 企业级应用和产品集成

Comment