模型怎么选｜AI 大模型通识与底层逻辑第 3 讲

我刚开始用AI那会儿，脑子里就一个逻辑：贵的等于好的。所以我直接订了ChatGPT Plus，一个月20美金。用了两个月，花了将近300块。后来有一天，我把同样的任务丢给DeepSeek跑了一下——DeepSeek是免费的。结果出来我愣了一下：这个任务，DeepSeek的结果不比ChatGPT差。

那300块钱，有一部分就这么没了。问题不是ChatGPT不好，是我用错了场景。

主流模型一览

GPT系列

by OpenAI

✓ 擅长：知名度最高，通用能力强，插件生态丰富

△ 注意：不代表所有任务都最适合用它

💰 免费版(GPT-4o mini) / 付费$20/月

Claude系列

by Anthropic

✓ 擅长：写作、分析长文档、处理复杂多步骤任务，中文支持好

△ 注意：不支持实时联网搜索

💰 免费版 / 付费$20/月

DeepSeek

by 中国团队

✓ 擅长：逻辑推理和数学类任务强，免费额度非常大

△ 注意：创意写作相对弱一些

💰 免费额度大，足够日常轻量使用

Gemini

by Google

✓ 擅长：与Google生态深度绑定，能直接读取Gmail、Google文档

△ 注意：脱离Google生态优势不明显

💰 免费版 / 付费$20/月

场景选模型速查表

任务场景	推荐模型	理由
写作、文案、长文分析	Claude	写作能力最强，中文表达自然
逻辑推理、数学、代码	DeepSeek	推理能力强，还免费
日常问答、通用任务	GPT-4o / DeepSeek	两者都够用，免费版先试
Google文档/邮件处理	Gemini	原生集成Google生态
需要实时联网搜索	GPT / Gemini	支持实时搜索

什么时候才需要付费？

两个条件，满足其一再考虑付费：

1.使用频率高到免费额度不够用
2.任务对质量要求极高，免费版达不到

大部分人，免费版就够了。先用免费版摸清楚自己的需求，再决定要不要付费。

各模型真实强弱项

Claude

✓ 对语言感知力最强，能理解文章整体语气、节奏、逻辑结构

✓ 在保持你风格的前提下提建议，越用越懂你

✓ 处理复杂多步骤任务稳定

△ 口语化创意文案偏正式

△ 联网能力不是默认开的

GPT-4o

✓ 创意和对话感最好，文案更活泼口语化

✓ 代码方面稳定，是程序员常用选择

✓ 支持联网搜索

△ 长文档分析、多步骤深度任务稳定性不如Claude

DeepSeek

✓ 推理类任务出色，能展示完整推理过程

✓ 免费额度非常大，日常轻量任务完全不需要花钱

△ 创意写作、风格感知不如Claude

△ 上下文窗口比Claude小

Kimi

✓ 超长文档处理能力强，支持超长上下文

✓ 中文语感好，输出内容自然接地气

△ 普通长度任务没有特别突出优势

△ 复杂推理不如DeepSeek

Gemini

✓ 与Google生态深度绑定，能直接读取Gmail、Google文档、日历

△ 不用Google生态的话优势不明显

三个真实案例

案例一：技术崇拜陷阱

有个程序员朋友，看到GPT-4o出来了，马上升级Plus会员，20美金一个月。用了一个月，我问他感觉怎么样，他说好像也没比免费版强多少。

我看了他的使用记录，全是「帮我写个函数」、「这段代码有什么问题」这种简单任务。这些任务，免费的GPT-4o mini就能搞定，根本不需要GPT-4o。他花的不是工具费，是「我用最新最贵的」的心理安慰费。

案例二：不懂场景匹配

有个做视频的朋友，听说Claude写代码很强，马上买了Pro会员。结果他根本不写代码，他想让AI帮他写视频脚本。

用了一周发现，Claude写脚本的风格太正式了，不如GPT口语化。其实不是Claude不好，是他选错了工具。Claude擅长逻辑推理和深度写作，GPT擅长创意和口语化文案。场景不匹配，再贵的工具也是浪费。

案例三：内容创作者的分层使用法

社群里有个做公众号的朋友，一开始所有任务都用Claude Pro，每个月150元。我帮她梳理了使用场景：

• 写初稿、改稿润色 → Claude（对的）
• 头脑风暴、想选题 → DeepSeek免费版就够（之前错了）
• 查最新数据 → DeepSeek或Perplexity（之前一直用Claude查，浪费了）

调整之后月成本不变，但产出质量提升了——把钱用在了刀刃上。

场景测试法：选主力模型的5步骤

评测榜上跑的题目不是你的题目。你的场景才是最准的测试集。花半小时测一次，能帮你省掉几个月的试错成本。

选定你最常做的任务类型

不要选偶尔才做的任务，要选你每周都在做、对质量最敏感的那类任务。

准备一个真实的测试题目

用你实际工作中的真实案例，不要用随便编的题目。真实案例测出来的结果，才对你有参考价值。

用完全相同的提示词跑3个模型

Claude、GPT-4o、DeepSeek，同样的提示词，同样的任务，各跑一遍。

用你的判断标准打分

不要看谁回答得更长、更全面，要看哪个给的东西你改动量最少、最符合你要的风格和质量。

选出你的主力和备选

主力：最经常用、质量最稳定的那个。备选：特定场景比主力更好用的那个。

一个常见的坑：多账号乱切换

很多新手同时开好几个AI账号，随机切换用。今天用ChatGPT，明天用Claude，后天又去用DeepSeek，感觉自己在货比三家。结果是：每个都用得浅，哪个都没用好。

你在Claude里积累了很多对话历史、建立了它对你风格的理解，切换到GPT就全清空了，又要从头建立。

→ 选一个主力模型，深度用，才是正确的姿势。其他模型可以留着做特定任务的补充，但主力只选一个。

成本优化策略

策略1：分层使用

简单任务用免费模型（DeepSeek、Kimi），复杂任务用付费模型（Claude、GPT-4o）。不要所有任务都用付费模型，那是浪费。

策略2：批量处理

不要一个问题一个问题地问，把相似的任务攒起来一起处理。比如要写5篇文案，一次性让AI写完，比分5次问效率高，也省额度。

策略3：国内模型优先

如果主要做中文内容，国内模型（DeepSeek、Kimi、通义千问）的免费额度更大，中文理解更好。没必要为了「国际品牌」多花钱。

常见问题

国产AI和国外AI差距大吗？

差距在缩小，但还有差距。国外模型整体上限更高，特别是复杂推理和长文档分析。但国内模型免费额度更友好，中文表达更自然，日常使用完全够。不需要盲目追国外，也不需要完全拒绝国内。

Claude和ChatGPT，选哪个当主力？

看主要工作是什么。做内容创作、分析文章、处理复杂逻辑 → Claude。做创意、聊天、口语化文案、代码 → ChatGPT。两个都有免费版，都试一周，看哪个更搭，然后付费。

模型在快速更新，现在学的会不会过时？

会，但没关系。模型会更新，但「场景匹配」这个选模型的逻辑不会变。学的是方法，不是参数。方法有效期比模型更新周期长得多。

同一个任务，不同模型给的答案差很多，怎么判断哪个对？

事实性问题（数据、定义）：哪个给了可验证的来源哪个更可信，不能验证的都要自己查。主观性任务（写作、创意）：没有绝对的「对」，只有「哪个更符合你的需求」，评判标准是你，不是模型。

✅ 今日任务

确定你最常用AI做的三类任务

写下来：写文案、查资料、分析数据、写代码……然后对照速查表，看看这三类任务对应哪些模型。

测一个你最在意的任务场景

选你最常做、对质量最敏感的那个任务，同样的提示词，用Claude和DeepSeek各跑一遍，对比结果。

把你现在的AI成本算一下

你现在每个月在AI工具上花多少钱？对照实际使用频率，判断有没有可以替换成免费版的部分。

模型怎么选

📚 这期你将学到

主流模型一览

GPT系列

Claude系列

DeepSeek

Gemini

场景选模型速查表

什么时候才需要付费？

各模型真实强弱项

Claude

GPT-4o

DeepSeek

Kimi

Gemini

三个真实案例

案例一：技术崇拜陷阱

案例二：不懂场景匹配

案例三：内容创作者的分层使用法

场景测试法：选主力模型的5步骤

一个常见的坑：多账号乱切换

成本优化策略

策略1：分层使用

策略2：批量处理

策略3：国内模型优先

常见问题

✅ 今日任务

💡 本期要点回顾

📅 下一期预告