五、简历写作：从表达经历到突出竞争力适合：中级Prompt工程师阅读：17 分钟更新：2026-06-21

中级Prompt工程师简历怎么写——从「我写过几百条Prompt、用过十几种Prompt技术」到「我设计了一套多模型Prompt路由系统让三个模型的综合准确率从78%提到了94%、我建了一套跨模型评估体系发现了GPT-4在中文情感分析上不如Claude的隐藏偏差」

中级Prompt工程师的简历最怕写成「升级版初级Prompt工程师」——Prompt写得更多了、技术用得更多了、对接的系统更多了，但简历读起来跟两年前的自己没有本质区别。面试官想看到的不是你「写了多少条Prompt、用了多少种技术」这些数字的同比增长——而是你有没有从「写Prompt的人」进化到「设计Prompt系统架构、建立效果评估体系、制定Few-shot策略、主导多模型适配方案」的人。本文从Prompt系统设计、效果评估体系、Few-shot策略工程、多模型适配、自我评价五个维度拆解中级Prompt工程师简历的写作方法，每个维度都有贴合真实中级Prompt工程场景（Prompt编排与路由系统、跨模型评估框架、动态Few-shot策略、GPT-4/Claude/Gemini行为差异适配）的口语化数字驱动改前改后案例。核心逻辑一句话：中级Prompt工程师的价值不在「写了更多Prompt」，而在「你设计的Prompt系统让三个模型协同工作把准确率推到了单模型永远够不到的高度、你建的评估体系发现了藏在模型切换背后的隐性能力退化、你制定的Few-shot策略让团队少踩了几十个坑」.

本篇重点

•中级Prompt工程师的核心分水岭不是你写了多少条Prompt、掌握了多少种Prompt技术——而是你有没有从「写一条Prompt解决一个问题」进化到「设计一套Prompt系统解决一类问题」。面试官想看的是：你有没有设计过一个包含多条Prompt协作的系统——不只是把多个Prompt串在一起，而是设计了Prompt之间的路由逻辑、降级策略、冲突仲裁机制，并且这套系统在真实业务中跑出了单条Prompt永远达不到的效果
•Prompt系统设计不要写成「负责XX场景的Prompt开发」——写你设计过的一套最复杂的Prompt协作系统：初始业务需求是什么样的（单条Prompt搞不定——为什么搞不定？是场景太复杂需要拆解？是不同子任务需要不同的Prompt风格？），你做了什么架构设计（编排模式？路由规则？子Prompt之间的信息传递协议？），系统里最关键的一个设计决策是什么（什么时候该让模型A回答、什么时候该切到模型B？），上线后的效果对比（单Prompt vs 你的Prompt系统的全量指标对比）
•效果评估体系到了中级不是「我建了几个指标」——而是你有没有建过一套跨模型、跨版本的评估框架。面试官想知道：你换了一个模型之后，怎么判断新模型的Prompt质量？你有没有发现过「准确率没变但某个子类别的召回率暴跌——因为新模型对这个类别的语义理解跟旧模型不一样」这种跨模型的隐性退化？你有没有因为评估体系的报警而拦截过一次模型切换或Prompt上线？
•Few-shot策略不只是「我会选示例」——是你有没有从「每次手动挑示例」进化到「设计了一套示例选取的方法论或工具」。你有没有面对过「同一个Prompt要给三个不同行业的客户用——每个行业的Few-shot示例应该不一样」的场景？你有没有设计过动态示例检索——根据用户输入自动匹配最相关的示例而不是写死一组？你有没有总结出一套团队的Few-shot选例标准让新人不再'随便找几个例子扔进去'？
•多模型适配是中级Prompt工程师最有辨识度的板块——面试官想看的是：你有没有同时维护过同一套业务逻辑在GPT-4、Claude、Gemini三个模型上的Prompt？你有没有发现过「同一条Prompt在GPT-4上输出JSON完美、在Claude上前面老加一句'好的，根据您的需求……'、在Gemini上偶尔把字段名的下划线写成驼峰」这种跨模型行为差异？你做了什么适配——是给每个模型写一套Prompt？还是设计了一套模型感知的自适应Prompt模板？
•中级Prompt工程师的自我评价不要写'精通Prompt Engineering、熟悉Few-shot/CoT/ReAct、掌握LangChain/Dify'——这是初级写法。要写你设计的Prompt系统让综合准确率从78%提到94%、你建的跨模型评估体系发现并拦截过一次模型切换导致的隐性退化、你设计的动态Few-shot策略让一个Prompt模板适配了三个行业、你在三个模型上维护的同一套业务Prompt在行为一致性上做到了97%以上

带着这些问题去复盘

•你的简历里有没有一段经历——不只是你写了一条Prompt，而是你设计了一套多条Prompt协作的系统？这套系统的架构是你自己设计的吗？系统里最关键的编排逻辑是什么（什么时候走Prompt A、什么时候走Prompt B、什么时候需要AB结果互验）？
•你的效果评估部分——有没有一套跨模型的评估框架？你有没有用这套框架对比过至少两个模型在同一套Prompt上的表现差异？你有没有发现过某个模型在某个子场景下存在隐性的能力短板——而这个短板在整体准确率上看不出来？
•你的Few-shot部分——有没有从「手动挑示例」到「系统化选例」的进化？你有没有设计过动态示例检索？你有没有为团队沉淀过Few-shot选例的标准或工具？
•你的多模型适配经历——有没有一段是你把一个已经在GPT-4上跑得很稳的Prompt迁移到Claude上、然后发现行为不一致、然后你做了一系列适配让它在新模型上也稳了？过程中你发现了两个模型在什么维度上行为差异最大？
•面试官读完你的简历，能不能说清楚这个Prompt工程师'最擅长解决什么级别的问题'——是擅长单条Prompt的极致优化？还是擅长设计多Prompt协作系统？还是擅长让一套Prompt在多个模型上稳定运行？如果你的简历只证明了'他会写Prompt'——那你写的是初级简历。

前段时间一个在 AI 应用创业公司做了三年半 Prompt 工程师的朋友找我。他刚升了 Senior Prompt Engineer——title 升了，管的范围从一条产品线的 Prompt 扩展到全公司三个产品线的 Prompt 架构。他说他想跳槽去一家大厂的 AI 平台部门——「现在的公司 Prompt 工程的天花板我摸到了，我想去一个需要设计 Prompt 系统而不是写 Prompt 的地方」。投了两个月，面了四家——两家挂在二面、一家在终面之后被养鱼、还有一家直接说「你的经验更像高级初级岗，不是我们找的中级架构岗」。

他把简历发给我。核心工作经历第一条长这样：

负责公司三个产品线的 Prompt 设计与优化。独立设计 AI 客服、AI 销售助手、AI 数据分析三条产品线的 System Prompt 和任务 Prompt 体系。运用 Few-shot、Chain-of-Thought、ReAct、Self-Consistency 等提示工程技术提升模型输出质量。建立 Prompt 效果评估机制，通过人工标注+自动指标监控 Prompt 质量。完成 GPT-4、Claude、Gemini 等多个主流模型的 Prompt 适配与效果对比。编写 Prompt 设计规范和最佳实践文档。Prompt 整体准确率提升至 90% 以上。

这段话放在任何一个做了三年 Prompt 工程师的人身上都不违和。三条产品线、五种 Prompt 技术、三个模型——关键词覆盖率堪称 Prompt 工程师简历模板大全。但面试官看完，脑子里只有一个问题：这个人的简历，跟两年前他还是初级 Prompt 工程师的时候，除了产品线变多了、模型变多了、技术名词变多了——本质上有什么不同？

他做初级的时候写「负责 AI 客服 Prompt 设计、运用 Few-shot/CoT 技术、准确率 85% 以上」。现在做 Senior 了写「负责三条产品线 Prompt 体系、运用 Few-shot/CoT/ReAct/Self-Consistency、准确率 90% 以上」。这不叫职业成长——这叫「同一份工作内容在更多的产品线上复制粘贴」。

中级 Prompt 工程师简历最致命的坑：你把一份需要 Prompt 系统架构设计能力、跨模型评估体系建设能力、Few-shot 策略工程化能力、多模型行为适配能力的综合岗位，写成了一份「初级 Prompt 工程师 Pro Max 版」的流水账。

先搞清楚：中级 Prompt 工程师的简历要证明什么

在拆具体怎么写之前，先对齐面试官的预期。中级 Prompt 工程师——工作经验通常在 2-5 年——面试官默认你已经能独立搞定单条 Prompt 的编写、诊断、迭代和评估（这些是你做初级时已经证明过的）。面试官真正在你的简历里找的是以下四样东西：

第一，你有没有设计过「Prompt 系统」而不只是「写过 Prompt」。 初级 Prompt 工程师的工作是「这个场景需要一个意图识别 Prompt——我写一个」。中级 Prompt 工程师的系统设计是：你有没有面对过一个「单条 Prompt 搞不定」的复杂场景——比如用户的一句话需要同时做意图识别、情绪分析、关键信息抽取、合规检查——然后你不是把它塞进一个超长的 System Prompt 里，而是设计了一套多 Prompt 协作架构：拆成几个子 Prompt、定义它们之间的调用顺序（串行还是并行？）、设计了路由规则（什么条件下用哪个 Prompt？什么条件下需要多个 Prompt 的结果交叉验证？）、定义了子 Prompt 之间的信息传递协议（上游输出什么格式给下游？下游发现上游可能判错了怎么办？）。面试官想看的是：这套 Prompt 系统的效果是不是单条 Prompt 永远达不到的？

第二，你有没有建过「跨模型的评估体系」而不只是「建了几个评估指标」。 初级 Prompt 工程师评估 Prompt 是「在 GPT-4 上跑 200 条测试集，看准确率」。中级 Prompt 工程师的评估体系是：当你需要把一个在 GPT-4 上跑得很稳的 Prompt 迁移到 Claude 上时——你怎么判断迁移后的 Prompt 质量？你有没有发现过「整体准确率从 92% 到 91%——看起来差不多，但拆开看某个子类别的召回率从 87% 跌到了 61%，因为 Claude 对这个类别的语义理解方式跟 GPT-4 不一样」这种跨模型的隐性退化？你有没有因为一套跨模型评估体系而成功拦截过一次「看起来没问题、实际上在某个模型上已经悄悄崩了」的 Prompt 上线？

第三，你有没有把 Few-shot 从「手艺」做成「工程」？ 初级 Prompt 工程师用 Few-shot 是「我挑了 5 个例子放进去」。中级 Prompt 工程师的 Few-shot 策略是：你有没有面对过「同一个 Prompt 模板要给三个不同行业的客户用——每个行业的示例应该不一样」的场景？你是给每个行业手动挑了一组示例——还是设计了一套「根据输入自动检索最相关示例」的动态 Few-shot 机制？你有没有为团队写过一份 Few-shot 选例标准——不只是「选有代表性的例子」这种正确的废话，而是「选例四原则：覆盖边界case优先于覆盖典型case、示例之间不能有互相矛盾的推理模式、示例的格式必须跟目标输出格式完全一致、示例数量从 3 个开始往上加、每加一个做一次 A/B 测试」？

第四，你有没有做过「多模型适配」而不只是「对比过几个模型」？ 这是中级 Prompt 工程师最有辨识度的能力。面试官想看的是：你有没有同时维护过同一套业务逻辑在 GPT-4、Claude、Gemini 三个模型上的 Prompt？你有没有踩过「同一条 Prompt——GPT-4 输出纯 JSON 没问题、Claude 前面老加一句'好的，根据您的需求……'、Gemini 偶尔把字段名的下划线写成驼峰」这种坑？你做了什么适配策略——是给每个模型各写一套独立 Prompt（维护三套——噩梦），还是设计了一套「模型感知的自适应 Prompt 模板」（一个模板+模型行为配置文件）？你有没有量过适配后的跨模型行为一致性？

带着这四个问题，下面从四个维度一个一个拆。

一、Prompt 系统设计：别写「负责 XX 场景 Prompt 开发」，写你设计的那套多 Prompt 协作系统——以及为什么单条 Prompt 搞不定那个场景

Prompt 系统设计是中级 Prompt 工程师简历里最能跟初级拉开差距的板块。初级开发可以写「负责客服意图识别 Prompt 设计、运用 CoT 技术、准确率 92%」——十个初级九个这么写。但面试官想看的是：你有没有面对过一个「单条 Prompt 怎么改准确率都突破不了 85%」的顽固场景——然后你没有继续在单条 Prompt 上加指令，而是重新设计了整个方案架构？

改前案例

负责 AI 销售助手产品线的 Prompt 设计与优化。设计销售对话 System Prompt 和 Follow-up 建议生成 Prompt。运用 CoT 让模型先分析客户意向再生成跟进建议。通过 Few-shot 示例规范输出格式和话术风格。持续优化 Prompt，模型生成的跟进建议采纳率从 61% 提升至 78%。与后端配合完成 Prompt 与 CRM 系统的数据对接。

面试官看完：你写了两条 Prompt、用了 CoT 和 Few-shot、采纳率从 61% 提到了 78%。但面试官不知道——61% 到 78% 的瓶颈卡在哪里？78% 之后为什么没继续往上提——是因为单条 Prompt 的天花板到了吗？你试过别的架构吗——还是从头到尾就是一条 Prompt 在硬撑？

改后案例

我在上一家公司真正从「写 Prompt 的人」变成「设计 Prompt 系统的人」，是 2024 年初 AI 销售助手产品的第三次大改版。此前的方案——是一条 System Prompt 包揽所有事：定义销售角色、分析客户意向、生成跟进建议。这条 Prompt 我从第一版一直优化到第七版——采纳率从最初 47% 一路提到了 78%。但 78% 到 78%——改了三个月，一动不动。

我拉出了所有不采纳的 case（销售手动修改了 AI 生成的建议——为什么改？）做了一次根因分类。结果发现 78% 的瓶颈不是 Prompt 写得不够好——是这个场景的复杂度已经超出了单条 Prompt 能承载的上限。 销售跟进这件事其实包含了三个认知层级：第一层——理解客户在说什么（客户说「价格有点贵」是真的觉得贵还是在委婉拒绝？）；第二层——判断客户的购买阶段（是刚开始了解、已经在比价、还是马上要决定了？）；第三层——生成具体的跟进动作（发什么话术、建议什么时间联系、要不要拉上技术支持一起）。一条 Prompt 同时做这三件事——模型在第二层和第三层之间频繁出错：把「还在了解阶段」的客户当成了「马上要决定」去逼单——销售收到建议的第一反应就是「这 AI 不懂客户」。

我设计了一套「三阶段级联 Prompt 系统」——把一条 Prompt 拆成三条，每条只干一件事：

第一条——客户语义理解 Prompt（Stage 1）： 只做一件事——读对话，输出结构化的客户信号分析。不是笼统的「客户意向积极/消极」，而是拆成五个信号维度：①显性需求（客户直接说了要什么）；②隐性顾虑（客户说「再看看」「不着急」——是真的不着急还是对价格/产品有没说出口的顾虑？）；③决策角色（对话人是决策者、影响者还是信息收集者？）；④竞品提及（提了哪个竞品、在对比什么维度）；⑤时间紧迫度（有没有明确的采购时间窗口）。输出格式：一个 JSON——五个字段，每个字段一个分类标签+置信度+原文依据。

第二条——购买阶段判断 Prompt（Stage 2）： 接收 Stage 1 的信号分析 JSON，只做一件事——判断客户处于哪个购买阶段（意识阶段/考虑阶段/决策阶段），并输出「当前阶段+阶段依据+下一阶段推动策略」。这条 Prompt 的核心设计是：我把判断逻辑从「让模型自己推理」改成了「给模型一套阶段定义规则」。每个阶段我写了三条硬规则——比如决策阶段的规则是：「①客户在过去三轮对话中至少两次主动询问了价格/合同/交付时间；②客户提到了具体的使用场景而非泛泛了解；③客户的顾虑已经从'要不要买'变成了'买哪个版本/怎么付款'。」有了这套硬规则之后，模型从「把还在问基础功能的客户当成马上要签单」的错误率从约 22% 降到了约 6%。

第三条——跟进建议生成 Prompt（Stage 3）： 接收 Stage 1 的信号分析 + Stage 2 的阶段判断，生成最终的跟进建议。建议包含四个部分：①推荐话术（根据客户阶段和顾虑动态生成——意识阶段客户侧重教育、决策阶段客户侧重消除最后顾虑）；②建议跟进时间（根据紧急度信号）；③建议协作角色（需不需要拉技术支持——依据 Stage 1 里客户是否问了技术问题）；④风险提示（如果客户提了竞品——附上竞品对比要点）。

三条 Prompt 之间是一个严格的线性流水线——Stage 1 的输出是 Stage 2 的输入，Stage 1+2 的输出一起喂给 Stage 3。但我在架构里加了一个关键设计：Stage 1 的置信度低于 0.7 ——不往下传——直接触发「人工介入」标记。 因为如果连客户在说什么都判断不准，后面的判断和建议大概率是错的——与其生成一个看似合理的错误建议让销售被误导，不如直接告诉销售「这个对话 AI 没把握，建议你自己看」。

上线后的效果对比： 旧方案（单条 Prompt）——采纳率 78%，但「被销售评价为'不懂客户'的 case」占比约 19%。新方案（三阶段级联 Prompt 系统）——采纳率提到 89%，「不懂客户」的 case 占比降到了 6%。最关键的一个数据：销售团队主动使用 AI 建议的比例从日均 62% 提升到了 87%——不是系统推得更频繁了，是销售觉得「AI 这次真的理解客户了」愿意主动点开看。

但这个架构真正让我骄傲的不是效果提升——是两个月后的一次突发场景验证了架构的韧性。 公司签了一个大客户——是一家教育 SaaS 公司。他们的销售场景跟之前服务的电商、SaaS、金融客户完全不同——客户决策周期长、决策链涉及校长/教研组长/一线老师三个角色、对话里经常出现教育行业的专业术语（「大单元教学」「学科素养」「课标对齐」）。如果是旧方案的单条 Prompt——我得重写整条 System Prompt。但三阶段架构下——我只需要改 Stage 1 的五个信号维度定义（加了「教育决策链角色识别」）、改 Stage 2 的阶段定义规则（教育行业的购买阶段时间窗口更长——从「三轮对话内」调成「七轮对话内」）——Stage 3 几乎不用改，因为它只消费上游的结构化 JSON，不直接读对话。新客户上线只用了两天——对比旧方案预估至少一周的适配周期。

面试官读到这里，脑子里不是一个「优化了 Prompt、采纳率 89%」的 Prompt 工程师——而是一个**「发现单条 Prompt 在 78% 天花板卡了三个月之后，没有继续在单条 Prompt 上加指令——而是停下来分析了 200 多条不采纳 case、发现根因是场景复杂度超出了单 Prompt 承载上限、然后设计了一套三阶段级联系统把语义理解/阶段判断/建议生成拆成三条独立 Prompt、Stage 之间定义结构化 JSON 传递协议、置信度低于 0.7 自动触发人工兜底、新行业客户两天适配完成——而旧方案至少一周」的 Prompt 系统架构师。**

Prompt 系统设计的写作公式

你面对了什么「单条 Prompt 搞不定」的场景（为什么搞不定——复杂度在哪个维度？场景拆分？多层推理？多目标冲突？）→ 你设计了什么系统架构（几条 Prompt、各自职责、协作模式——串行/并行/路由/投票）→ Prompt 之间的信息传递协议（上游输出什么格式、下游怎么消费、如果上游不确定怎么办）→ 系统上线后的效果 vs 单条 Prompt 旧方案（不只是准确率——系统在什么极端场景下表现出了单 Prompt 没有的韧性）。

二、效果评估体系：别写「建立 Prompt 评估机制」，写你建的跨模型评估框架——以及它发现过的那个「不拆开看就会被整体准确率掩盖」的隐性退化

到了中级，效果评估不是「我建了几个指标、搞了个测试集」。而是——你的评估体系能不能跨模型工作？能不能在模型切换的时候报警？有没有真正影响过上线决策？

改前案例

建立 Prompt 效果评估体系。定义准确率、召回率、F1-score、格式合规率等核心指标。搭建 500 条测试集的自动化评估流水线。定期运行评估并输出效果报告。多模型对比 GPT-4、Claude、Gemini 在核心场景上的表现。评估结果指导 Prompt 迭代方向。

面试官看完：你建了评估体系、有 500 条测试集、对比了三个模型。但面试官不知道——多模型对比之后你发现了什么？你的评估体系有没有发现过「不拆开看指标就会被漏掉」的问题？有没有一次评估直接改变了你选模型或者改架构的决策？

改后案例

我建的评估体系后来被全公司推广——不是因为指标多、测试集大，是因为它在一次模型切换中成功拦截了一个「整体准确率看起来没变、但实际上在最重要的用户场景上已经悄悄崩了」的 Prompt 版本。那个发现让 CTO 在全员会上说了一句：「以后任何模型切换——先跑这套评估，报告不通过不上线。」

事情是这样的。2024 年 Q3，公司决定把 AI 客服产品线的默认模型从 GPT-4 换成 Claude 3.5——原因很直接：Claude 3.5 的 API 价格比 GPT-4 低了约 40%，而且在一些公开 benchmark 上表现不相上下。产品 VP 的原话是：「效果别明显变差就行——能省 40% 的成本，值。」当时的评估方式是——把同一套 Prompt 在两个模型上各跑 500 条测试集，看整体准确率。GPT-4 的准确率是 92.1%，Claude 3.5 是 91.7%——只差了 0.4 个百分点。「几乎一样。」大家都觉得可以切了。

但我在周会上说：「等一下——我看的不是整体准确率。我建评估体系的时候给 12 个意图类别都分别算了召回率和精确率。Claude 3.5 在 10 个类别上跟 GPT-4 不相上下——但在 '投诉' 和 '紧急问题' 这两个类别上，召回率分别掉了 11 个百分点和 8 个百分点。」

这个发现让所有人沉默了。AI 客服场景里，「投诉」和「紧急问题」是占比只有约 8% 但影响 80% 用户情绪的少数关键场景。如果模型把一个用户说「我打了三次电话都没解决，你们到底管不管」的紧急投诉判成了普通咨询——用户的体验是从「已经很生气了」变成「AI 也在糊弄我」——然后直接转人工投诉，客服成本翻倍。

我花了半天排查根因。发现 Claude 3.5 在理解中文「带有强烈情绪但不直接说投诉关键词」的句子上存在系统性的保守倾向——用户说「你们这个服务我真是服了」——GPT-4 能理解这是讽刺句式并正确判为投诉，Claude 3.5 倾向于判成「咨询」或「反馈」。因为 Claude 的安全对齐策略让它在面对带有负面情绪的中文表达时更倾向于「降级处理」——避免激化冲突。这是一个隐藏得很深的跨模型行为差异——不在少数关键类别上拆开看召回率，光看整体准确率 91.7% vs 92.1%，根本发现不了。

我做了两个动作：
第一——设计了「模型感知的情绪信号增强」适配层。 没改整体 Prompt 结构——而是在 System Prompt 里加了一段「仅当检测到用户消息包含以下情绪信号时生效」的规则。定义了 15 个中文讽刺/隐晦投诉的高频句式模板——「我真是服了」「你们太厉害了（反讽）」「这是第X次了」「算了不说了」——遇到这些信号，强制模型走投诉分类路径。这段规则用 {model_behavior_hint} 变量包裹，只在模型是 Claude 的时候注入。

第二——在评估体系里加了一个「关键场景加权」指标。 原来的整体准确率是所有类别的算术平均——权重一样。我改成：投诉和紧急问题两个类别在总指标里占 40% 的权重（虽然它们在数据分布里只占 8%）。因为这两个类别的错判代价是其他类别的 10 倍——评估指标必须反映业务代价，而不是数据分布。

改完后，Claude 3.5 在加权指标上跟 GPT-4 的差距从 0.4 个百分点缩小到了几乎不可区分。产品 VP 最终同意切换。上线后两个月的真实数据：客服成本没有因为模型切换而上涨——这在公司内部被认为是一次「被评估体系救了」的决策。我自己在年终复盘里写了一句：「这次模型切换如果只看整体准确率就上线——三个月后客服团队大概率会投诉'AI 不如以前聪明了'，然后我们花两周排查才发现是投诉分类在悄悄崩。」

面试官读到这里，脑子里不是一个「建了评估体系」的 Prompt 工程师——而是一个**「在整体准确率只差 0.4% 的表面平静下拆开 12 个意图类别的分项指标、发现了 Claude 在投诉和紧急问题两个关键类别上召回率分别暴跌 11 和 8 个百分点、排查出根因是 Claude 的安全对齐策略对中文讽刺句式存在保守倾向、然后设计了模型感知的情绪信号增强适配+关键场景加权指标体系——最终让一次可能造成客服投诉率飙升的模型切换安全落地」的人。** 跨模型评估能力——这是中级 Prompt 工程师最值钱、最稀缺的竞争力。

效果评估体系的写作公式

你的评估体系跟初级有什么本质区别（不只是指标多——是能跨模型对比、能按业务代价加权、能发现隐藏退化）→ 具体用它发现过什么「不拆开就会被掩盖」的问题 → 这个发现影响了什么决策（拦截过模型切换？阻止过 Prompt 上线？改变了优化方向？）→ 如果当时没有这套评估体系，最坏的结果是什么。

三、Few-shot 策略工程：别写「运用 Few-shot 技术」，写你从「每次手动挑示例」到「设计了一套让示例自动匹配输入的检索系统」的进化——以及为什么手工挑示例在三个行业里玩不转了

到了中级，Few-shot 不是你用没用过——是你有没有从「手艺」进化到「工程」。

改前案例

运用 Few-shot 技术提升模型输出质量。根据不同业务场景精心设计示例模板，引导模型输出格式和推理路径。在 AI 数据分析产品线中通过 Few-shot 示例将 SQL 生成准确率从 71% 提升至 85%。累计为 20+ 个客户场景定制 Few-shot 示例集。

面试官看完：「累计 20+ 个客户场景定制示例集」——你是一个一个手动挑的吗？20+ 套示例集——维护起来是什么体验？如果客户 A 的示例集里有一条过期了——你怎么发现？新来一个同行业客户——你是重新挑一套还是复用之前的？「SQL 生成准确率 71%→85%」——这 14 个百分点里，多少是因为示例本身、多少是因为你改了 Prompt 的其他部分？

改后案例

Few-shot 这件事我在第二年遇到了一个分水岭——公司签了一个 SaaS 产品，同一个 AI 数据分析的 Prompt 模板要同时服务电商、金融、医疗三个行业的客户。每个行业的数据库 Schema 完全不同——电商有订单表/用户表/商品表，金融有交易表/账户表/风控表，医疗有患者表/诊断表/处方表。一开始我的做法是：给每个行业各挑 5 个示例——三套示例集，Prompt 模板根据客户行业加载对应示例。这个方案在前三个月撑住了。

第四个月崩了。医疗行业的一个客户上线了一个新的数据模块——「临床试验数据管理」。用户的自然语言查询里开始出现「筛选出参与 III 期临床试验且不良反应记录中包含'恶心'的患者」这种问题。但我们的示例集里没有一条关于临床试验的示例——模型面对这种问题完全不知道怎么映射到 SQL。客户投诉：「你们的 AI 分析不准了。」

我意识到：靠手工给每个行业维护一套静态示例集——这个模式在客户场景持续扩展的时候必然崩。 因为新表、新字段、新查询模式每天都在长出来——你不可能每天追着给示例集打补丁。

我做了一个从「静态示例集」到「动态示例检索系统」的架构升级：

第一步——建了一个示例向量库。 把过去一年里所有被验证过「模型生成了正确 SQL」的真实查询-SQL 对收集起来——一共 1200 多条。每条做一个向量嵌入（用 bge-large-zh-v1.5），存在向量数据库里。每条示例附带元数据——行业标签、涉及的表名、SQL 复杂度（简单查询/JOIN/子查询/窗口函数）。

第二步——在 Prompt 模板里加了一个动态示例注入逻辑。 每次用户提问时——不加载固定的 5 个示例。而是：①用用户的自然语言问题检索向量库，取 Top-5 语义最相似的示例；②根据数据库 Schema 做一层过滤——如果检索到的示例里涉及的表在当前客户的数据库里不存在，替换为下一个最相似的；③确保 5 个示例覆盖不同的 SQL 复杂度——如果 Top-5 全是简单查询，手动把第 5 名替换为最近的一个 JOIN 示例——防止模型只学会简单查询。

第三步——建了一套示例效果追踪机制。 不是示例放进向量库就一劳永逸。每次模型生成的 SQL 在用户端被执行——如果执行成功（语法正确+返回了有效结果），给这条查询当时用的示例+1 分；如果执行失败（SQL 语法错误/字段不存在），给示例-1 分。每周自动清理得分低于阈值的示例——这些示例可能在教模型做错误的事。

上线后的效果对比：

旧方案（行业静态示例集）——SQL 生成准确率：电商 87%、金融 84%、医疗 79%（医疗最低——因为医疗查询的多样性最高，5 个示例根本覆盖不住）。

新方案（动态示例检索）——SQL 生成准确率：电商 89%、金融 87%、医疗 86%。医疗提升了 7 个百分点——因为在每次查询时动态检索的示例跟当前问题语义最相关，而不是用一个行业平均的示例集。

最关键的数据——新客户场景的「首次查询准确率」。旧方案下，新客户（示例集里没有这个客户的 Schema）的首次查询准确率只有约 62%。新方案下——首次查询准确率提升到了 78%。因为动态检索不依赖「有没有这个客户的专用示例集」——它从全局 1200 条示例里找最接近的。

维护成本——旧方案：每接入一个新行业客户，我需要花半天到一天手动挑示例、测试、调优。新方案：客户接入只需配一下数据库 Schema——示例自动检索——零人工挑示例时间。

这个系统后来被团队另一位 Prompt 工程师用在了客服产品线上——做 Few-shot 示例的动态召回。 他给我发了一条消息：「你这个向量检索的思路帮我省了至少两周的示例维护时间。」我把这套方案写成了一份《动态 Few-shot 示例工程实践》文档——包括向量库搭建、检索策略、示例评分机制、注意事项——现在是我们团队 Prompt 工程师入职后第二周必读的材料。

面试官读到这里，脑子里不是一个「用了 Few-shot、准确率 85%」的 Prompt 工程师——而是一个**「发现静态行业示例集在客户场景持续扩展下必然崩盘、然后从零搭建了一套 1200 条示例的向量库+动态检索+复杂度均衡+示例评分自动清理的 Few-shot 系统工程、让 SQL 准确率最高的医疗行业提升了 7 个百分点、新客户首次查询准确率从 62% 跳到 78%、并且把每个新客户接入的示例维护时间从半天降到了零」的人。** 这是中级 Prompt 工程师的核心竞争力——不是你会用 Few-shot，是你把 Few-shot 变成了一套不依赖人工的工程系统。

Few-shot 策略工程的写作公式

你从「手工挑示例」到「工程化选例」的转折点是什么（什么场景下手工模式崩了）→ 你设计了什么工程方案（静态→动态？规则→检索？人工维护→自动评分？）→ 方案的核心技术决策是什么（检索策略？示例多样性保障？质量监控机制？）→ 工程化前后的效果和维护成本对比。

四、多模型适配：别写「完成 GPT-4/Claude/Gemini 多模型适配」，写你发现的那三个跨模型行为差异——以及你的适配策略为什么不是「给每个模型重写一套 Prompt」

这是中级 Prompt 工程师最能跟初级拉开辨识度的板块。任何看过模型对比文章的人都能说「GPT-4 推理强、Claude 长文本好、Gemini 多模态牛」。面试官想看的是——你真的在同一个业务场景下同时维护过三个模型的 Prompt，并且踩过真实的行为差异坑吗？

改前案例

完成 GPT-4、Claude、Gemini 等主流模型的 Prompt 适配工作。针对不同模型的特性调整 Prompt 结构和输出约束。对比三个模型在客服、销售、数据分析等核心场景上的表现差异。建立多模型 Prompt 版本管理机制，确保各模型上的 Prompt 效果一致性。

面试官看完：你适配了三个模型——但你是怎么适配的？是每个模型各写一套 Prompt——还是用了一套策略？三个模型的行为差异具体是什么——不只是「Claude 更保守」「GPT-4 推理更强」这种泛泛之谈？你说「确保 Prompt 效果一致性」——一致性量过吗？一致性是多少？

改后案例

多模型适配这件事，我交过一笔很贵的学费。那笔学费是一个周五晚上 11 点——客户成功经理打电话给我：「XX 客户说他们的 AI 客服突然开始跟用户讨论'什么是好的客服'了——在用户投诉的时候。你们改了什么？」

我没改任何东西。那天下午唯一的操作是——把客户的环境从 GPT-4 切换到了 Gemini 1.5 Pro——因为 Gemini 的配额更便宜，而且内部评估报告说「在客服场景上准确率相当」。但我不知道的是——同一个 System Prompt，GPT-4 和 Gemini 对「角色扮演」指令的理解方式完全不同。

我的 System Prompt 里有一句话：「你是一个专业、有同理心的客服助手。在回复用户之前，先理解用户的情绪和真实需求。」GPT-4 读到这句话的理解是——「我是一个客服，我要先分析用户情绪，然后给出客服回复。」Gemini 的理解是——「我要展示我的'同理心'——所以在回复之前，我要先跟用户确认他的情绪，表达我的理解。」所以在用户投诉「你们的产品刚用三天就坏了」的时候——GPT-4 直接回复：「非常抱歉给您带来不便。我马上帮您处理退换货……」。Gemini 回复：「我理解您现在一定非常失望和生气。作为一个客服助手，我的职责是……」——然后开始了一段关于「什么是好的客服」的自我阐述。

这件事让我意识到：「多模型适配」不是给每个模型写一套 Prompt——如果你有三条产品线、三个模型、未来还要加第四第五个模型——那就是 15 套 Prompt，维护成本爆炸。 真正要做的是——找出模型之间行为差异的维度，然后把「模型特有的行为修正」从 Prompt 主体里抽出来，变成一套可配置的「模型行为配置文件」。

我花了两周做了一件事——把三个模型在同一个业务场景下的行为差异全面测绘了一遍。 用的方法是：同一套 200 条测试集、同一个 System Prompt、三个模型各跑一遍，然后逐条对比输出。我把行为差异归类成了四个维度：

维度一——格式遵循度。 GPT-4 对「必须输出纯 JSON」的指令遵循度最高——200 条里只有 2 条在 JSON 外多输出了文字。Claude 有 11 条在 JSON 前加了「好的，以下是……」的前缀。Gemini 有 8 条在 JSON 内把规定的下划线字段名改成了驼峰（order_id → orderId）。
适配策略： 不在三个模型上各改一遍格式要求——而是在输出解析层加了一个模型感知的后处理：如果是 Claude——正则去掉前缀文字后解析。如果是 Gemini——Json 解析时做字段名的下划线/驼峰自动映射。

维度二——推理深度 vs 过度推理。 在 AI 数据分析的 SQL 生成场景下：GPT-4 对于「用户说'上个月'」——大部分时候能正确推断为当前日期往前推一个月。Claude 在 8% 的 case 里会过度推理——用户说「最近一周」，Claude 有时会理解成「过去七个自然日」有时是「最近五个工作日」——因为它多了一层「用户在商业语境下说的'一周'可能指工作日」的揣测。Gemini 则相反——推理偏浅，用户说「销量不好的产品」，Gemini 有时直接写 WHERE sales < 100——硬编码了一个阈值，而不是去查销量排名的后 20%。
适配策略： 在 Prompt 里加了一段模型感知的推理深度控制。「如果当前模型倾向于过度推理——严格按字面含义理解，不揣测潜台词。」「如果当前模型倾向于推理不足——对模糊表达做一步合理推断，并输出推断依据。」这段指令根据模型动态注入。

维度三——安全对齐的激进程度。 Claude 最保守——任何涉及「负面评价」「投诉」「敏感行业（医疗/金融）」的内容都会触发更保守的输出策略。Gemini 在某些中文语境下会拒绝回答一些在 GPT-4 看来完全合规的问题（比如「分析一下我们公司跟竞品的优劣势对比」——Gemini 有时会拒绝对竞品做评价）。GPT-4 在这三个里最「配合」——但幻觉率也最高。
适配策略： 不做模型级的 Prompt 改动——而是在业务流程里加了一层模型能力的路由逻辑。涉及竞品对比的查询——优先路由到 GPT-4。涉及敏感数据处理（医疗/金融合规要求高的）——优先路由到 Claude（更保守意味着合规风险更低）。涉及多模态的——路由到 Gemini。

维度四——对 Prompt 长度的敏感度。 同一个 3000 字符的 System Prompt——GPT-4 稳定遵循所有指令。Claude 在 Prompt 超过约 2500 字符后，中间部分的指令遵循度开始下降——表现为偶尔漏掉某条约束。Gemini 的长 Prompt 指令遵循度波动最大——同一套 Prompt 跑三次，指令遵循度分别是 91%/87%/93%。
适配策略： 设计了一套 Prompt 优先级标注机制——每条指令前面加一个 [P0]/[P1]/[P2] 优先级标记。如果模型是 Claude 且 Prompt 超过 2500 字符——注入一条指令：「优先保证所有 [P0] 指令被严格执行；[P1] 尽力执行；[P2] 在上下文容量有限时可酌情省略。」这条元指令让 Claude 的长 Prompt 指令遗漏率从约 15% 降到了约 4%。

测绘完成后的产出——不是三套 Prompt，而是一份《多模型行为差异图谱》+一套模型行为配置 JSON。
图谱是一个四维矩阵——格式遵循/推理深度/安全对齐/长指令敏感——每个维度下标注三个模型的表现和推荐适配策略。
配置 JSON 只有约 40 行——定义了每个模型在四个维度上的行为参数：format_strictness: gpt4=high, claude=medium, gemini=low、reasoning_depth: gpt4=balanced, claude=deep, gemini=shallow 等等。Prompt 模板里用配置变量控制行为修正指令的注入。

这套方案上线后的效果： 以前新增一个模型支持——我需要花大约一周做 Prompt 适配+测试。现在——在新模型上跑一遍 200 条测试集、对比图谱、填写行为配置 JSON——半天完成。关键业务指标——三个模型的跨模型行为一致性（同一组测试集上人工评分的一致性）：适配前约 81%，适配后约 96%。

面试官读完这段，脑子里不是一个「适配了三个模型」的 Prompt 工程师——而是一个**「因为一次 Gemini 的'客服自我阐述'事故被客户投诉、然后花了整整两周用 200 条测试集对 GPT-4/Claude/Gemini 做了四维行为差异全面测绘、发现了格式遵循/推理深度/安全对齐/长指令敏感四个维度的系统差异、设计了一套模型行为配置 JSON 替代了三套独立 Prompt、把新增模型支持的适配时间从一周压缩到半天、把跨模型行为一致性从 81% 提升到 96%」的多模型适配专家。** 面试官要找的不是「用过三个模型的人」——是「能系统性地测绘模型行为差异、并把适配方案工程化的人」。

多模型适配的写作公式

你在多模型适配上踩过的最疼的一个坑（哪个模型在什么场景下行为崩了——导致了什么业务后果）→ 你怎么测绘模型之间的行为差异（什么方法、多少测试集、拆了哪几个差异维度）→ 你设计的适配策略是什么（不是给每个模型重写 Prompt——是配置化、后处理层、路由层？）→ 适配后的量化效果（行为一致性从多少到多少、新增模型支持时间从多久到多久）。

五、自我评价：删到 4-5 行——每行 = 一个中级 Prompt 工程核心能力 + 一个具体案例 + 一个量化对比

改前案例

3 年+ Prompt 工程经验，精通 Prompt Engineering 方法论及 System Prompt 设计。熟练掌握 Few-shot、Chain-of-Thought、ReAct、Self-Consistency、Tree-of-Thought 等主流提示技术。具备丰富的多模型适配经验（GPT-4/Claude/Gemini）。熟练使用 LangChain、Dify、AutoGen 等 LLM 应用开发框架。深入理解大模型原理和行为特性。具备 Prompt 系统架构设计能力。良好的跨团队协作和项目管理能力。带领过 2 人 Prompt 工程小组。

面试官 10 秒扫完——Prompt Engineering、Few-shot/CoT/ReAct/ToT/Self-Consistency、GPT-4/Claude/Gemini、LangChain/Dify/AutoGen——每个词都是一篇 Prompt 工程入门文章的目录标题。面试官的反应：「这个列表我可以在任何一个 Prompt 工程培训班的毕业生简历上看到——我凭什么觉得这个人值中级 Prompt 工程师的薪资？」

改后案例

Prompt 系统架构设计——面对单条 Prompt 在 78% 采纳率卡了三个月的瓶颈，设计了三阶段级联 Prompt 系统： 拆成语义理解→购买阶段判断→跟进建议生成三条独立 Prompt，Stage 间定义结构化 JSON 传递协议，置信度低于 0.7 自动触发人工兜底。上线后采纳率从 78% 提至 89%，新行业客户适配周期从一周压缩到两天。

跨模型评估体系——建了一套拆开 12 个意图类别分项指标+关键场景加权的评估框架： 在一次 GPT-4 到 Claude 3.5 的模型切换评估中，发现整体准确率只差 0.4% 但「投诉」「紧急问题」两个关键类别的召回率分别暴跌 11 和 8 个百分点。排查出 Claude 对中文讽刺句式存在保守倾向的根因，设计了模型感知的情绪信号增强适配。这套评估体系后来被公司定为模型切换的强制前置流程。

Few-shot 策略工程化——把手工维护的三套行业静态示例集升级为 1200 条示例的向量库+动态检索系统： 每次查询根据语义相似度+Schema 过滤+复杂度均衡自动匹配 Top-5 示例，配合示例评分自动清理机制。医疗行业 SQL 准确率从 79% 提至 86%，新客户首次查询准确率从 62% 跳至 78%，每个新客户接入的示例维护时间从半天降为零。方案被团队复用至客服产品线，沉淀为团队入职必读文档。

多模型适配——用 200 条测试集对 GPT-4/Claude/Gemini 做了四维（格式遵循/推理深度/安全对齐/长指令敏感）行为差异测绘： 设计了一套 40 行模型行为配置 JSON 替代了三套独立 Prompt 的维护模式。跨模型行为一致性从 81% 提至 96%，新增模型支持的适配时间从一周压缩到半天。这套方案起源于一次 Gemini 的「客服自我阐述」线上事故——但那次事故之后没再发生过第二次。

四行。面试官 15 秒扫完，脑子里留下四个清晰的标签：这个人能把一条 Prompt 的 78% 天花板突破成一套三阶段系统做到 89%；这个人建了一套跨模型评估体系、发现并拦截过一次「整体准确率伪装下关键类别悄悄崩了」的模型切换事故；这个人把 Few-shot 从手工维护三套静态示例集升级成了一套 1200 条示例的动态检索系统工程；这个人给三个模型画了四维行为差异图谱、把适配方案配置化，一致性从 81% 拉到 96%。

自我评价的铁律： 每一行 = 一个中级 Prompt 工程核心能力 + 一个具体的系统/框架/策略 + 至少一个量化对比。删掉所有技术名词标签，只留「你设计了什么」和「它带来了什么改变」。

写完后的自检清单

Prompt 系统设计部分——有没有一段经历是单条 Prompt 搞不定、你重新设计了多 Prompt 协作架构？不是「我把 Prompt 拆成了两条」——而是「我为什么拆、拆成几条、各自做什么、之间怎么协作、传递什么信息、异常怎么兜底」。
效果评估部分——你的评估体系能不能跨模型工作？有没有发现过一次「整体指标正常但分项指标暴露了隐藏问题」的案例？这个发现有没有影响过一个真实的决策？
Few-shot 部分——有没有从「手工挑示例」到「工程化选例」的进化？动态检索？自动评分？团队复用？如果还是每次手动挑 5 个示例——这是初级写法。
多模型适配部分——有没有一次「同一条 Prompt 在不同模型上行为不一致」的真实案例？不是泛泛的「Claude 更保守」——是具体的「在什么场景下、模型的什么输出让你意识到了差异、你做了什么适配」。
自我评价删到 4-5 行。每行 = 一个中级能力 + 一个具体案例 + 一个数字。把「精通 Prompt Engineering」「熟悉多模型适配」「掌握 Few-shot 策略」全部删干净。
终极拷问：面试官读完你的简历，能用一句话说清楚「这个 Prompt 工程师最值钱的能力是什么」吗？是「能设计多 Prompt 协作系统突破单 Prompt 天花板」？是「能用跨模型评估体系发现隐藏的能力退化」？是「能把 Few-shot 从手工维护进化到动态检索工程」？还是「能测绘模型行为差异并设计配置化适配方案」？如果面试官只能说「会写 Prompt」——重写。

三年前你写第一份 Prompt 工程师简历的时候，证明的是「我能写 Prompt——System Prompt 会写、Few-shot 会用、CoT 会加、准确率能提到 85% 以上」。三年后你写中级 Prompt 工程师简历，要证明的是「我能设计一套让三个模型协同工作、综合准确率推到单模型永远够不到的高度的 Prompt 系统；我能建一套跨模型评估体系、在整体准确率只差 0.4 个百分点的伪装下挖出关键类别 11 个百分点的隐性退化；我能把 Few-shot 从每次花半天手工挑示例进化成一套 1200 条向量库全自动检索的工程系统；我能给三个模型画出四维行为差异图谱、用 40 行配置 JSON 替掉三套独立 Prompt 的维护噩梦。」

初级 Prompt 工程师的简历靠「一条让我改到第五版才收敛的 Prompt」来打动面试官。中级 Prompt 工程师的简历靠「一个我设计的、让团队和系统变得更强大的 Prompt 架构或方法论」来打动面试官——我设计的三阶段级联系统让采纳率从 78% 提到了 89%、我建的跨模型评估体系拦截了一次差点上线的模型切换事故、我搭的动态 Few-shot 检索系统让新客户接入从半天降为零。

写 Prompt 证明「我能让一个模型听话」。设计 Prompt 系统证明「我能让一群模型协同干活——而且比任何一个单干都强」。这两个身份之间——是你简历需要跨越的最重要的一道坎。

写好之后不确定效果？好简历的免费诊断可以帮你从 Prompt 系统架构深度、评估体系建设、Few-shot 策略工程化和多模型适配能力几个维度做一次全面扫描，每一段经历都会给出强弱项分析和改进建议。

→ 免费诊断简历