知道模型在哪里会可靠地失败,才能设计出可靠的 AI 产品
onConflict、returning、ignoreDuplicates 三个参数"returning 和 ignoreDuplicates 在 JS SDK v2 中根本不存在,模型从 PostgreSQL 语法推测出了"看起来合理"的参数名launchctl schedule 命令,语法是..."(用权威口吻给出完全错误的子命令)IMPORTANT / 大写 / 重复 强化。{"action": "...", "params": {...}}response_format / tool_use 强制输出格式;解析失败时自动重试;每轮在 prompt 尾部重复格式要求。给你一个产品场景,想想模型可能出什么问题、你会怎么设计。点击查看参考答案。
可能的问题: (1) 事实幻觉——编造不存在的法条 (2) 长尾知识不可靠——中国劳动法细节训练数据少 (3) 时效性错觉——引用已废止的法规 (4) 自信幻觉——错误建议但语气确定
设计策略: 接入专业法律知识库(RAG);法条引用必须经搜索验证;输出标注"仅供参考,建议咨询专业律师";置信度低于阈值时主动推荐人工咨询。
可能的问题: (1) 多步推理累积错误——每步95%正确率,4步后只有81% (2) 格式漂移——到第4步时可能不再遵守 JSON 格式 (3) 上下文污染——前面步骤的错误信息影响后续步骤
设计策略: 每步独立 Agent 处理(Multi-Agent);每步输出用 schema 校验;邮件发送前必须人工确认(高风险操作兜底);中间结果持久化到文件而非仅靠上下文传递。
排查方向: (1) 同问不同答——temperature 是否 > 0?(2) 长尾知识——用户问的是热门问题还是冷门问题?(3) 上下文污染——长对话中前面的错误是否影响了后续回答?
解决方案: temperature 设为 0 提高确定性;建立 eval set 量化不同问题类型的准确率;接入产品知识库(RAG)覆盖冷门问题;长对话定期做摘要清理上下文。
可能的问题: (1) 尾部质量下降——后半篇明显比前半篇差 (2) 风格漂移——写着写着风格变了 (3) 数值幻觉——报告中的数据可能是编的 (4) 废话填充
设计策略: 先生成大纲再分段写(每段1000字左右独立生成);每段重复风格要求;数据部分接入真实数据源;生成后用另一次 LLM 调用做质量审查和精简。
风险点: (1) 过度拒绝——正常的情绪表达被误判为有害 (2) 越狱脆弱性——用户绕过安全限制获取不当建议 (3) 立场反转——被用户情绪"带跑"给出不专业的建议
设计策略: 4层渐进安全(就像你的心灵树洞);输入分级——区分"正常情绪表达/轻度测试/恶意攻击/自伤信号";自伤信号直接切换到危机干预流程(确定性逻辑,不靠模型判断);所有对话经过独立安全审核模型复审。
可能的问题: (1) 模仿偏差——给出"看起来合理"但不是最优的建议 (2) 上下文不足——只看 diff 不知道整体架构,建议可能不合适 (3) 自信幻觉——指出不存在的 bug (4) 选择性遵从——只检查了部分规则
设计策略: diff + 相关文件一起送入(提供足够上下文);多模型独立审查交叉验证(你的 multi-review);审查结果按严重度分级;suggestion 和 required change 分开标记。
可能的问题: (1) OCR幻觉——金额数字识别错误 (2) 细节遗漏——漏掉小字的税率信息 (3) 空间关系误判——把卖方和买方搞反
设计策略: 金额等关键字段用专业 OCR 引擎提取(确定性);VLM 做整体理解和字段关联;提取结果让用户确认后再入库;对比度低/模糊的图片提前告知用户"识别可能不准确"。
设计原则:
(1) 分层——核心规则(5条以内)放最前面用大写/加粗强调 (2) 按需加载——场景规则不全塞入,用条件触发加载 (3) 避免冲突——审查所有规则确保无矛盾,矛盾处明确优先级 (4) 尾部重复——最关键的1-2条规则在 prompt 尾部再强调一次 (5) 结构化格式——用 XML tags 或 markdown 标题区分不同规则块 (6) 持续评测——建立 eval set 检测每条规则的遵从率,持续调优
每个失败类别对应一句可以直接在面试中使用的话术。核心公式:"我发现了 XX 问题,所以我设计了 YY 方案"