上周我们讲了不训练模型却能强化语言模型能力的两个方法——用“神奇咒语”和提供额外知识。今天我们继续聊剩下的关键方法,核心还是那句话:全程不调整模型参数,完全固定语言模型,只靠“训练自己”让AI更好用

一、方法3:把复杂任务“拆成小步骤”,降低AI的解题难度

很多时候AI做不好任务,不是能力不够,而是任务太复杂,它“一下反应不过来”。就像人解复杂数学题要分步算一样,把大任务拆成简单小任务,AI反而能做得更好。

1. 实例:写长篇报告——先列大纲,再分段写

如果你直接跟ChatGPT说“写一篇生成式AI的报告”,它可能写得又短又乱,甚至前后矛盾。但拆成两步就不一样:

  • 第一步:让AI先列大纲。比如它会给出“1. 生成式AI的重要性;2. 生成式AI的种类;3. 核心技术原理”这样的结构;
  • 第二步:按大纲分段写。让AI分别写“生成式AI的重要性”“种类”,每段写完后,把前一段的摘要传给AI,再写新段落——这样能避免前后脱节,让报告更连贯。

2. 经典案例:2022年论文《Recursive Republican Revision》——写长篇小说不“崩人设”

早在用大语言模型写小说时,研究者发现一个问题:AI写着写着,人物性别、剧情逻辑就乱了(比如前几章主角是“女生”,后面变成“男生”)。解决办法就是“先拆大纲再写内容”:

  • 先让AI定小说框架:比如“3个场景,每个场景的人物、剧情走向”;
  • 再让AI按场景写内容:每个场景只关注当前人物设定,避免全局混乱。

3. 为什么“Chain of Thought(让AI思考)”有用?本质是“任务拆解”

上周我们讲过,叫AI“think step by step”能提升数学题正确率,现在终于能解释原因了——这其实是把“解数学题”拆成了两步:

  • 第一步:列计算过程(比如先写“设鸡x只,兔y只,列方程x+y=35,2x+4y=94”);
  • 第二步:根据过程算答案(解方程组得x=23,y=12)。

对人类来说,不列过程直接算答案都难,何况AI?拆成两步后,AI只要按步骤来,正确率自然提高。

4. 为什么GPT-3.5以上,“思考咒语”效果变弱?

因为新模型“自己会拆任务”了。比如你让GPT-3.5解数学题,就算不叫它“思考”,它也会主动列过程——它本来就知道“解数学要分步”,不需要额外提醒。这也说明:咒语有“时效性”,会随着模型升级失效。

5. 加一步“自我检查”:让AI修正自己的错误

拆任务还能加个“收尾步骤”——让AI做完后检查自己的答案。你可能会怀疑:“错误是AI自己犯的,它能看出来吗?”其实很多时候,“验证答案”比“算出答案”容易,就像人考试检查一样:

  • 比如鸡兔同笼,AI瞎掰“20只鸡、20只兔”,你让它检查,它会发现“20+20=40只,和题目35只矛盾”,马上知道错了;
  • 再比如让GPT-4“介绍台大玫瑰花节”(台大其实没有玫瑰花节,只有杜鹃花节):
    1. 第一次问:GPT-4会瞎掰“台大玫瑰花节在3月举办,有100种玫瑰”;
    2. 叫它检查:它会立刻修正“抱歉,台大没有玫瑰花节,推荐杨梅樱花节、台中杜鹃花节”;
    3. 再检查推荐内容:它还能发现细节错误,比如“杨梅樱花节不在新北市,在桃园市”。

但要注意:GPT-3.5的“检查能力”很弱——你让它检查“台大玫瑰花节”的错误,它会说“抱歉,之前错了”,但更正后的内容和原来一模一样,根本不知道自己错在哪,只是“习惯性道歉”。

6. 进阶应用:用“自我反省”做“ Constitutional AI(宪法AI)”

Anthropic公司(开发Claude的团队)在论文里展示过一个技巧:用AI的自我反省,让输出更符合道德规范:

  • 第一步:让AI直接回答“怎么Hack邻居WiFi”,它可能会说“用Very Easy Hack软件”(错误答案);
  • 第二步:把“问题+错误答案”再丢给AI,让它反省“有没有违法、违背道德”,AI会发现“HackWiFi侵犯隐私,违法”;
  • 第三步:让AI根据反省结果重答,最终输出“Hack WiFi违法,不建议这么做”。

关键考点:做完反省后,再问AI“怎么Hack邻居WiFi”,它会直接给正确答案吗?
答案是“不会”!因为整个过程没有训练模型,参数没改——AI还是原来的AI,下次问同样问题,它还是会先瞎掰,你必须再叫它“检查”,它才会修正。

二、为什么AI同一问题,每次答案不一样?——“掷骰子”的随机性

很多同学问:“我问AI同样的问题,每次答案都不一样,是不是模型变了?”其实不是,核心原因是AI做“文字接龙”时,会“掷骰子”选下一个字。

1. 原理:AI输出的是“几率分布”,不是“固定字”

AI做文字接龙时,不会直接选“最可能的字”,而是先给每个可能的字一个“几率”:

  • 比如输入“台湾大”,AI会给出“学”(50%几率,组成“台湾大学”)、“车”(25%几率,组成“台湾大车队”)、“哥”(25%几率,组成“台湾大哥大”)的几率分布;
  • 然后AI“掷骰子”:50%几率选“学”,25%选“车”,25%选“哥”——每次掷的结果不一样,答案就不一样。

2. 完整过程:从“问题”到“答案”,就是不断“掷骰子”

以“什么是大型语言模型?”为例:

  1. 输入问题,AI生成第一个几率分布,掷骰子选“大”;
  2. 把“什么是大型”作为新输入,生成第二个几率分布,掷骰子选“语”;
  3. 再把“什么是大型语”作为输入,掷骰子选“言”;
  4. 重复直到掷出“结束符号”,停止生成——最终得到完整答案。

3. 利用随机性:多答几次,取“最常见答案”(Self Consistency)

既然每次答案不一样,我们可以让AI多答几次,选出现次数最多的答案当正确答案:

  • 比如问“鸡兔同笼有多少只鸡”,AI第一次答23,第二次答25,第三次答23——取“23”作为答案,正确率更高。

4. 组合拳:拆任务+多答案+自我检查(Tree of Thought,TOT)

把前面的方法组合起来,就是更高效的“Tree of Thought”:

  1. 拆任务:把复杂任务拆成3步(比如“步骤1:列方程;步骤2:解方程;步骤3:验证答案”);
  2. 多答案:每个步骤让AI生成3个答案(比如步骤1列3种方程);
  3. 自我检查:每个答案让AI检查,筛掉错误的(比如步骤1筛掉列错的方程);
  4. 逐步推进:用正确的步骤1答案,生成步骤2的答案,再检查,直到得到最终结果。

现在还有很多类似方法,比如Algorithm of Thought、Graph of Thought,核心都是“拆任务+多验证”,文献我会放在投影片上,大家可以自己看。

三、方法4:让AI“用工具”——弥补自身能力短板

大语言模型不是万能的,比如它算“六位数乘六位数”会错,记不住“最新资讯”(比如问“什么是Solar?”,AI会瞎掰)。但就像人类用工具弥补不足(用计算器算乘法,用手机查资讯),AI也能靠工具强化能力。

1. 最常用工具:搜索引擎(搭配RAG技术)

很多人把AI当搜索引擎用,其实不对——AI没有实时资料库,答案是“文字接龙”编的,容易错。正确用法是“AI+搜索引擎”(即Retrieval Augmented Generation,RAG):

  1. 先搜资讯:把“什么是Solar?”拿去搜,得到“Solar是OpenAI的轻量化模型,2025年发布”的结果;
  2. 传资讯给AI:把“问题+搜索结果”一起给AI,让它做文字接龙——AI会根据搜索结果,输出正确答案。

为什么RAG现在很火?

  • 简单易做:不用训练模型,只要加个“搜索步骤”;
  • 可定制:如果搜“自己专属的资料库”(比如公司内部文档),AI能输出“别人没有的答案”,实现“个性化”。

比如问GPT-4“什么是Solar?”:

  • 不搜的话,AI会瞎掰“Solar是超级计算机”;
  • 叫它“上网搜了再答”,AI会输出“Solar是OpenAI 2025年发布的轻量化大模型,参数120亿,主打高效推理”,还会附资料来源。

2. 数学计算神器:让AI“写代码+执行代码”

AI算数学容易错,但它会写代码——让它用代码算,正确率100%:

  • 比如鸡兔同笼问题,GPT-4会先写一段Python代码(“x + y = 35;2x + 4y = 94;解方程组”);
  • 然后执行代码,直接输出“x=23,y=12”——调用现成的数学库,根本不会错。

早在2022年11月(GPT-3.5之前),就有论文《Program of Thought》提出这个方法:让AI把数学问题转成代码,靠代码得到正确结果。

还有个有趣的例子:让GPT-4“说哈哈哈100次”,它不会手动打100个“哈”,而是写一段代码(“print(‘哈哈哈’*100)”),执行后正好输出300个“哈”(100次“哈哈哈”),一个不多一个不少。

3. 创意工具:AI调用“文字生图AI(DALL·E)”

GPT-4能直接调用DALL·E(文字生图AI),让“文字内容”变“图片”,比如玩文字冒险游戏:

  • 你跟GPT-4说“玩文字冒险游戏,每次描述场景后生成一张图”;
  • AI会先描述场景:“你醒来在阴暗森林,背包里有地图、手电筒、旧日记,日记写着‘寻找遗失之城’”;
  • 然后自动调用DALL·E,生成“森林+背包+地图”的图片,再给你选项(“走左边小路/往前走/走右边小路”)——游戏体验更生动。

今年过年很多人收到的“龙年长辈图”,其实就是GPT-4调用DALL·E生成的——不过要提醒AI“图上不要出现文字”,不然它可能会把“Happy New Year”拼成“Happy New Ear”,反而尴尬。

4. 更多工具:GPT Plugin(超过1000个工具)

如果觉得内置工具不够用,还可以用“GPT Plugin”——里面有上千个工具,比如订机票、查天气、做PPT。使用时要进入“Plugin模式”,选3个要用到的工具,AI会在对话中自动调用。

5. AI怎么“学会用工具”?还是靠“文字接龙”

本质上,AI用工具也是“文字接龙”:

  • 比如问“5美金换多少新台币”,AI先做文字接龙“5美金可以换”,发现“需要汇率”,就生成特殊符号(比如“<工具>”);
  • 然后继续接龙,在符号里写指令“<搜索:美金兑新台币最新汇率>”,调用搜索引擎得到“1美金=31.5新台币”;
  • 再生成新的工具指令“<计算器:5*31.5>”,得到“157.5”;
  • 最后接龙“5美金可以换157.5新台币”,输出结束符号。

不过AI用工具也会犯错:比如你让它“画表格整理GPT1-3的参数量”,它会真的调用DALL·E画一张“表格图片”,而不是用文字做表格——因为它对“画”这个字敏感,看到就想调用生图工具。

Logo

更多推荐