logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习入门:神经网络是如何“学习“的?

目录:在上一篇文章中,咱们聊了机器学习的基础概念。但是!当你在用ChatGPT对话、让Midjourney画图、看特斯拉自动驾驶时,这些背后用的不是普通的机器学习,而是深度学习。深度学习是什么?它和普通机器学习有什么区别?神经网络是怎么"学习"的?今天咱们就用大白话,把这个看起来最深奥的技术讲清楚!先来看几个传统机器学习遇到困难的场景。传统机器学习的方式:特征太难设计了!传统机器学习的方式:问题:

#深度学习
大模型微调到底是在干嘛?

但如果你跟它说:"帮我写一份法律合同"或者"按照我们公司的格式写个周报",它可能就懵了。今天咱们就来聊聊:怎么让一个通才大模型,变成某个领域的专才。咱们来看几个真实的微调案例,相信大家图文结合,会理解的更好。好了,现在咱们有一个"大学毕业生"了(预训练模型)。学完之后,这个学生啥都知道一点,但样样都不精。大家可能会问:预训练模型已经很强了,为啥还要微调?这些东西,互联网上可没有,必须通过微调让模型

#后端
DSPy框架:别再熬夜改Prompt了

改了十几版,好不容易在GPT-4上跑通了,第二天一换模型,全废了。更扎心的是,你精心调好的Prompt,同事稍微改一个字,效果就天差地别。你只需要提供训练数据和评估标准,DSPy会自动尝试各种Prompt组合,找到最优方案。说白了,DSPy就是你的AI开发助手,它不仅帮你干活,还帮你"思考"怎么干最好。:斯坦福开发的AI编程框架,核心理念是"用代码写AI,不是用Prompt写AI"如果让你用DSP

#后端
Agent 是什么?让 AI 像人一样“自主行动“

强大的 Agent = 强大的大模型 + 丰富的工具 + 优秀的规划 + 长期记忆。如果你要设计一个"私人助理 Agent",你会给它配置哪些工具?Agent = 大模型 + 手(工具)+ 脑(规划)+ 记忆(记忆)未来:多 Agent 协作、自主 Agent、Agent 社会。Agent 之所以能"自主行动",是因为它有四大核心能力。Agent = 大模型 + 工具 + 规划 + 记忆。Agen

#后端
什么是提示词工程-如何写出更好的提示词

选择一个你经常使用的场景(比如写代码、写文章、学知识),按照今天讲的原则和技巧,写一个"终极版"提示词。提示:先用目前的水平写一版,然后根据今天学的内容不断优化,看看最后能优化成什么样。同样的 ChatGPT,为什么有的人用得特别溜,有的人却觉得不好用?大模型是很"听话"的,但前提是你得"说清楚"提示词写得不好,AI 就无法理解你的真实意图。提示词工程 = 设计和优化提示词的技术和艺术。设计和优化

#后端
什么是幻觉?大模型为什么会“一本正经地胡说八道“?

幻觉不是程序的 bug,而是模型工作方式带来的副作用。大模型为什么会"一本正经地胡说八道"?如果让你设计一个"防幻觉"的AI系统,你会怎么做?为什么大模型有时候会"一本正经地胡说八道"?大模型没有"真假"的概念,只有"概率"的概念。问题来了:它不是在"查资料",而是在"创作"4.1 根本原因:大模型不知道什么是"真"大家先思考思考,欢迎在评论区说说你的想法!3.3 幻觉不是"Bug",是"特性"提

#后端
什么是Token-大模型是怎么理解文字的

大模型是怎么"思考"的》中提到:大模型把文本变成 Token,再变成数字。核心思想:把常见的组合合并成一个 Token,减少 Token 数量。如果你要为医疗领域训练一个专门的大模型,你觉得应该如何设计分词器?应该让哪些词成为一个 Token?中文的 Token 划分更复杂,因为没有天然的"空格"分隔。四、核心概念二:Token ≠ 字,Token ≠ 词。核心概念二:Token ≠ 字,Toke

#python
大模型是怎么“思考“的?揭秘 AI 的“大脑“工作原理

如果大模型的本质是"预测下一个词",那为什么它能做数学题?今天咱们就来扒一扒大模型的"大脑",看看它到底是怎么"思考"的。好了,咱们把前面的内容串起来,看看大模型完整的"思考"过程。二、核心概念一:大模型的"世界观"——词向量和 Token。"苹果"的权重最高,所以"它"的理解会参考"苹果"的信息。大模型是怎么"思考"的?揭秘 AI 的"大脑"工作原理。核心概念一:大模型的"世界观"——词向量和

#python
到底了