logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调方法教程:从零基础到实战应用,一篇掌握所有微调方法!

文章详细介绍了大模型精调的两种方案:全量参数精调和部分参数微调。重点讲解了Prompt Tuning、P-Tuning、Prefix Tuning、Adapter、LoRA等高效微调方法的工作原理、优缺点及适用场景。全量精调效果好但计算资源需求大、成本高;部分参数微调则更高效,减少资源需求同时保持高性能,降低过拟合风险。这些技术能有效提升大模型在特定任务上的表现,是AI应用开发的重要技能。作者:王

文章图片
#人工智能#深度学习#服务器 +2
快速搭建个人AI知识库教程(超详细+实战)从零入门到精通,一篇全掌握!

项目的 GitHub 地址是:https://github.com/chaitin/PandaWiki点个 Star 支持一下国产开源软件吧!

#人工智能#机器学习#microsoft +2
大模型微调(Fine-Tuning)的全景:从零基础到工程实践,一篇搞定大模型落地!

大模型近年来在自然语言处理领域取得了显著突破。从GPT-3到LLaMA,再到国产开源的DeepSeek,这些模型凭借海量参数和通用训练数据,展现了强大的语言生成与理解能力;然而,这类“通用大模型”虽在海量数据上预训练,具备强泛化能力,却难以在特定业务场景(如金融风控、医疗问诊、法律咨询等)中发挥最优表现,这主要是因为通用训练无法完全捕捉特定领域的知识分布和任务需求。微调(Fine-Tuning)成

文章图片
#人工智能#AI
现在的大学生,不用大模型才是异类

大学现在学的就是掌握 ChatGPT 的程度了。在北美的顶尖大学校园里,人工智能完成作业、写论文已经成为一种常态。近日,New York Magazine 旗下 Intelligencer 发表了一篇题为「每个人都在大学里作弊」的专题报道,其中从 Chungin「Roy」Lee 开发作弊软件的故事开始,谈到了美国大学对 ChatGPT 等 AI 工具的广泛使用乃至滥用的情况。

文章图片
#知识图谱#mysql#语言模型 +3
大模型部署解决方案之TorchServe+vLLM

TorchServe 是PyTorch 中将模型部署到生产环境的一个解决方案。它用HTTP 或HTTPS API 封装模型,可以处理多种任务,包括为部署模型分配workers、负责客户端和服务器之间通信等。10月份发布的TorchServe 0.12 增加了对GenAI的支持,简化了大语言模型的部署,增加了对主流模型引擎的内置支持,如 vLLM 和 TRT-LLM。

文章图片
#ui#学习#产品经理
大模型应用开发入门:手把手用VSCode跑通第一个LangChain程序

我们在以前学习任何语言第一个入门小demo都是写一个Hell World!,同样我们在学习LangChain框架的时候,也以类似输出一个“Hell World!”的简单回复作为我们的入门demo案例在正式开始LangChain的实战学习前,需要配置一下环境。LangChain框架目前支持Python和TypeScript两种语言,这里我们选用处理人工智能更主流的Python语言来进行学习,有关Ja

文章图片
#vscode#ide#人工智能 +3
ReaderLM v2: HTML 转 Markdown 和 JSON 的前沿小型语言模型

回溯到 2024 年 4 月,Jina Reader 作为首个面向 LLM 的 Markdown API 横空出世,它引领了新的技术趋势,赢得了广泛的社区认可。更重要的是,它激励我们去构建用于数据清理和提取的小型语言模型。更好的长文本处理能力、对输入指令的支持,以及将特定网页内容提取为 Markdown 格式的能力。我们再次证明,通过精心的训练和调优,小型语言模型同样可以达到甚至超越大型模型的先进

文章图片
#html#json#语言模型 +3
大语言模型有什么用途?

许多机构希望使用根据自己的使用场景和品牌习惯而定制的大语言模型。这些模型基于特定领域的数据进行定制,让企业有机会改善内部运营并提供全新客户体验。定制模型比通用大语言模型更小、更高效、更快。对于涉及大量专有数据的应用,定制模型提供了最佳解决方案。定制大语言模型的一个例子是 BloombergGPT,它由 Bloomberg 自主开发,拥有 500 亿个参数,专门针对金融应用。

文章图片
#语言模型#人工智能#自然语言处理 +2
论文浅尝 | 自提示方法实现大语言模型的零样本关系抽取(EMNLP2024)

论文通过自我提示框架(Self-Prompting framework)提出了一种新的方法,通过关系同义词生成、实体过滤和句子重述等策略,生成高质量、多样化的合成样本。这些样本作为上下文示例,为LLMs提供了更具体、更丰富的指导,从而显著提升了零样本关系抽取的性能。但是论文还有一些问题:在选择合适的上下文示例时,如果选择不当可能会引入噪声,从而影响LLM的性能。此外,该方法并不能保证也没有验证生成

#语言模型#人工智能#自然语言处理 +2
马斯克用20万卡集群,做出了比DeepSeek还强的模型?

今年才刚刚过去两个月, AI 模型竞技场的火热程度,堪比年底冲业绩。就在今天中午,马斯克预告的那个号称Grok 3 ,终于来了。发布会还是马斯克惯有的风格,说好的十二点准时开始,结果还是晾了大家快二十分钟。一个小时的直播,马斯克携 xAI 天团( 四个人里就有两位华人 ),从各个方面介绍了 Grok 3 究竟有多厉害。一看纸面数据,又是吊打诸如谷歌、 OpenAI 和 DeepSeek 等一众明星

文章图片
#人工智能#大数据#学习
    共 429 条
  • 1
  • 2
  • 3
  • 43
  • 请选择