logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

如何训练自己的大模型,数据准备、模型微调、部署使用全流程讲解

距离ChatGPT已经发布1年半了,距离我们训练出自己的大模型也已经1周年了。目前仍然有很多同学在咨询如何训练自己的大模型。这个东西和男/女朋友一样。当你不认识TA,距离TA很远,不敢接触TA的时候,TA就是很神秘,也很难接触。但是一旦当你愈发了解TA的时候,你就知道其实上手也很容易。之前我已经撰写了一个简单的训练baichuan大模型的代码\[1\],用于阐述大模型训练其实和原来的训练没什么两样

文章图片
#人工智能#python#深度学习
【一文搞定】DeepSeek-llm-7B-Chat微调教程_deepseek 微调实战源码全流程

高性价比:DeepSeek-V2模型以其史无前例的性价比著称,推理成本被降到每百万token仅1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。架构创新:DeepSeek对模型架构进行了全方位创新,提出崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,独创的DeepSeekMoESparse结构,也把计算量降

文章图片
#人工智能
【最新指南】_langchain 本地知识库-使用LangChain搭建本地知识库系统:一站式解决方案

RAG是的缩写,翻译为中文的意思就检索增强,以基于最新,最准确的数据建立LLM的语料知识库。LLMLangChain是一个用于开发由语言模型驱动的应用程序的框架。具有上下文感知能力:将语言模型与上下文源(提示说明、少量镜头示例、基于其响应的内容等)联系起来。

文章图片
#人工智能
大模型应用开发:Dify+RAGFlow知识库集成实现精准检索的实战指南

本文详细介绍了如何在Dify平台上集成RAGFlow知识库,通过创建知识库、配置API KEY、连接外部知识库等步骤,实现两种工具的优势互补。这种集成方式充分利用了Dify的工作流能力和RAGFlow优秀的知识库构建与召回功能,解决了Dify文档解析不足的问题,让开发者能够构建更精准、更强大的大模型应用。

文章图片
#人工智能#RAG
2025年 AI 发展总结与下半年预测

2025年已然过半,今年大模型发展既有激动人心,也有惴惴不安,今天我们就从我个人的视角,盘点大语言模型2025年上半年发展的总结,并对下半年发展趋势进行预测分析。

文章图片
#知识图谱#语言模型#人工智能
大模型是如何训练的?这六个关键步骤要记牢!

大模型是如何训练的?这六个关键步骤要记牢!

文章图片
#人工智能
2025年,企业不需要大模型了吗?

在他看来,模型层依然重要,但是单独靠模型无法完成商业化闭环,绝大多数企业空有模型无用,无法兑现为生产力,企业也不愿意为此付费。AI应用价值越来越显化,模型之上的能力才是决定差异化的关键,当下企业级大模型应用的工程化能力被大大低估了。

文章图片
#人工智能#linux
一文详解:大模型如何学习数据知识

很多人刚入门AI,可能对大模型如何学习数据知识的原理不太了解,今天就用一个例子来说明模型学习的过程。如果你将准备从事AI开发,或者也对原理感兴趣,不妨看一看。

文章图片
#人工智能
LoRA大模型微调技术深度解析:从原理到vLLM框架实战全攻略

本文详细介绍了LoRA(Low Rank Adaptation)低秩微调技术的原理及在vLLM框架中的实现。文章通过替换原始模型层、预分配显存、动态加载LoRA权重等技术,实现了在不修改原始模型的情况下,用少量额外参数高效微调大模型的能力。详细解析了LoRA的加载、切分和推理过程,为开发者提供了完整的LoRA技术实现指南。

文章图片
#人工智能
MCP客户端与服务端初体验——让deepseek调用MCP工具查询天气情况

本系列主要通过调用天气的mcp server查询天气这个例子来学习什么是mcp,以及怎么设计mcp。话不多说,我们开始吧。

文章图片
#算法#人工智能#MCP
    共 297 条
  • 1
  • 2
  • 3
  • 30
  • 请选择