logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CAMEL的特色功能——数据合成

在大模型时代,高质量数据正在成为越来越重要的一部分,然而通过人工的标注的方式获取数据的成本太高,并且真实世界的数据正迅速耗尽,于是就有了使用AI来合成数据的方法,下面我们来介绍如何使用CAMEL帮助我们合成SFT数据。CAMEL 和 Unsloth 是一对出色的搭档。在此章节中,我们将两者结合起来,以训练模型精通页面上的内容。您将学习如何使用 CAMEL 进行数据生成、如何训练以及如何运行模型。以

#语言模型#人工智能#算法 +1
大模型之chatglm系列模型

三种预训练框架各有利弊,没有一种框架在以下三种领域的表现最佳:自然语言理解(NLU)、无条件生成以及条件生成。T5曾经尝试使用MTL的方式统一上述框架,然而自编码和自回归目标天然存在差异,简单的融合自然无法继承各个框架的优点。在这个天下三分的僵持局面下,GLM诞生了。。

#人工智能#机器学习#自然语言处理
金融大模型

在这里,我们提供金融领域LLM训练和微调的完整渠道。FinGPT v3 系列是在新闻和微博情绪分析数据集上使用 LoRA 方法进行微调的LLM,在大多数金融情绪分析数据集上取得了最佳分数。用 ChatGLM 和 LoRA 在中国金融市场训练我们自己的 FinGPT。FinGPT v3.1 使用 chatglm2-6B 作为基础模型;FinGPT v3.2 使用 llama2-7b 作为基础模型.用

文章图片
#人工智能#python#深度学习
LangChain4j学习7:工具(函数调用)

这是一个非常强大的功能。在这个简单的例子中,我们给了 LLM 基本的数学工具, 但想象一下,如果我们给它提供了例如 googleSearch 和 sendEmail 工具, 以及一个查询,如"我的朋友想知道 AI 领域的最新消息。作为开发者,我们应该使用提供的参数执行这个工具,并将工具执行的结果反馈回来。当 LLM 决定调用工具时,AI 服务将自动执行相应的方法, 并将方法的返回值(如果有)发送回

#学习#人工智能#语言模型
LangChain4j学习11:模型上下文协议 (MCP)

和消息的实际内容。如果你想更改此行为,有一个名为 dev.langchain4j.mcp.client.logging.McpLogMessageHandler 的接口,它作为接收日志消息的回调。要获取服务器上的 MCP 资源 列表,使用 client.listResources(),或者在资源模板的情况下使用 client.listResourceTemplates()。我们的想法是构建一个 J

#学习#分类#人工智能
FP6服务LLM

INT4量化技术的挑战:虽然这些技术可以减小模型大小和参数存储量,但由于过拟合问题, 它们在更一般的许多任务中往往表现不佳,包括代码生成和摘要等更多生成任务。FP6的突破:FP6数据格式在当前AI硬件的高效支持中存在挑战。该格式在各种任务的性能和灵活性方面均表现出色。为了提高FP6在当前主流AI硬件上的执行效率,我们提出了一种4+2新颖的FP6 GPU kernel方案。这一创新使FP6成为提高L

文章图片
#人工智能#深度学习#机器学习
大模型新名词

指标含义tokentoken是文本的最小单位。在英文中,token 往往代表一个单词或一个标点符号;在中文中,token 往往代表一个字或词。samples per second每秒样本数,是指模型在训练或推理过程中每秒处理的样本数量,即训练时实际吞吐量。计算公式为:samples/s = BS * N / step time其中,BS为batch size,N为GPU/NPU的数量,step t

#人工智能#python#深度学习 +1
DeepSeek-R1本地部署配置要求(建议收藏)

显卡: 非必需(纯 CPU 推理),若 GPU 加速可选 4GB+ 显存(如 GTX 1650)显卡: 24GB+ 显存(如 A100 40GB 或双卡 RTX 3090)显卡: 多卡并行(如 2x A100 80GB 或 4x RTX 4090)显卡: 16GB+ 显存(如 RTX 4090 或 A5000)显卡: 推荐 8GB+ 显存(如 RTX 3070/4060)硬盘: 3GB+ 存储空间

#人工智能#python
大模型之faster_transformer

是一个用于实现基于Transformer的神经网络推理的加速引擎。它包含Transformer块的高度优化版本的实现,其中包含编码器和解码器部分。使用此模块,您可以运行编码器-解码器架构模型(如:T5)、仅编码器架构模型(如:BERT)和仅解码器架构模型(如: GPT)的推理。FT框架是用C++/CUDA编写的,依赖于高度优化的 cuBLAS、cuBLASLt 和 cuSPARSELt 库,这使您

#transformer#深度学习#人工智能
    共 145 条
  • 1
  • 2
  • 3
  • 15
  • 请选择