logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型和较小的 BERT 模型在训练数据上通常有明显差异,一般没有严格固定的最低数据量标准,但大致数据量级有一定范围,具体如下

大模型和较小的 BERT 模型在训练数据上通常有明显差异,一般没有严格固定的最低数据量标准,但大致数据量级有一定范围,具体如下:

#人工智能#深度学习#机器学习
DPO 深度学习

DPO 是深度学习中模型对齐的高效方法,通过直接优化人类偏好数据,简化了大模型从 “能生成内容” 到 “生成符合人类期望的内容” 的过程,目前已被广泛应用于 LLM 的微调(如开源模型 Alpaca、Vicuna 的优化)。DPO 旨在直接通过人类对模型输出的偏好数据(即 “偏好对”,如 “哪个回答更好”)优化模型,跳过了强化学习从人类反馈中学习(RLHF)的中间步骤(如训练奖励模型、使用 PPO

#深度学习#人工智能
Qwen-3(通义千问 3 系列模型)

表示型(Embedding):侧重 “静态向量表示”,用向量相似度快速筛文本;交互型(Reranking):侧重 “动态交互判断”,模拟对话逻辑精细排序。两者配合(比如先 Embedding 粗筛,再 Reranking 精排 ),能提升文本匹配的精度和效率,是大模型检索、问答系统里的常见组合思路。

#人工智能
意图分类策略选择:小模型微调 vs 大模型 Prompt

在处理意图分类任务时,选择「大模型 Prompt」还是「小模型微调」确实取决于意图类别的数量和数据规模。我来详细解释这个决策逻辑,并提供具体实现方案。实际应用中,建议先从大模型 Prompt 快速验证,随着意图数量和数据量增长,逐步过渡到混合架构或纯小模型方案。

#分类#windows
CUDA 通常只识别 NVIDIA GPU,因此在 PyTorch 代码里一般看不到 cuda:1。

你的集成显卡不会出现在 CUDA 设备列表中,代码里cuda:0始终对应 RTX 4070。CUDA 与集成显卡无关,因此无需担心cuda:1的问题。如果你需要更高性能,可以考虑外接 eGPU 或使用云 GPU 服务。

#pytorch#人工智能#python
全量微调和lora

实际应用中,LoRA 因效率优势成为主流,而全量微调更多用于追求极致性能的场景。

#人工智能#深度学习#机器学习
BERT 中文预训练模型的分词器(BertTokenizer)

简单来说,你加载的是一个通用的中文 BERT 预训练模型的分词器,它能将中文文本转换为模型可理解的 token 序列,但模型本身还需要针对具体任务训练后才能有效使用。的配置信息,来自 Hugging Face 的。这段段内容展示的是一个。

#bert#人工智能#深度学习
PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)

PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一种在保持预训练模型大部分参数固定的同时,仅微调少量额外参数来适配下游任务的技术。这种方法可以显著降低计算资源需求,同时减少过拟合风险。不同的 PEFT 方法适用于不同的场景和模型架构,实际使用时需要根据具体任务和模型选择合适的方法。以下是使用 Hugging Face 的。

#python#人工智能#机器学习
输出边长为n的正六边形(在eclipse显示的更好看些)

package zxcz;import java.util.Scanner;public class liubianxing2 {public static void main(String orgs[]){System.out.println("请输入六边形边长n");Scanner sc=new Scanner(System.in);int n=sc.nextInt();S

双色球小游戏 java实现

package com.kuang.reflection;import java.util.Scanner;public class homework4 {public static void main(String[] args) {Scanner sc=new Scanner(System.in);int a[]=new int[6];int aa[]=new int[6];int n1=0,

    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择