logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

模型常见训练超参数介绍(1)

【摘要】本文总结了BERT/RoBERTa模型调参的关键策略:1)训练轮数需平衡过拟合与欠拟合,NER任务通常10+轮,分类任务3-5轮,推荐使用早停机制;2)学习率建议2e-5~5e-5,过高易震荡,过低收敛慢;3)batch size需适配显存,大batch需配合高学习率;4)warmup steps设为总步数5-20%,稳定训练初期;5)weight decay建议0.01-0.1,防止过拟

#算法#人工智能#nlp
大模型专有名词解释

本文摘要:文章系统介绍了自然语言处理(NLP)与理解(NLU)的核心概念区别,重点对比了BERT和RoBERTa模型特性。详细解析了模型结构参数(参数量、层数、隐藏维度等)、训练方法(预训练、微调、RLHF等)、推理优化技术(量化、剪枝、并行训练)等关键技术要素。同时涵盖了token处理、嵌入表示、注意力机制(自注意力、多头注意力)等基础概念,为理解现代语言模型提供了全面框架。

#语言模型#人工智能#机器学习
neo4j图数据库基本概念和向量使用

本文介绍了在Neo4j图数据库中进行节点和关系操作的基本方法,包括创建节点、建立关系、删除节点、查询相邻节点以及为节点添加属性。此外,还详细说明了如何为节点添加向量属性、创建向量索引、计算向量相似度以及进行向量检索。文章还提到了RAG向量检索的最佳实践,包括通过阈值筛选节点、利用节点关系查找属性,并结合大模型进行总结。这些操作有助于在图数据库中高效管理和检索数据,特别是在处理复杂关系和向量数据时。

文章图片
#neo4j#数据库
Oracle简单入门

NAT虚拟网络: 如果本机电脑能上网,就是虚拟机内的系统可以上网1.oracle数据库特点:     支持多用户,大事务量的事务处理     数据安全性和完整性控制     支持分布式数据处理     可移植性; 2. oracle 体系:     1.只有一个数据库   2.实例:一个数据库可以有多个实例  3: 存在磁

#oracle
spring cloud gateway源码解析

zuul版本的源码解析: 转载https://blog.csdn.net/forezp/article/details/76211680在zuul请求过程中,首先请求给zuulServlet处理,zuulServlet中有一个zuulRuuer对象,该对象中初始化了RerequestContext;作为存储请求的一些数据,并且被所有的zuulFilter共享, zuulRunne...

spring cloud 全家桶 简单介绍

1.spring cloud eureka : 注册中心,可以看到各个服务运行状态,并且各个微服务调用都通过注册中心来找到内网ip进行调用2.spring cloud gateway: 对外的网关,分为zuul版本和F版本,两者最大区别是底层容器不同,zuul版本是servlet, F版本的是webFlu...

#spring cloud#spring cloud
到底了