logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MiniMind学习笔记(三)--train_pretrain.py(预训练)

本文介绍了MiniMind项目中用于预训练的主脚本train_pretrain.py。该脚本包含模型预训练的全流程,主要分为两部分:train_epoch函数负责单轮训练,主程序负责整体训练流程。脚本支持多种训练配置,包括分布式训练、混合精度、梯度累积等,并提供了检查点保存、wandb/SwanLab实验跟踪等功能。训练过程采用两层循环结构,外层控制训练轮数,内层处理批次数据,包含前向传播、损失计

#机器学习#AI
计算机网络中socket,TCP,HTTP,长连接等概念的形象比喻,便于理解和记忆

把网络上的客户端需要给服务器发送请求并接收服务器响应这件事,具象化为给仓库退货并换货这件事,可能事情就是这样的:形象比喻计算机网络原型 我要给网商的仓库退回商品,并且要求退货客户端要往服务器发一个请求,并且要接收服务器的回复。 我叫来了一个快递员发送请求之前需要先建立连接 我开始填快递单,在是否保证送达这一栏,我选择了必达,并且填写了寄件人,寄件地址,收件人,收件地址。建立TCP连...

#计算机网络#http
MiniMind学习笔记(二)--model_minimind.py(基础模组)

本文详细解析了MiniMind模型的model_minimind.py文件中的MiniMind Config和MiniMind Model两个模块,介绍了MiniMindConfig和MiniMindForCausalLM等重点类,以及他们和Transformers库的关系。

文章图片
#学习#python
MiniMind学习笔记(一)--安装部署

本文记录了本地部署MiniMind的完整流程:1)安装基础工具(git、Python、VSCode);2)克隆项目代码并安装依赖组件;3)通过Miniconda创建虚拟环境;4)下载预训练模型;5)配置conda环境并重新安装依赖;6)测试两种对话模式(命令行调用OpenAI API和本地可视化界面)。重点说明了环境配置细节,包括PowerShell策略修改、conda环境管理等关键步骤,最终通过

#学习#python
java的序列化入门

概念序列化并不是java专属的,在java中,序列化是指把java对象转为可以在网络上传输的格式,或者可持久化的格式的过程。个人理解就是转成字符形式,显然java对象本身是不能在网络上传输的,也不能在磁盘中存储,所以不管是转成二进制编码,还是转成JSON格式,还是转成其他什么格式,只要完事还能转回java对象,就算达到目的了。所以有序列化还得有反序列化,也就是把序列化后的结果转成jav

#java
Linux中Too many open files 问题分析和解决

今天某个服务的日志中出现了大量的异常:[WARN ] 2018-06-15 16:55:20,831 --New I/O server boss #1 ([id: 0x55007b59, /0.0.0.0:20880])-- [org.jboss.netty.channel.socket.nio.NioServerSocketPipelineSink][DUBBO] Failed to ...

Jeecg-Boot前后端项目部署流程

Jeecg-Boot 是一款基于SpringBoot+代码生成器的快速开发平台,本文介绍的是从Jeecg-Boot官网下载的demo代码如何在Windows和Linux环境下部署。

Linux中查看磁盘大小、文件大小、排序方法小结

一,查看磁盘空间大小的命令:dfdf命令用于查看磁盘分区上的磁盘空间,包括使用了多少,还剩多少,默认单位是KB比如以下命令:df -hl执行结果如下:执行的结果每列的含义:第一列Filesystem,磁盘分区第二列Size,磁盘分区的大小第三列Used,已使用的空间第四列Avail,可用的空间第五列Use%,已使用的百分比第六列Mounted on,挂载点解释一下后面的h和l参数,h是把显示的单位

java中的方法引用

目录简介一,类::静态方法二,对象::实例方法三,类::实例方法四,构造器引用,Class::new五,数组引用,数组::new简介从JDK1.8开始,可以使用方法引用。方法引用的操作符是双冒号"::"。方法引用可以认为是Lambda表达式的一种特殊形式,Lambda表达式可以让开发者自定义抽象方法的实现代码,方法引用则可以让开发者直接引用已存在的实现方法,...

#java
从单例模式挖到内存模型(四)----java内存模型

java内存模型:Java内存模型即Java MemoryModel,简称JMM。JMM定义了Java 虚拟机(JVM)在计算机内存(RAM)中的工作方式。JDK1.5版本对java的内存模型进行了重构,开始使用新的JSR-133内存模型。JMM定义了线程和主内存之间的抽象关系:线程之间的共享变量存储在主内存(main memory)中,每个线程都有一个私有的本地内存(local me

#java
    共 14 条
  • 1
  • 2
  • 请选择