logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【经典论文】GLM-4.5V,VLM里的Deepseek-R1

后训练GLM4.5V的难点在于如何训练MOE架构。与dense模型堆数据不同,moe的训练则是充满了技巧,我也在探索中。

文章图片
#机器学习#人工智能
-bash: ulimit: open files: cannot modify limit: Operation not permitted

报错:-bash: ulimit: open files: cannot modify limit: Operation not permitted在免密登录的时候,出现-bash:ulimit错误,如下:[laowang@cdh201 ~]$ ssh laowang@cdh205.ultraman.orgThe authenticity of host 'cdh205.ultraman...

帆软报表:1302 行高列宽超出页面大小设置行

一.出现Error:1302 行高列宽超出页面大小设置行,问题与解决办法如下:原因:除了表头以外,把内容也设置成重复标题行了(不小心)。解决办法:重新设置重复标题行。...

大数据项目实战二之电信大数据项目

大数据项目实战之电信大数据项目生产日志->kafka采集->kafka API的控制台展示 ->HBASE(创建命名空间,创建表)->TableMapper -&amp

#hadoop#mapreduce#kafka
帆软报表写switch函数

一.帆软报表写switch函数1.有一个输入框,其id为$deviceType,其实际值为1,2,3,显示值为:年龄,体重,身高。但是若想在表中显示出年龄,体重,身高等值,很不方便。则可以使用以下函数:SWITCH($deviceType,1,"年龄",2,"体重",3,"身高")2.swi

netstat: option requires an argument -- p

netstat命令在mac上运行报错

#linux
SSSD简介及安装

System Security Services Dameon(SSSD)1.SSSD简介一个守护进程,该进程可以用来访问多种验证服务器,如LDAP,Kerberos等,并提供授权。SSSD是 介于本地用户和数据存储之间的进程,本地客户端首先连接SSSD,再由SSSD联系外部资源提供者(一台远程服务器)(1)避免了本地每个客户端程序对认证服务器大量连接,所有本地程序仅联系SSSD...

python的多继承

Python中的多继承,当一个类继承多个类的同一个方法时,它会优先调用第一个继承的类别中的方法。

文章图片
#python
【源码解读】BertLayer

详解阅读BertLayer的内部代码,模型是怎么得到最后的输出?BERT中的transformer真如《Attention is all your need》中的transformer架构吗?

#自然语言处理#transformer#深度学习
深度学习模型训练神器之wandb

还不知道怎么调参吗?wandb帮你解决!本文详解wandb的使用,包括常见的命令,各种需求的实现等~

#深度学习#自然语言处理
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择