Jumbo星个人主页

@jiangqixing0728

Jumbo星

2022-12-08 09:26:08 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3Guard解读

训练采取SFT方式，对标签质量要求高，为了减少噪声、数据清洗，先把数据分为A/B两部分，A/B中各自调整黑/白数据配比训练了一个严格模型和宽松模型，然后分别用来预测另外的集合进行投票，选出有争议（即又被预测为安全和宽松）的数据。技术报告，整体来说这个模型是纯NLP的模型，而且从贴切程度上讲：大模型安全 > 平台内容审核，猜测动机和背景是专用于qwen系列LLM输出/输入审核的大模型安全审核模型。合

#深度学习 #人工智能

深度学习TensorFlow里的checkpoint

这几天刚入门跑别人论文的项目（TDD-net）。对项目里的checkpoint比较好奇，于是上网搜寻了相关资料。机器学习里面保存的模型checkpoint文件里面到底是什么东东？ - 知乎简单地说，在使用tensorflow跑模型的时候，我们不可能一次跑完，中间要保存一下的（就像写文章中间要保存下草稿）。因此checkpoint其实就是保存下来的中间模型。保存了TensorFlow 模型之后，我们

#python #tensorflow

深度学习TensorFlow里的checkpoint

#python #tensorflow

Python实现得到乱序列表排序后的新下标

如果要实现标题里的，更进一步，即要得到一个list排序后的新下标，比如对于 [1,5,2,8,3,4]，应该得到[0,4,1,5,2,3]但是我们想知道排序后的结果对应原本的下标是什么（答案是[0,2,1,3,4]），就可以用np.argsort()但是如果不仅限于得到一个排完序的列表，还希望记录原本的下标，那么对于一个numpy.array而言，可以用。但是如果就是个简单的list，想实现这个效

#算法 #python

When localhost is not accessible, a shareable link must be created. Please set share=True.

在用服务器部署gradio模型的时候出现了这个问题，后来发现是因为服务器开了代理，代理了公司的电脑，命令行输入下列命令去掉代理即可。

#bug

深度学习TensorFlow里的checkpoint

#python #tensorflow

mmcv中BaseModule和Pytorch的nn.Module的区别

比起torch.nn.Module类而言，多了init_cfg和init_weights。type里的override是用来init这个实例里一些特殊的部分，比如self.reg。注册在mmcv/cnn/utils/weight_init.py。所有的init方法都是一个INITIALIZERS。BaseModule类在mmcv.runner中。norm的weight都是1，bias都是0。这个实

#python #深度学习

阿里开源多模态大模型Ovis1.6

Ovis1.6开源地址和Demo：

[解决错误]mmyolo的bbox_loss和检测bbox都是空

最近用mmyolo训练自己的数据集的时候发现训练的时候loss_bbox=0，测试和eval的时候结果也全是空的，排除了数据集读取的问题，最后发现是config中自定义了自己的类别但是没有传给dataset。简而言之，在自定义了数据集里的metainfo即类别后，还需要再dataloader构造的时候传入这些metainfo。

#python #人工智能 #深度学习

[解决错误]AttributeError: ‘MiniCPMVTokenizerFast‘ object has no attribute ‘image_processor‘

大概原因就是缺少原pretrained模型中一些.py，.json文件导致的，就是训练后只保存了一些权重相关的文件，但是要进行推理的话，还需要自行cp过去一些“配置文件”比如MiniCPM-V-2.6在进行官方的finetune后（swift进行finetune后好像不会有这个问题，具体没去看），保留下来的ckpt文件夹跟原版的对比（左finetune右pretrained），缺少了三个文件。其他

#机器学习 #人工智能

共 14 条

请选择