logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在国内快速稳定下载 HuggingFace 模型的两种方法

比较项方法一:hfd + aria2方法二:huggingface-cli下载速度⭐⭐⭐⭐(最快)⭐⭐(中等)安装复杂度中(需安装 aria2)低(纯 Python 工具)对容器支持需能装 aria2✅ 非常友好自动化脚本支持一般(Shell)✅ 非常适合是否支持断点续传✅ 支持✅ 支持是否支持镜像站✅ HF-Mirror 推荐方式✅ 通过配置适合下载大型模型✅ 强烈推荐✅ 可用但速度较慢。

无监督的预训练

如图所示:假设你想要解决一个复杂的任务,你没有太多的标记的训练数据,但不幸的是,你不能找到一个类似的任务训练模型。 不要失去所有希望! 首先,你当然应该尝试收集更多的有标签的训练数据,但是如果这太难或太昂贵,你仍然可以进行无监督的训练(见图 11-5)。 也就是说,如果你有很多未标记的训练数据,你可以尝试逐层训练层,从最低层开始,然后上升,使用无监督的特征检测算法,如限制玻尔兹曼机(RBM;见附录

gpu无法调用解决方案记录

一、问题描述:以前GPU都用的好好的,突然今天就用不了,程序无法启用GPU,nvidi-smi命令显示:No running process found想起中间卸载过重装过tensorflow-cpu版本;于是卸载重装,仍然无法使用,问题依旧;然后卸载tensorlfow-gpu版本,然后再重装,再使用就OK了这说明tensorflow-gpu的使用是非常依赖于tensorflo...

熵权法中计算的熵值与决策树的熵值完全不一样之谜

熵权法中的熵值计算公式如图所示:比如说某个评价的指标完全一样,1,1,1,1,1,1那么m=6,p1到p6的概率均等于1/6;这个时候的熵值是最大的;所以在计算指标权重时,用这种方法反而是数据越小越混乱;权重越大;所以计算权重时都需要将1-ent值;这里的本质是已经将类别分好的,这里的数值代表属于该类别的样本个数;而我在决策树算法中看到的熵值,m=2,p1=1(值为1的是一类)...

MinHash算法:为什么选择Min而不是Max

既然理论上Max和Min等价,为什么实践中几乎都用Min?在算法的世界里,实验和数学同样重要。MinHash的故事,就是一个完美的例子。“MinHash使用最小值是因为Max不work,Max会严重低估相似度。这与许多教科书和博客的说法完全不同。两个定理的证明是完全对称的。一旦确立了标准,整个社区就沿用了这个约定。让我们用严谨的数学和实验来探寻真相。而k-max需要反向排序,略显不自然。剧透:答案

#算法
Gmail用人工智能技术判定垃圾邮件

大约10年前,垃圾邮件几乎要毁了电子邮箱。一场拯救人们的邮箱的比赛随即打响,两大科技巨头也力争夺得垃圾邮件头号杀手的头衔。2012年2月,微软声称,它能够过滤掉Hotmail 97%的垃圾邮件。谷歌后来作出回应,称它的Gmail能够过滤掉大约99%的垃圾邮件,而且误判率(将没问题的邮件误判为垃圾邮件的比例)也只有1%。两家公司的成果表明,启发式检测技术——按照预设规则识别垃圾邮件——能奏效。不过,

python真实环境与虚拟环境均配置jupyter的方法,虚拟开发环境增加到notebook选项中

第一步、在真实环境中安装jupyter,参考另一篇博客第二、在目录中kernel目录下,添加一个目录,并在该目录下添加kernel json文件,写好配置文件;本质原理是新的目录下的配置文件中指定当前kernel所用的python解释器路径;所以虚拟开发环境中也需要用到juypter,可以通过这个方法在juypter建立多个核;比如说虚拟环境的解释器路径为:/root/AIPipeline/e..

显存“黑洞”探秘:为何vLLM加载模型后,我的GPU“饿”得快?

嘿,我明明用的是INT4量化的7B模型,理论上模型文件也就3-4GB,怎么用vLLM一加载,我那24GB显存的RTX 4090直接就去了10GB?!这显存是被谁‘偷’走了?如果你也曾对着nvidia-smi的输出发出过这样的灵魂拷问,那么恭喜你,你不是一个人在战斗!这篇博客,我们就扮演一次GPU显存侦探,用最简单直白的方式,层层剥茧,探寻vLLM部署时那些“看似多余”的显存占用究竟从何而来。

文章图片
#人工智能#linux#机器学习
llama模型研究系列1

采用了transfomer中的decoder,其中7b版本的结构如下:

文章图片
    共 95 条
  • 1
  • 2
  • 3
  • 10
  • 请选择