logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

调教LLaMA类模型没那么难,LoRA将模型微调缩减到几小时

来源:机器之心作者:Sebastian RaschkaLoRA 微调方法,随着大模型的出现而走红。最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。在快速发展的人工智能领域,以高效和有效的方式使用大型语言模型正变得越来越重要。LoRA(Low-Rank Adaption

#人工智能
得分逼近ChatGPT,人类难以分辨!开源「原驼」爆火,iPhone都能微调大模型了

梦晨 发自 凹非寺来源 |量子位QbitAI自动测试分数达到ChatGPT的99.3%,人类难以分辨两者的回答……这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB。开源社区直接开始狂欢,相关论文成为24小时内关注度最高的AI论文。以Meta的美洲驼..

LLM大模型低资源微调p-tuning v2和LoRA区别

作者:归来仍是少年@知乎一、前言自从chatgpt的爆火,也同时引发了国内大模型的热潮,像百度出了文心一言、阿里出了通义千问等,但是这些大模型并未开源,国内外开源的中等规模的模型有meta的LLaMA,斯坦福基于LLaMA微调的Alpaca,国内的chatglm,这种能够让一般的公司来做微调。现在国内一般微调比较多的模型应该是chatglm,chatglm刚出来的时候少资源情况下只能微调几层,微调

复旦大学邱锡鹏组最新综述:A Survey of Transformers!

作者|Tnil@知乎编辑|NewBeeNLP转眼Transformer模型被提出了4年了。依靠弱归纳偏置、易于并行的结构,Transformer已经成为了NLP领域的宠儿...

#人工智能#算法#机器学习 +2
图像生成模型王牌——Diffusion Transformers系列工作梳理

图像生成模型是目前业内研究的焦点,而目前诸如Sora等前沿生成模型,其所基于的主体架构都是Diffusion Transformers(DiT)。Diffusion Transformers(DiT)是论文Scalable Diffusion Models with Transformers(ICCV 2023)中提出的,是扩散模型和Transformer的结合,也是Sora使用的底层生成模型架构

国内外 48 个最常用学术网站汇总,这可能是史上最全的!

搞科研我们都知道,少不了各个学术网站的助力呢!今天小编特地收集了国内外常用学术网站,对你有用就点个赞吧!欢迎微信后台留言补充。1. sci-hub图片来源:网站截图大名鼎鼎的 sci-h...

Qwen2大模型微调入门实战(附完整代码)

作者:林泽毅编辑:AI生成未来链接:https://zhuanlan.zhihu.com/p/702491999Qwen2(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary)是通义千问团队最近开源的大语言模型,由阿里云通义实验室研发。以Qwen2作为基座大模型,通过指令微调的方式做高精度文本分类,是学习LLM微调的入门...

最新《医学图像分割》综述,详述六大类100多个算法

来源:专知医学图像自动分割是医学领域的一个重要课题,也是计算机辅助诊断领域的一个重要分支。U-Net由于其灵活性、优化的模块化设计和在所有医学图像模式中的成功,是最广泛应用的图像分割体系结构。多年来,U-Net模式获得了学术界和工业界的广泛关注。来自德国亚琛工业大学等学者《医学图像分割》综述,详述六大类100多个算法,非常值得关注!该网络的几个扩展已经被提出,以解决医疗任务所产生的规模和复杂性。解

#算法#计算机视觉#人工智能 +2
详解图像滤波原理及实现!

图像的实质是一种二维信号,滤波是信号处理中的一个重要概念。在图像处理中,滤波是一常见的技术,它们的原理非常简单,但是其思想却十分值得借鉴,滤波是很多图像算法的前置步骤或基础,掌握图像滤波...

    共 57 条
  • 1
  • 2
  • 3
  • 6
  • 请选择