简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
来源:机器之心作者:Sebastian RaschkaLoRA 微调方法,随着大模型的出现而走红。最近几个月,ChatGPT 等一系列大语言模型(LLM)相继出现,随之而来的是算力紧缺日益严重。虽然人人都想打造专属于自己的大模型,但是能负担得起上亿参数模型训练的机构却寥寥无几。在快速发展的人工智能领域,以高效和有效的方式使用大型语言模型正变得越来越重要。LoRA(Low-Rank Adaption
梦晨 发自 凹非寺来源 |量子位QbitAI自动测试分数达到ChatGPT的99.3%,人类难以分辨两者的回答……这是开源大模型最新成果,来自羊驼家族的又一重磅成员——华盛顿大学原驼(Guanaco)。更关键的是,与原驼一起提出的新方法QLoRA把微调大模型的显存需求从>780GB降低到<48GB。开源社区直接开始狂欢,相关论文成为24小时内关注度最高的AI论文。以Meta的美洲驼..
作者:归来仍是少年@知乎一、前言自从chatgpt的爆火,也同时引发了国内大模型的热潮,像百度出了文心一言、阿里出了通义千问等,但是这些大模型并未开源,国内外开源的中等规模的模型有meta的LLaMA,斯坦福基于LLaMA微调的Alpaca,国内的chatglm,这种能够让一般的公司来做微调。现在国内一般微调比较多的模型应该是chatglm,chatglm刚出来的时候少资源情况下只能微调几层,微调
作者|Tnil@知乎编辑|NewBeeNLP转眼Transformer模型被提出了4年了。依靠弱归纳偏置、易于并行的结构,Transformer已经成为了NLP领域的宠儿...
图像生成模型是目前业内研究的焦点,而目前诸如Sora等前沿生成模型,其所基于的主体架构都是Diffusion Transformers(DiT)。Diffusion Transformers(DiT)是论文Scalable Diffusion Models with Transformers(ICCV 2023)中提出的,是扩散模型和Transformer的结合,也是Sora使用的底层生成模型架构
搞科研我们都知道,少不了各个学术网站的助力呢!今天小编特地收集了国内外常用学术网站,对你有用就点个赞吧!欢迎微信后台留言补充。1. sci-hub图片来源:网站截图大名鼎鼎的 sci-h...
作者:林泽毅编辑:AI生成未来链接:https://zhuanlan.zhihu.com/p/702491999Qwen2(https://modelscope.cn/models/qwen/Qwen2-1.5B-Instruct/summary)是通义千问团队最近开源的大语言模型,由阿里云通义实验室研发。以Qwen2作为基座大模型,通过指令微调的方式做高精度文本分类,是学习LLM微调的入门...
来源:专知医学图像自动分割是医学领域的一个重要课题,也是计算机辅助诊断领域的一个重要分支。U-Net由于其灵活性、优化的模块化设计和在所有医学图像模式中的成功,是最广泛应用的图像分割体系结构。多年来,U-Net模式获得了学术界和工业界的广泛关注。来自德国亚琛工业大学等学者《医学图像分割》综述,详述六大类100多个算法,非常值得关注!该网络的几个扩展已经被提出,以解决医疗任务所产生的规模和复杂性。解
图像的实质是一种二维信号,滤波是信号处理中的一个重要概念。在图像处理中,滤波是一常见的技术,它们的原理非常简单,但是其思想却十分值得借鉴,滤波是很多图像算法的前置步骤或基础,掌握图像滤波...