简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
点击上方,选择星标或置顶,每天给你送干货!阅读大概需要10分钟跟随小博主,每天进步一丢丢编辑:Amusi | 来源:知乎https://www.zhihu.com/question/...
每天给你送来NLP技术干货!来自:圆圆的算法笔记对比学习是无监督表示学习中一种非常有效的方法,核心思路是训练query和key的Encoder,让这个Encoder对相匹配的query和key生成的编码距离接近,不匹配的编码距离远。想让对比学习效果好,一个核心点是扩大对比样本(负样本)的数量,即每次更新梯度时,query见到的不匹配key的数量。负样本数量越多,越接近对比...
知乎:是念链接:https://zhuanlan.zhihu.com/p/710021282学术分享,侵删今年做过一段时间的alignment工作,做得有点不开心,各种social的原因,觉得自己的发挥受到了限制,最近又闲下来了,所以看了一些相关的论文,但是对这个方向还是挺感兴趣的,这里来分享一下我对alignment的一些理解。对齐一般使用的是chat或者instruct模型,而不是base模型
每天给你送来NLP技术干货!文 | ZenMoore编 | 小轶源 |夕小瑶的卖萌屋自从 Dr.Pengfei Liu 的那篇 prompt 综述发表开始,prompt 逐渐红得发紫。近...
引言本文整理了2024年6月全球各大高校与科研机构发布的118篇代码大模型相关论文。根据论文内容,我们将其整理为基座模型与训练数据、代码微调、测试基准、代码Agent、低资源语言处理、AI代码安全与分析、人机交互、软件工程下游任务应用(包括代码生成、代码总结、代码表征、SQL生成、软件测试、漏洞检测、日志分析、软件建模)等主题的论文专辑。全文篇幅较长,建议电脑端阅读。若您想了解其他时期的代码大模型
点击下面卡片,关注我呀,每天给你送来AI技术干货!作者 |蔡健宇来自 |MIRA Lab一、简介1. 什么是问答?问答 (Question Answering) 是自然语言处理 (Na...
来自:NLP工作站进NLP群—>加入NLP交流群写在前面预训练(Pretraining)是一个非常消耗资源的工作,尤其在 LLM 时代。随着LLama2的开源,越来越多人都开始尝试在这个强大的英文基座模型上进行中文增强。但,我们如何才能保证模型在既学到「中文知识」的情况下,又不丢掉原有的「英文知识」呢?今天给大家带来一篇 Continue Pretraining 的论文(来自何枝大佬,知乎@
来自:吃果冻不吐果冻皮进NLP群—>加入NLP交流群近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。而大模型压缩主要分为如下几类:剪枝(Pruning)知识蒸馏(Knowledge Distillation)量化(Quantization)低秩分
NLP开发者的又一福音!!8月27日,智谱AI BigModel开放平台宣布:GLM-4-Flash 全部免费,同时开启了GLM-4-Flash 限时免费微调活动。值得注意的是,GLM-4-flash的上下文长度高达128k,直接媲美GPT-4-turbo模型。128k的上下文长度意味着我们甚至可以输入接近20万字的中文进行检索,也就是说GLM4-flash能够秒读完一部长篇小说,然后和我们交流心
知乎:Cassie链接:https://zhuanlan.zhihu.com/p/721908386写在前面Qwen团队在 2024年9月19日开源了Qwen2-VL-72B 模型,并发布了技术报告。这里简单介绍下“国货之光”——Qwen2-VL-72B 的技术细节。1. Contributions(1) 多语言模型Qwen 在多语言OCR任务上的表现。(2) 支持任意分辨率、比例的素材(img