
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2023年中开始,各大LLM厂商开始关注到长上下文的问题。2023年5月,Claude把长度支持到100k tokens;6、7月的时候,ChatGPT3.5也已经支持16k,而ChatGLM2-B最大长度已经可以到32k。(插一句,ChatGLM系列做得一直很不错,从基础模型、长窗口、工具调用、Agent都一直保持在比较前沿的水平,个人最近用ChatGLM3、ChatGLM4体验还是很不错的)差

将知识增强算法融入扩散模型学习,在扩散模型学习过程中,引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素,同时针对训练数据噪声带来的训练图文样本语义偏差问题提出了文本语义补全的方法,对图文的语义一致性进行针对性学习,进而实现精准的细粒度语义控制。,暂不支持pipeline推理、下载和训练。AltDiffusion-m18,支持18种语言的文图生成,包括中文、英文、日语、泰语、韩语、

2023年中开始,各大LLM厂商开始关注到长上下文的问题。2023年5月,Claude把长度支持到100k tokens;6、7月的时候,ChatGPT3.5也已经支持16k,而ChatGLM2-B最大长度已经可以到32k。(插一句,ChatGLM系列做得一直很不错,从基础模型、长窗口、工具调用、Agent都一直保持在比较前沿的水平,个人最近用ChatGLM3、ChatGLM4体验还是很不错的)差

当谈到人工智能领域时,我们不得不提到ChatGPT。许多人都在积极尝试利用它来提高工作效率或解决各种问题。然而,要使用ChatGPT,我们必须克服一些使用门槛。首先,我们需要“科学上网”才能访问它,其次,GPT4的价格相对较高。值得庆幸的是,国内也有一些优秀的大模型平台供我们使用。与ChatGPT相比,这些平台的价格更为经济实惠,而且不需要像“科学上网”这样的额外准备。更重要的是,它们支持的功能也

(1) Fine-Tuning(标准微调)优点:简单易用:直接在预训练模型上进行微调。适应性强:可以针对特定任务调整整个模型的参数。效果显著:通常能显著提高模型在特定任务上的表现。缺点:计算成本高:需要调整模型的大量参数。数据需求较高:为了有效微调,通常需要较多的标注数据。适用场景:当有足够的标注数据和计算资源时,适用于大多数NLP任务。优点:参数高效:只修改或优化模型的一小部分参数。节省计算资源

将知识增强算法融入扩散模型学习,在扩散模型学习过程中,引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素,同时针对训练数据噪声带来的训练图文样本语义偏差问题提出了文本语义补全的方法,对图文的语义一致性进行针对性学习,进而实现精准的细粒度语义控制。,暂不支持pipeline推理、下载和训练。AltDiffusion-m18,支持18种语言的文图生成,包括中文、英文、日语、泰语、韩语、

本地大语言模型已知目前最强的gpt4等大模型是商用闭源的,这些模型参数更大,更加智能,为什么我们会关注开源模型呢?可以本地部署运行(利用自己的电脑或服务器,运行)数据交互不需要和外网连接,数据安全性提升不需要购买服务,不用开会员,跑在自己的电脑上,想用多少就用多少。

当谈到人工智能领域时,我们不得不提到ChatGPT。许多人都在积极尝试利用它来提高工作效率或解决各种问题。然而,要使用ChatGPT,我们必须克服一些使用门槛。首先,我们需要“科学上网”才能访问它,其次,GPT4的价格相对较高。值得庆幸的是,国内也有一些优秀的大模型平台供我们使用。与ChatGPT相比,这些平台的价格更为经济实惠,而且不需要像“科学上网”这样的额外准备。更重要的是,它们支持的功能也

这段时间面试了很多家,也学到了超级多东西。楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合),对于后端的知识比如ML compiler,kernel,cuda相关的了解就比较浅了(问到觉大概率挂)。硬件几乎不太懂。感觉一圈聊下来几点感悟:大模型这方向真的卷,面试时好多新模型,新paper疯狂出,东西出的比我读的快。Research岗位对工程也有要求,工程端也需要了

2023年中开始,各大LLM厂商开始关注到长上下文的问题。2023年5月,Claude把长度支持到100k tokens;6、7月的时候,ChatGPT3.5也已经支持16k,而ChatGLM2-B最大长度已经可以到32k。(插一句,ChatGLM系列做得一直很不错,从基础模型、长窗口、工具调用、Agent都一直保持在比较前沿的水平,个人最近用ChatGLM3、ChatGLM4体验还是很不错的)差
