logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

零一万物代码编程小能手 Yi-Coder 模型实战教程来了

Yi-Coder 系列模型专为编码任务而生,提供 1.5B 和 9B 两种参数。其中,Yi-Coder-9B 的表现优于其他 10B 参数以下的模型,如 CodeQwen1.5 7B 和 CodeGeex4 9B,甚至能够与 DeepSeek-Coder 33B 相媲美。模型特点尽管 Yi-Coder 的参数量相对较小,但它在各种任务,包括代码生成、代码理解、代码调试和代码补全中的表现十分出色。1

文章图片
#人工智能#深度学习#算法
Ollama 可以玩 GLM4和CodeGeeX4了

使用ollama create命令创建自定义模型。

文章图片
#自然语言处理#bert#人工智能 +1
动手实现 Transformer,算法面试轻松搞定

*(https://arxiv.org/abs/1901.07291):**跨语言语言模型 (XLM) 探索了构建多语言模型的多个预训练目标,包括来自 GPT 的自回归语言建模和来自 BERT 的 MLM,还将 MLM 拓展到多语言输入,提出了翻译语言建模 (Translation Language Modeling, TLM)。**(https://arxiv.org/abs/2007.1406

文章图片
#transformer#算法#面试 +4
15个 Cursor 小技巧,让你精通AI编程

想要让Cursor完全按照你的编码习惯来,可以设置自定义AI规则:全局规则:进入Cursor设置,选择“常规”选项卡,然后点击“AI规则”进行配置。项目规则:在你的项目根目录下创建一个.cursorrules文件,定义项目特定的规则。例如,你的.cursorrules文件可能包含:始终使用TypeScript,不允许例外。严格遵守团队的代码风格指南。强调函数式编程。确保注释清晰解释代码的“为什么”

文章图片
#人工智能#深度学习
LangChain 入门必备指南,轻松学习、游刃有余

LangChain 使构建由LLM驱动的应用程序变得简单。它提供的工具极大简化了上述所有挑战。使用LangChain,可以轻松地在统一的界面中与不同的LLM类型进行交互,管理模型版本、管理提示版本,并连接LLM。所有这些功能都打包在一个易于使用的API(应用程序接口)中,因此可以在应用程序中快速利用LLM。

文章图片
#学习#自然语言处理#人工智能
从头讲解vLLM推理加速原理

简而言之,PagedAttention 背后的想法是创建映射到 GPU 内存中的物理块的连续虚拟块。这种加权求和的方式使得模型能够根据当前上下文的需求,灵活地整合来自不同位置的信息,从而形成对当前词"it"的理解。例如,对于融合重塑和块写入,开发了优化的内核,将新的 KV 缓存拆分为块,重塑它们以实现高效的内存访问,并根据块表保存它们,所有这些都融合到单个内核中以减少开销。序列A的逻辑块现在指向这

文章图片
#自然语言处理#人工智能
构建知识图谱:从技术到实战的完整指南

知识图谱,作为人工智能和语义网技术的重要组成部分,其核心在于将现实世界的对象和概念以及它们之间的多种关系以图形的方式组织起来。它不仅仅是一种数据结构,更是一种知识的表达和存储方式,能够为机器学习提供丰富、结构化的背景知识,从而提升算法的理解和推理能力。在人工智能领域,知识图谱的重要性不言而喻。它提供了一种机器可读的知识表达方式,使计算机能够更好地理解和处理复杂的人类语言和现实世界的关系。通过构建知

文章图片
#知识图谱#人工智能#自然语言处理 +2
一文看尽大模型对齐技术:RLHF、RLAIF、PPO、DPO……

为此,需要对 LLM 进行持续的微调,进行迭代式 / 在线学习,即使用中间策略为 prompt 生成响应,再使用预言机(oracle)为这样的成对数据给出偏好反馈,再将这些反馈馈送给策略。相反,Anthropic 的研究者评估了大小在 13M 到 52B 之间的 7 种不同模型,这些模型的大小按 4 倍的几何级数增长。从结果上看,人类评估表明「相比于 175B 的 GPT-3,人们 更偏好 1.3

文章图片
#自然语言处理#人工智能
一文彻底搞懂大模型 - 基准测试(Benchmark)

最近这一两周看到不少互联网公司都已经开始秋招提前批面试了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。LLM(Large Language Model,大型语言模型)中的Benchmark(基准测试)是用于衡量和比较不同LLM性能的一组经过精心设计的测

文章图片
#自然语言处理#bert#人工智能 +1
一文彻底搞懂 Qwen2 :源码解析

中,对于输入序列中的每个位置 (i),其嵌入向量 (x_i) 会被一个旋转矩阵 (R_i) 进行变换:其中,旋转矩阵 (R_i) 是根据位置 (i) 计算得到的。中,如果没有传递,将使用模型的默认生成配置。: 束采样结合了束搜索和采样的特点,在每一步生成时,既保留多个候选序列,又通过采样选择下一个词。: 辅助生成是一种结合了多种解码方法的策略,通常在生成过程中引入外部知识或规则,以指导生成过程。:

文章图片
#算法#面试#自然语言处理 +2
    共 11 条
  • 1
  • 2
  • 请选择