logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读

点击蓝字,关注我们检索增强生成(RAG:Retrieval Augmented Generation)技术旨在把信息检索与大模型结合,以缓解大模型推理“幻觉”的问题。近来关于RAG的研究如火如荼,支持RAG的开源框架也层出不穷,并孕育了大量专业领域的AI工程应用。我们设计了一个通用的开源RAG框架,以兼容未来多样化的基础研究建设和工程化应用诉求。01概述 RAG的目标是通过知识库增强内容生成的..

DeepSeek,连续开源王炸!

公众号关注“GitHubDaily”设为 “星标”,每天带你逛 GitHub!当 ChatGPT、Claude 这些闭源大模型严防死守技术秘密时,DeepSeek 却反其道而行,选择了全面开源,为整个 AI 生态注入新的活力。在过去短短一周内,DeepSeek 连续在 GitHub 开源了 8 个核心技术项目,完成了一次震撼业界的技术开源盛宴。与以往那些包装鲜艳的应用不同,DeepSeek 这次.

#开源
提示攻击再次攻击大模型,被催眠后的ChatGPT可能会泄露重要信息-大模型的隐藏风险...

“研究者通过实验发现:可以通过特定的提示,诱导语言模型生成误导性、风险的内容。这种“催眠”语言模型的做法在一定程度上模拟了黑客攻击手段。攻击者可以利用模型的语言生成能力,制造看似可信的虚假内容,发动诱骗、传播虚假信息等攻击。为降低这种风险,需要从模型训练和使用方面采取必要的安全措施。同时,用户也应保持警惕,对语言模型生成内容的可靠性进行辨别。”‍‍‍‍01—随着ChatGPT这类大型语言模型 (.

#人工智能
普通电脑也能跑大模型,三步搞定私人AI助手 | LLaMA-3本地部署小白攻略

“在你的电脑上运行一个强大的AI助手,它不仅能力超群,还把所有秘密都藏在你的硬盘里。好奇这是如何实现的吗?动动手,三分钟就可以完成LLaMA-3的本地部署!”01—LLaMA-3‍‍‍‍最近在试验检索增强生成(RAG)的项目,想试试换一个强点的模型试试看效果是否有改观,动手试了一下本地搭建一个私有大模型作为基模型,这次试试LLama3,下次搭阿里通义千问的Qwen2模型。早在4月份,Meta开源.

#人工智能
Search-R1:让大模型学会“检索+推理”的新范式

1)使用检索token mask技术稳定RL训练,2)支持多轮交错推理和搜索,以支持复杂的任务解决,3)设计了一个简单而有效的基于结果的奖励函数。总结2:(b) 展示了检索到的 token 损失遮蔽研究,检索 token 损失遮蔽可以带来更大的 LLM 效果提升,减轻发生意外的优化效果,并确保更稳定的训练动态。实验结果表明,无论使用基础模型还是指令调整模型,SEARCH-R1都能带来显著的性能提升

真香!智谱大模型,有了首个免费的API

机器之心报道机器之心编辑部大模型API,正式进入Flash时代。最近一段时间,国内外的大模型行业卷的是「快速版」。5 月谷歌 I/O 大会上,新发布的 Gemini 1.5 大模型序列中出现了 Flash 版,主打轻量化和响应速度。到 7 月,OpenAI 又在 GPT-4o 的基础上推出了 Mini 版,号称比当前最为先进的小模型能力更强,价格更低。如果你现在访问 ChatGPT,会发现原来的默

#人工智能
解读大模型(LLM)的token

当人们谈论大型语言模型的大小时,参数会让我们了解神经网络的结构有多复杂,而token的大小会让我们知道有多少数据用于训练参数。正像陆奇博士所说的那样,大型语言模型为从文本生成到问题回答的各种任务提供了令人印象深刻的能力,不仅彻底改变了自然语言处理(NLP)领域,而且作为基础模型会改变整个软件生态。这些模型的一个经常被忽视的关键点是“token”的作用,即模型处理的各个信息单元。大型语言模型(LLM

为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(三)...

“ ChatGPT 的 Transformer 神经网络架构,以及海量的数据训练让它能够像人类一样进行写作。”经过前面两期漫长的介绍文章:为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(一)为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(二)这么硬核的技术科普内容,朋友们难得还能继续坚持阅读下来

#语言模型#人工智能#自然语言处理
为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”,它的回答会有效得多?(一)...

“太长不看总结版:LLM大模型的本质在于计算某个词汇后面应该跟着哪些词汇的概率。当问题给定了特定的限定范围后,它能够找到一条相对明确的计算路径,从一系列概率分布中挑选出所需的答案。否则,它会根据最常见且最高概率的组合方式生成回答内容。”01—缘起在前面文章中:被卖到 2w 的 ChatGPT 提示词 Prompt 你确定不想要吗?点燃创作灵感:Prompt 实践指南揭秘!让 ChatGPT 更智.

#语言模型#人工智能#自然语言处理
如何避免ChatGPT,ChatGLM这类大语言模型胡说八道

“ChatGPT,ChatGLM这类大语言模型一本正经的胡说八道,可能也是它创造性回答的部分。那么谁来判断它在编造无中生有的内容?恐怕只有人才能判断。模型怎么会产生幻觉,我们又怎么避免它产生幻觉?”01—昨天体验了国产大模型:ChatGLM2-6B 初体验,可以看到在实战问题环节,询问高考报考志愿选择院校的建议,由于提问时问题中的错别字,导致模型在回答时,输出了一个编造的“北极邮电大学”的内容:.

#语言模型#人工智能#自然语言处理
    共 169 条
  • 1
  • 2
  • 3
  • 17
  • 请选择