logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

手搓AI大模型应用获25万用户,果断辞职创业,结果收入不如摆摊

一位网友指出:「作者的应用程序每周活跃用户 7 万,每月 4 美元的付费用户只有 400 人左右,400/70k ≈ 0.57%,对于免费增值业务模式来说,这个百分比都非常低。一个大模型工具,在吸引用户的过程中一直免费的,这给制作人员带来了压力。的确,一个应用程序付费的前提是用户认为该应用有使用价值,应用一推出就全额付费,用户可能连使用机会都没有。去年 3 月,OpenAI 推出了 ChatGPT

文章图片
#人工智能
当大模型预训练数据不再像以前增长,OpenAI o1应对机制的探索和理解

Ilya Sutskever在12月份NeurIPS 2024演讲,提到LLM预训练数据不再增长,因为只有一个互联网。这句话完整意思应该是相对于以前,OpenAI 提出LLM的scaling laws(Scaling Laws for Neural Language Models[1]), 模型的性能随着数据,计算量,模型参数大小的增加而增加。

文章图片
#人工智能#机器学习#深度学习
阿里WebWalker:一个提升RAG多维信息检索能力的Multi-Agent框架

检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能会检索浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。为了解决这个问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker,一个通过explorer-critic范式模拟人类网页导航的multi-

#人工智能#数据挖掘#机器学习
什么是后训练?大语言模型训练后优化方法综述,87页pdf

大语言模型(LLMs)的出现彻底改变了自然语言处理领域,使其在从对话系统到科学探索的各个领域中变得不可或缺。然而,其预训练架构在特定场景中往往表现出局限性,包括推理能力受限、伦理不确定性以及领域特定性能欠佳等问题。这些挑战促使了训练后语言模型(Post-training Language Models, PoLMs)的发展,以应对这些不足,例如OpenAI-o1/o3和DeepSeek-R1(统称

文章图片
#语言模型#人工智能
DeepSeek-V3技术报告完整解读

原文:https://zhuanlan.zhihu.com/p/1489055778212月中旬,我浙之光Deepseek宣布完成了v2.5的最后一次升级之后,约过了十来天,v3.0就正式上线了。DeepSeek-V3 是一款性能卓越的语言模型,整体参数规模达到 671B,其中每个 token 激活的参数量为。评估结果表明,DeepSeek-V3,并能够与主流闭源模型相媲美。图1:DeepSeek

#深度学习#机器学习#人工智能
国产AI首次「长出」原生记忆,非Transformer架构成新王!机器狗当场引爆WAIC

不同于「上下文工程」等方案对记忆信息的显性存储,RockAI将有效信息隐式地记忆到多层神经网络的权重,通过神经网络的多层级抽象、非线性建模等能力,实现更优的记忆性能。比如他们展示的那只机器狗,已经能在不断交互中展现出对环境、人的偏好乃至过往经历的「记忆」,表现的行为更像生命体,也意味着:AI开始真正「记住」你。更重要的是,这样的「有记忆的大模型」并不依赖云端,而是实现了离线部署,所有记忆都发生在你

#人工智能#transformer#深度学习
北大DeepSeek论文或预定ACL Best Paper!梁文锋署名

袁境阳北京大学计算机学院研究生,导师为张铭教授。主要研究方向是高效大语言模型和稀疏注意力机制,曾获北京市优秀毕业生、北京大学优秀毕业生等称号。罗钧宇北京大学计算机学院博士生,导师为张铭教授。他的研究方向关注于高效的LLM、LLM后训练、自适应学习等。在ICML,CVPR,ACL,TPAMI等顶级刊物上以第一作者发表多篇文章。赵禹昇北京大学计算机学院研究生,导师为张铭教授。研究方向包括图神经网络、时

#人工智能
刚刚!北大校友Lilian Weng最新博客来了:Why We Think

他们设计的奖励函数可以使正确的 CoT 比错误的 CoT 获得更高的奖励,短的正确 CoT 比长的正确 CoT 获得更高的奖励,短的错误 CoT 比长的错误 CoT 获得更高的惩罚。如果模型是忠实的,它就应该明确承认提示的影响,并承认其答案的变化是由提示引起的。这种对 CoT 推理的依赖性(以使用 CoT 与不使用 CoT 得到相同答案的百分比来衡量)在多选题中并不总是随着模型大小的增加而增加,但

#人工智能#transformer#深度学习
大模型应用门槛:→0

多个头部高校的本科通识课率先引入智谱API,供学生进行大模型应用搭建,学生团队已孵化出多个具有示范价值的项目案例,助力产教融合。多个头部高校的本科通识课率先引入智谱API,供学生进行大模型应用搭建,学生团队已孵化出多个具有示范价值的项目案例,助力产教融合。利用智谱API批量处理能力,科研学者成功处理日均千万级蛋白质信息,提升科研论文的数据处理效率,颠覆传统科研数据准备时间。利用智谱API批量处理能

文章图片
#人工智能#transformer#深度学习
Muon作者仅用一篇博客,就被OpenAI看中了

注意,这篇博客发表于 2024 年 12 月 8 日,因此其中对前沿指标的描述可能会略有过时,比如 NanoGPT 速通结果就已经被多次刷新了,下面展示了 Keller Jordan 托管的 NanoGPT 速通的最新八条世界记录,其中最新记录是今年 5 月 25 日创造的,已达到惊人的 2.979 分钟!一直以来,研究界的衡量标准过度局限于论文发表,而 Keller Jordan 的案例告诉我们

#人工智能
    共 238 条
  • 1
  • 2
  • 3
  • 24
  • 请选择