
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
一位网友指出:「作者的应用程序每周活跃用户 7 万,每月 4 美元的付费用户只有 400 人左右,400/70k ≈ 0.57%,对于免费增值业务模式来说,这个百分比都非常低。一个大模型工具,在吸引用户的过程中一直免费的,这给制作人员带来了压力。的确,一个应用程序付费的前提是用户认为该应用有使用价值,应用一推出就全额付费,用户可能连使用机会都没有。去年 3 月,OpenAI 推出了 ChatGPT

Ilya Sutskever在12月份NeurIPS 2024演讲,提到LLM预训练数据不再增长,因为只有一个互联网。这句话完整意思应该是相对于以前,OpenAI 提出LLM的scaling laws(Scaling Laws for Neural Language Models[1]), 模型的性能随着数据,计算量,模型参数大小的增加而增加。

检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能会检索浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。为了解决这个问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker,一个通过explorer-critic范式模拟人类网页导航的multi-
大语言模型(LLMs)的出现彻底改变了自然语言处理领域,使其在从对话系统到科学探索的各个领域中变得不可或缺。然而,其预训练架构在特定场景中往往表现出局限性,包括推理能力受限、伦理不确定性以及领域特定性能欠佳等问题。这些挑战促使了训练后语言模型(Post-training Language Models, PoLMs)的发展,以应对这些不足,例如OpenAI-o1/o3和DeepSeek-R1(统称

原文:https://zhuanlan.zhihu.com/p/1489055778212月中旬,我浙之光Deepseek宣布完成了v2.5的最后一次升级之后,约过了十来天,v3.0就正式上线了。DeepSeek-V3 是一款性能卓越的语言模型,整体参数规模达到 671B,其中每个 token 激活的参数量为。评估结果表明,DeepSeek-V3,并能够与主流闭源模型相媲美。图1:DeepSeek
不同于「上下文工程」等方案对记忆信息的显性存储,RockAI将有效信息隐式地记忆到多层神经网络的权重,通过神经网络的多层级抽象、非线性建模等能力,实现更优的记忆性能。比如他们展示的那只机器狗,已经能在不断交互中展现出对环境、人的偏好乃至过往经历的「记忆」,表现的行为更像生命体,也意味着:AI开始真正「记住」你。更重要的是,这样的「有记忆的大模型」并不依赖云端,而是实现了离线部署,所有记忆都发生在你
袁境阳北京大学计算机学院研究生,导师为张铭教授。主要研究方向是高效大语言模型和稀疏注意力机制,曾获北京市优秀毕业生、北京大学优秀毕业生等称号。罗钧宇北京大学计算机学院博士生,导师为张铭教授。他的研究方向关注于高效的LLM、LLM后训练、自适应学习等。在ICML,CVPR,ACL,TPAMI等顶级刊物上以第一作者发表多篇文章。赵禹昇北京大学计算机学院研究生,导师为张铭教授。研究方向包括图神经网络、时
他们设计的奖励函数可以使正确的 CoT 比错误的 CoT 获得更高的奖励,短的正确 CoT 比长的正确 CoT 获得更高的奖励,短的错误 CoT 比长的错误 CoT 获得更高的惩罚。如果模型是忠实的,它就应该明确承认提示的影响,并承认其答案的变化是由提示引起的。这种对 CoT 推理的依赖性(以使用 CoT 与不使用 CoT 得到相同答案的百分比来衡量)在多选题中并不总是随着模型大小的增加而增加,但
多个头部高校的本科通识课率先引入智谱API,供学生进行大模型应用搭建,学生团队已孵化出多个具有示范价值的项目案例,助力产教融合。多个头部高校的本科通识课率先引入智谱API,供学生进行大模型应用搭建,学生团队已孵化出多个具有示范价值的项目案例,助力产教融合。利用智谱API批量处理能力,科研学者成功处理日均千万级蛋白质信息,提升科研论文的数据处理效率,颠覆传统科研数据准备时间。利用智谱API批量处理能

注意,这篇博客发表于 2024 年 12 月 8 日,因此其中对前沿指标的描述可能会略有过时,比如 NanoGPT 速通结果就已经被多次刷新了,下面展示了 Keller Jordan 托管的 NanoGPT 速通的最新八条世界记录,其中最新记录是今年 5 月 25 日创造的,已达到惊人的 2.979 分钟!一直以来,研究界的衡量标准过度局限于论文发表,而 Keller Jordan 的案例告诉我们







