登录社区云,与社区用户共同成长
邀请您加入社区
这篇文章探讨一下 AI “一本正经胡说八道” 的根源。首先我们得知道什么是大模型幻觉。然后尝试简单回答为什么会有幻觉,最后结合OpenAI发表的《语言模型为何产生幻觉》论文来揭示幻觉的本质。
# NLP工程实战:类别不平衡与长文本处理的高效解决方案> 本文深入解析NLP工程中的两大经典难题——类别不平衡与序列长度限制,系统梳理SMOTE、Focal Loss、Longformer、Reformer等核心Trick的原理与实现,助力工程师在真实场景中提升模型鲁棒性与泛化能力。## 一、引言:为什么需要NLP Trick?在工业级NLP系统中,学术论文中的“标准假设”往往与现实脱节:- *
NLP推理优化的本质,是在计算效率与语义完整性之间寻找精妙平衡。CANN通过将领域知识(如注意力机制特性、文本分布规律)深度融入软件栈,使大模型推理从“能用”走向“好用”。当金融风控系统能在毫秒级识别风险信号,当智能客服能流畅处理复杂对话,技术的价值才真正绽放。这不仅是算子的胜利,更是对“用户时间”这一稀缺资源的尊重。cann组织链接:https://atomgit.com/cannops-nn仓
文章通过"培养天才学生"的比喻,解析大模型训练四阶段:预训练(博览群书,构建基础常识)、对齐(教养规矩,塑造价值观)、推理增强(独立思考,提高逻辑准确性)、智能体(工具调用,解决实际问题)。各阶段分别采用Transformer/MLA/RoPE、SFT/RLHF/DPO、CoT/ToT、Tool Calling/RAG/MCP等核心技术,最终实现从知识获取到实际应用的完整AI进化过程。
摘要:2024年大模型应用正经历向AIAgent的范式转变,企业级Agent架构需具备感知-决策-执行-记忆闭环能力。核心支柱包括:1)ReAct推理框架的工程化实现,解决工具调用与死循环问题;2)MCP协议标准化工具系统;3)三级记忆架构(工作/短期/长期)与混合检索技术;4)分层规划系统。多智能体协作通过AutoGen等框架实现角色分工与消息驱动,关键技术挑战涵盖容错熔断、可观测性调试及组织级
CANN 实战:自然语言处理(NLP)全链路加速指南
用 CANN 部署大语言模型(LLM)实战指南:让百亿参数“跑”在国产硬件上
在 LLM(大模型)应用开发中,日志是定位问题、优化性能、保障系统稳定的核心工具。但传统 Python logging 模块的繁琐配置、异步场景下的日志阻塞、异常堆栈的不完整记录,常常让开发者在日志配置上花费大量时间,而无法专注于 LLM 业务逻辑。Loguru 作为一款 “开箱即用” 的 Python 日志库,凭借其极简配置、自动格式化、异步支持、异常捕获等特性,完美解决了 LLM 开发中的日志
在大语言模型(LLM)开发热潮中,Python 后端框架是将 LLM 能力服务化的核心桥梁 —— 无论是搭建大模型 API 网关、开发对话助手 Web 应用,还是构建企业级 LLM 知识库系统,都需要选择合适的后端框架。FastAPI、Flask、Django 作为 Python 后端的 “三剑客”,各有优势与适用场景,本文将从安装配置、基础使用、LLM 实战、对比分析、学习资源五个维度,结合 L
很多人以为RAG的核心是检索或生成, 但真正决定系统表现的,往往是Query 理解的能力。理解得好,后面的检索就像打靶——稳、准、狠。理解得差,模型再强也答不对。“RAG的智能,不在模型,而在解析。在过去的几个月中,我们已经有超过80个同学(战绩可查)反馈拿到了心仪的offer,包含腾讯、阿里、字节、华为、快手、智谱、月之暗面、minimax、小红书等各家大厂以及传统开发/0基础转行的同学在短时间
本文系统介绍了构建具身智能系统的五个关键步骤:构建物理实体、运动控制、环境感知、认知决策和自主学习。重点分析了四种常用电机(舵机、步进电机、无刷电机、编码器)的工作原理、优缺点及适用场景,指出编码器是实现高精度控制的核心组件。文章还阐述了仿真平台在机器人开发中的重要性,能够降低研发成本、提高成功率。通过这五个步骤的递进实现,机器人可以从机械装置进化为具备自主学习和适应能力的智能体。
文档摘要:1000字的技术文章→200字要点,比如输入一篇关于“LLM幻觉问题”的文章,摘要会包括“幻觉定义、原因、解决方法、行业影响”。会议录音转摘要:将1小时的会议录音(转文字后)浓缩为500字摘要,标注“决策事项、待办任务、责任人”。新闻摘要:输入一篇5000字的深度报道,模型能提炼出“事件起因、经过、结果、各方观点”。Transformer架构:是LLM的“骨架”——通过自注意力机制实现并
大型语言模型 (LLM) 作为近年来人工智能领域的明星技术,以其强大的文本生成、翻译、问答等能力,吸引了广泛的关注。然而,LLM 并非魔法,其能力的发挥很大程度上取决于我们如何与之“沟通”,即如何编写有效的 Prompt。想象一下,LLM 就像一位技艺精湛的画家,而 Prompt 则是你提供的画布和颜料,以及对作品的期望描述。Prompt 的质量直接影响着最终作品的风格和效果。因此,优化 Prom
25年1月来自马里兰大学的论文“Benchmark Evaluations, Applications, and Challenges of Large Vision Language Models: A Survey”。多模态视觉语言模型 (VLM) 已成为计算机视觉和自然语言处理交叉领域的一项变革性技术,使机器能够通过视觉和文本模态感知和推理世界。例如,CLIP [209]、Claude [1
大型语言模型 (LLM) 是一种人工智能 (AI)人工智能 (AI)人工智能 (AI)程序,它可以识别和生成文本以及完成其他任务。LLM 经过了庞大的数据集庞大的数据集庞大的数据集的训练,因此称之为“大型”。LLM 在机器学习机器学习机器学习的基础上构建:具体来说,它是一种称为 Transformer 模型的神经网络神经网络神经网络。简单地说,LLM 是一个计算机程序,已经为它提供了足够多的示例,
本文着重于对各种的方法的思想总结,非严谨推导来自:无数据不智能进NLP群—>加入NLP交流群ChatGPT从入门到深入(持续更新中)循环记忆输入Recurrent Memory Transformer (RMT)总体思想:将长文本分段之后得到嵌入向量与记忆向量拼接,得到新的记忆向量之后与下一段再循环输入transformer。注意:此论文实验结果在bert-base-cased(encode
稳居技术岗榜首,比后端开发高出32%。某招聘平台数据显示,“算法工程师”相关搜索量近三年增长217%,甚至催生了“算法媛”“算法课”等衍生商业概念。但在某大厂算法团队的年度离职面谈中,我听到最多的却是:“每天80%时间在处理数据倾斜,和想象中的‘研发高精尖模型’完全不一样”“35岁突然发现,能投递的岗位比应届生还少”。当你不再纠结于模型精度的0.1%提升,转而优化线上服务的响应速度,才算真正踏入这
摘要 视觉语言模型(VLM)为无人机视觉语言导航(VLN)带来革命性变革。本文系统分析了GPT-4V、LLaVA和Qwen-VL等主流VLM的技术特点及其在VLN中的应用。这些模型通过统一视觉和语言表示,实现了端到端的多模态理解,显著提升了导航系统的感知和决策能力。文章详细介绍了各模型的架构设计、部署方法及适用场景,并对比了它们在参数规模、开源性和多语言支持等方面的差异。研究表明,VLM通过直接处
借助上述这些现成可用的模型,你能够为各类具体任务精准选择适配的工具。本榜单涵盖了兼具通用性与专业性的模型组合,既包括Meta、DeepSeek等机构推出的通用型模型,也包含Stable Diffusion、StarCoder 2等专注于特定领域的专业模型。这种丰富的多样性表明,大型语言模型领域并非仅由早期采用者或科技巨头所垄断,而是一个对各类创新主体开放包容的空间。
22年12月来自谷歌的论文“Large Language Models Encode Clinical Knowledge“。
随着大语言模型在现实场景中逐渐落地(例如 ChatGPT 和 Gemini),其生成内容的安全性也开始逐渐被大众关注。通常来讲,我们希望大模型避免生成包含危险内容的回复,从而减少对用户的不良影响,因此评测一个大模型的安全性并分析其弱点成为了一件急需完成的事情。上海人工智能实验室研究团队提出了新的大模型安全 Benchmark SALAD-Bench。相比以往的 Benchmarks,SALAD-B
自ChatGPT模型问世后,在全球范围内掀起了AI新浪潮。有很多企业和高校也随之开源了一些效果优异的大模型,例如:Qwen系列模型、MiniCPM序列模型、Yi系列模型、ChatGLM系列模型、Llama系列模型、Baichuan系列模型、Deepseek系列模型、Moss模型等。图片来自:A Survey of Large Language Models并且在去年的一整年中,大多数人都在做底座通
自然语言处理
——自然语言处理
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net