登录社区云,与社区用户共同成长
邀请您加入社区
那一刻,我同时看见了“美”这个字(文字),听见了他说的“大羊”“献给天地祖宗”(语言),然后我脑子里那个“美丽不是脸”的东西(思维)就长出来了。做饭的“少许”,锁门的动作,点头的幅度,挂电话前的那声“嗯”——这些地方,我们从来不停下来看。他把“美丽”这个词,从他的手里,递到我的手里。他把我当成可以对话的“人”,用一场漫长的对话,在我身上种下了“追问部首”的习惯。看见“美丽”的部首是大羊,看见“谎言
引用格式。
主流语言模型幻觉率横向评测:5大测试集对比分析
本文深入探讨在 AMD Instinct MI300X (192GB HBM3) 上使用 vLLM 框架部署 Llama3-70B 大语言模型的完整流程。重点讲解连续批处理 (Continuous Batching) 技术、INT8/FP8 量化加速策略,以及 192GB 超大显存的极致利用方案。实测数据显示,MI300X 在 INT8 量化下可实现 52 tokens/s 的吞吐量,成本仅为 A
本文探讨了大语言模型对学术论文写作的影响及应对策略。研究表明,AI工具能提升非母语者的写作效率,但过度依赖会导致认知能力下降23%。当前评价体系面临"论文洪水"冲击,部分研究者甚至操纵AI评审。建议将AI定位为科研助手而非代写工具,聚焦核心创新与交叉学科研究,重构以质量为导向的评价体系。关键数据:长期使用ChatGPT使大脑前额叶活跃度降低23%,语言生成脑区激活仅剩40%。作
【Python数据分析实践】2026年05月04日,使用Python爬虫采集20+公开新闻源数据,通过jieba分词、SnowNLP情感分析、TF-IDF关键词提取、LDA主题模型等NLP技术进行文本挖掘,并使用Matplotlib/Plotly进行数据可视化。本文为自动化脚本输出的技术学习笔记。
自然语言处理是人工智能的重要分支,核心目标是让计算机能够理解、解释和生成人类日常使用的自然语言(如中文、英文),最终实现人与机器之间的自然语言交流。如果用一句话概括其意义:NLP就是教机器“读懂人话”。如果一个人连“读懂人话”都做不到,何谈更复杂的任务呢?在NLP中,模型的输入不是“你好世界”这样的字符串,而是一串离散的“token”。分词就是将连续的自然语言文本切分为最小语义单元——token。
文章摘要 《大模型蒸馏详解》系统梳理了知识蒸馏技术的发展脉络与应用实践。文章从Hinton 2015年提出的经典蒸馏理论出发,详细解析了三大蒸馏范式:白盒蒸馏(直接访问教师模型内部状态)、黑盒蒸馏(仅通过API交互)和灰盒蒸馏(部分访问内部信息)。重点分析了DeepSeek R1的创新突破——通过黑盒蒸馏将大模型的推理能力迁移到小模型,证明了"蒸馏>直接强化学习"的技术路
受参考质谱谱图数量有限的制约,代谢物注释(尤其是未知代谢物的发现)仍是基于质谱的非靶向代谢组学领域的核心难题。本研究开发了结构引导的编码器-解码器神经网络MetGenX,可直接从2级质谱(MS²)谱高效、可控地生成代谢物结构。MetGenX将「谱图到结构」的任务重构为「结构到结构」的生成问题,显著提升了生成准确率与化学空间覆盖度。独立测试中,该模型在1,388张美国国家标准与技术研究院(NIST)
【10 道 RAG 高频面试题精要】 RAG 核心价值:解决大模型知识时效性(实时更新)、幻觉(可溯源回答)和私有数据访问(安全连接)三大痛点,通过检索外部知识库增强生成质量。 RAG vs 微调:RAG 知识外置、更新灵活、可追溯,适合高频更新场景;微调内化知识、延迟低,需风格定制时更优。生产环境常组合使用。 工作流程双阶段: 离线:文档加载→智能分块→向量化存储(含元数据索引) 在线:查询优化
MiniMax注意力机制经历了从Softmax到Lightning再到Softmax最后回归Hybrid的反复调整。最初采用Lightning Attention是为了实现4M超长上下文和O(N)复杂度,但大规模实验发现Softmax表现更优。随后因工程复杂度和推理优化问题回归纯Softmax,但最终Hybrid方案在检索精度和计算效率之间取得了平衡。这一过程反映了AI行业在注意力机制设计上的探索
知识图谱技术正深刻重塑自然语言处理的深层语义分析范式。报告系统梳理了知识图谱在表示、存储、抽取、融合、推理及问答等环节的技术进展,揭示了其如何为NLP提供结构化知识基础与推理能力。知识表示学习将符号知识向量化,增强模型上下文理解;高效存储系统支持大规模知识应用;知识抽取构建结构化知识源;神经符号融合提升模型语义理解;推理技术赋予逻辑推断能力;知识图谱问答则综合检验语义分析水平。这些技术共同推动NL
26年4月来自中国民族大学、小红书、大连理工和中科大的论文“Agent Harness for Large Language Model Agents: A Survey“。在生产环境中快速部署基于大语言模型(LLM)的智体,暴露出一个关键的工程问题:随着智体任务变得越来越长、越来越复杂,任务执行的可靠性越来越依赖于其外层基础设施——智体执行驾驭(agent execution harness
维度核心策略分发渠道厂商商店(华为/小米等) + 官网直发 + MDM是黄金组合用户获取依赖销售地推、行业展会、ISV 合作,而非应用商店自然流量商业模式SaaS 订阅 + 交易佣金为主,强调 LTV(客户终身价值)成功关键解决企业真实痛点 + 合规安全 + 与业务流程深度集成🌟终极洞察终端 App 的本质不是“让用户下载”,而是“让企业采纳”。因此,它的“商店”不在手机里,而在客户的IT 采购
拷打第一个项目:在多模态Embedding时,你如何平衡文本语义和图像视觉特征在计算相似度时的权重?如果用户搜的是图纸里的某个特定参数,但向量召回了一堆外观相似的零件图,你觉得是什么出了问题?Ragas的Context Precision如果很低,你怎么优化?
Hermes Agent 发布后,大家都在问怎么配置才最强?这份耗时整理的 80+ 工具清单,按场景分类,帮你从零搭建全栈 AI Agent 工作流!零成本方案也有,赶紧收藏!
【Python数据分析实践】2026年05月03日,使用Python爬虫采集20+公开新闻源数据,通过jieba分词、SnowNLP情感分析、TF-IDF关键词提取、LDA主题模型等NLP技术进行文本挖掘,并使用Matplotlib/Plotly进行数据可视化。本文为自动化脚本输出的技术学习笔记。
把记忆、工具集、模型配置、对话历史封装成一个智能体实例,隔离状态。python运行# 初始化:加载配置、记忆、工具self.model_name = model_name # 模型配置self.memory = [] # 对话记忆self.tools = {} # 工具注册表# 对话方法# 存入记忆# 模拟推理回复return f"我已收到你的问题:{query}"# 实例化一个智能体print(
提示词工程之所以常被诟病为“玄学”它不是一个逻辑机器,而是一个语言模仿者。但正因如此,掌握话术,就是掌握与 AI 协作的钥匙。未来,普通用户靠自然语言,开发者靠 Skill,系统靠调度器——而这一切的起点,都是那句看似简单却充满策略的话:“你好,请帮我……”这句话怎么说,决定了 AI 能为你做什么。
DeepSeek-V2是一款创新的混合专家(MoE)语言模型,通过2360亿参数实现高效推理(仅激活210亿参数/Token)。该模型采用两大核心技术:1)多头潜在注意力(MLA)通过低秩键值压缩减少93.3%的KV缓存;2)DeepSeekMoE架构通过稀疏计算降低42.5%训练成本。在8.1T token多源语料训练后,模型经SFT和强化学习优化,支持128K上下文长度。评测显示,其聊天版本在
本文系统介绍大语言模型(LLM)核心知识,先阐释其定义、神经网络、自监督与半监督学习原理及四大核心特点;梳理 GPT-5、DeepSeek R1 等主流模型,详解语言创作、知识问答、逻辑推理、多模态处理四大能力;讲解 CO-STAR、思维链等提示词技巧,说明 LLM 在生产力、人机交互、产业智能化中的重要价值;帮助读者快速掌握大语言模型基础理论与实用方法。
本文探讨了大语言模型中的偏见、毒性和知识错误问题,并提出了模型编辑技术作为解决方案。传统方法如重新预训练和微调成本高昂且效率低下,而模型编辑则能精准高效地修正特定知识点。文章详细介绍了模型编辑的思想、定义及其五大关键性质:准确性(确保修改有效)、泛化性(适应不同表达形式)、可迁移性(跨模型适用)、局部性(不影响无关知识)和高效性(快速执行)。通过斑马皮肤颜色的案例,展示了模型编辑如何纠正错误回答。
摘要: EvoLM研究框架系统分析了语言模型全生命周期的训练动态,涵盖预训练、持续预训练、监督微调(SFT)和强化学习(RL)阶段。通过训练100+个1B/4B参数模型,研究发现: 预训练规模:模型性能随计算量增长而提升,但超过80-160倍模型参数的预训练后收益显著递减,甚至导致下游任务性能下降; 持续预训练:领域适应阶段需平衡新知识学习与通用能力保留,重放预训练数据可有效缓解遗忘; 微调阶段:
自然语言处理
——自然语言处理
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net