登录社区云,与社区用户共同成长
邀请您加入社区
本文系统介绍了上下文压缩技术,旨在减少大模型处理的token数量,同时保留关键信息。文章分析了三种核心技术:过滤型(基于相似度删除无关内容)、压缩型(递归摘要或Map-Reduce压缩长文本)和截断型(滑动窗口或重要性排序)。这些技术可应用于智能客服、法律文档处理等多场景,显著降低成本(减少50-90% token消耗)并提升响应速度。但存在信息丢失、压缩延迟等挑战,需平衡压缩率、准确率和延迟。未
非结构化商业文本分类比赛是CCF里面的一个比赛 感觉很难打 也是第一次接触 就感觉自己还是少下了功夫 无论是从搭建环境到训练完成 到之后的优化都没有投入很多 导致小队没能按时提交上CSV 很遗憾收获1、学会了用DBC购买算力 用Xshell(大数据课程刚学会的)去连接Linux服务器 然后使用相应的GPU 这次租用的是GTX1080Ti 确实很快 但可惜代码跑的不是很顺利2、学会使用jupyter
ALBEF论文提出了一种创新的多模态预训练方法。模型采用三段式架构:图像编码器(ViT)、文本编码器(BERT)和多模态融合编码器,并设计了三个核心训练任务:图像-文本对比学习(ITC)实现粗粒度对齐,图像-文本匹配(ITM)建立细粒度关联,以及遮蔽语言模型(MLM)完成像素级语义对齐。
变频与移相混合控制的全桥LLC谐振变换器仿真模型,输入300V-400V,输出360V,在0.02s时输入切换,输出保持为360V,且电流为欠谐振状态在电力电子领域,全桥LLC谐振变换器因其高效、低电磁干扰等优点被广泛应用。今天咱就来唠唠这个基于变频与移相混合控制的全桥LLC谐振变换器仿真模型,它有着特定的输入输出要求,还得在特定时刻进行输入切换,保持输出稳定,并且处于欠谐振状态。
本文系统梳理了AI大模型微调的核心概念与技术路线。首先区分了预训练(通用知识学习)与微调(领域知识训练)两个阶段,将微调方法按数据类型分为监督微调(SFT)和偏好优化(PO),按参数量分为全量微调与PEFT(含LoRA、Prefix Tuning等方法)。重点对比了DPO与PPO两种偏好优化算法的优缺点,并给出问答系统、对话助手等场景的微调方案建议。文章为开发者提供了从理论到实践的完整微调知识框架
本文系统介绍了大模型开发中Token统计的核心要点。Token是文本处理的子词单元,对上下文长度控制、成本计算和调试优化至关重要。文章分析了BPE、SentencePiece等主流分词算法,并详细展示了Python(tiktoken、LangChain)和Java(jtokkit)的统计实现方法。同时推荐了Hugging Face Transformers、LangSmith等实用工具,覆盖开发和
本文介绍了使用Python进行情感分析的完整流程,涵盖基本原理、常用工具和实战案例。情感分析作为NLP的经典应用,能够自动识别文本情感倾向(正面/负面/中性),广泛应用于电商评论、舆情监控等场景。文章对比了词典规则、机器学习和深度学习三种方法,并详细讲解了TextBlob(英文)和SnowNLP(中文)两个轻量级库的使用方法,提供完整的代码示例和结果分析。最后还提出了模型微调、多分类识别等进阶方向
针对 2026 年 GPT-5 等大模型生成的平滑特征,传统统计学检测已全面失效。本文由Dechecker核心开发者撰写,深度解构了 AIGC 检测的底层逻辑。文章分享了基于 DeBERTa微调与语义熵(Semantic Entropy)分析的硬核方案,探讨如何通过潜在空间轨迹识别“机器逻辑骨架”。旨在为学术论文检测提供从源码调优到工业级落地的全栈思路,通过技术透明化助力学生规避算法误杀风险,实现
本文系统介绍了知识工程与知识图谱的区别及构建完整知识体系的方法。知识图谱作为知识的"容器",专注于图结构存储;而知识工程是一套方法论,涵盖知识获取、表示、融合、存储、推理和应用全流程。文章通过电商案例,详细阐述了知识工程的六大环节:从多源数据抽取知识,设计本体模型,解决数据冲突,选择存储方案,进行知识推理,到最终业务应用。最后对比了两者的优劣势,并展望了结合大模型的发展趋势。知
本文系统介绍了知识图谱补全(KGC)技术,主要内容包括: 问题定义:KGC旨在预测知识图谱中缺失的三元组关系,解决传统图谱实体语义理解不足的问题。 核心方法: 基于翻译的模型(如TransE):将关系视为实体间的向量平移 基于语义匹配的模型(如DistMult):通过相似度计算评估关系 基于神经网络的模型(如ConvE):利用神经网络捕捉复杂模式 应用价值:可提升电商商品属性补全、医疗辅助诊断、搜
本文系统介绍了RAG系统中的多跳问答技术。多跳问答通过分步推理解决复杂问题,需要多个知识片段的逻辑关联才能得出最终答案。文章分析了四大解决方案:迭代检索、查询分解、图推理和Agent框架,并探讨了混合策略的最佳实践。实际应用中,多跳问答显著提升了金融分析、医疗咨询等场景的准确率和效率,但也面临延迟增加、成本上升等挑战。未来发展趋势包括Agent范式普及、端到端训练和实时知识更新等。多跳问答不仅提升
本文介绍了一种分步式医学事实核查系统,该系统通过大型语言模型(LLM)迭代生成问题、收集证据并验证医学主张的真实性。研究比较了传统三阶段流程(文档检索、证据提取、判决预测)与新型分步式方法在三个医学数据集(SCIFACT、HEALTHFC、COVERT)上的表现。结果显示,分步式系统显著提升了F1分数(最高提升5.2),特别是在处理复杂医学概念时优势明显。研究还探讨了内部/外部知识源、谓词逻辑推理
《GPT入门指南:AI对话神器的核心知识与使用技巧》 本文全面介绍了GPT这一革命性AI技术。GPT(Generative Pre-trained Transformer)是OpenAI开发的生成式预训练变换器模型,具备强大的自然语言处理能力。文章详细解析了GPT的核心功能:包括文字创作、代码编写、多语言翻译和数据分析等,并展示了2024年最新GPT-4o版本新增的图像识别和语音对话功能。同时提供
随着大语言模型(LLMs)的快速发展,单纯使用原生LLM很难满足复杂场景的开发需求——比如需要结合上下文对话、处理文档、调用第三方工具等。LangChain作为一款围绕LLMs构建的开发框架,完美解决了这一痛点,它不重复造轮子(不开发LLMs),而是专注于“连接”与“简化”,让开发者能快速搭建高性能、可扩展的LLM应用。
本文介绍了使用lm-evaluation-harness框架评测本地Ollama部署的Gemma 2模型的完整流程。内容包括环境准备(Ollama服务验证、Python环境)、lm-evaluation-harness安装、Ollama模型对接配置(通过API适配器或自定义模型类)、本地数据集准备以及评测运行步骤。文中提供了详细的命令和代码示例,并强调了对评测结果的查看分析方法。该指南适用于需要在
刚才王苏给大家表演了一个图像-文本预训练模型四连鞭(果然功力还是不及马保国大师),不知大家尽兴了没有~当下多模态领域正得到越来越多的关注,而预训练模型的效果也得到了学术界+工业界的广泛认可。虽然从研究角度上讲搞预训练模型的计算开销不是一般人负担得起的,但我们聪明的大脑是不受算力限制的!我们可以从预训练模型的设计和取得的效果中逐步发现在跨模态任务中与NLP语言模型地位相当的任务,进而了解真正实现多种
现有的 LLM 导向向量(Activation Steering)都是离线提取、推理时固定的。本文提出一种基于 Hebbian 外积的在线学习方法,让导向向量能从交互反馈中自适应更新,配合双时标正则化防止漂移。设计已实现但未做定量评测,欢迎讨论。
HuggingFace是一个开源的AI生态系统,通过Transformers库降低了BERT、GPT等预训练模型的使用门槛。其核心功能包括:1)模型加载(AutoModel类自动适配任务头);2)Tokenizer处理文本到张量转换;3)Datasets库简化数据处理;4)支持NLP、CV等多模态任务。文中还展示了基于BERT的中文情感分析实战案例,涵盖数据预处理、模型训练(使用BCEWithLo
《Reflexion框架:语言反馈驱动的LLM智能体学习优化》 摘要:针对传统强化学习在LLM智能体中应用成本高的问题,Reflexion框架提出创新解决方案。该框架通过语言反馈替代权重更新,包含四个核心组件:行动者生成决策、评估者评分输出、自我反思模型生成改进建议,以及记忆系统存储反思内容。实验证明,在AlfWorld决策、HotPotQA推理和编程任务中,Reflexion显著提升智能体表现,
本文摘要:论文提出医疗领域LLM事实核查基准FActBench,针对摘要、RAG等4类任务评估6种主流模型。通过改进FActScore方法,结合NLI和CoT技术提出"一致投票"机制,实验表明该方法与专家评估相关性最佳。研究发现LLM在开放式医疗问答中易产生幻觉,但在提供上下文的摘要任务中表现可靠。不同规模模型差异不显著,知识源多样性可提升准确性。该研究为医疗NLP应用提供了实
本文档提供了使用Ollama在本地部署Google Gemma 2 2B轻量级模型的详细指南。Gemma 2 2B具有2.6B参数、1.6GB大小和优秀的多语言支持,适合普通电脑运行。指南包含环境准备、Ollama安装、模型下载与运行、常用命令、API调用和性能优化等内容,帮助新手快速上手。通过简单的命令行或API调用即可实现交互式对话和文本生成,响应速度快且内存占用低。文档还提供了Python调
在大模型时代,**提示词工程(Prompt Engineering)**正迅速崛起,成为和编程语言同样重要的新技能。它不是随意丢一句“帮我写代码”,而是通过角色设定、分步提示、格式约束等方法,把自然语言变成对模型的“隐形编程”。本文从“坏 Prompt vs 好 Prompt”对比入手,展示了如何用精准提示提升结果质量,并结合 Python 实验脚本直观验证。进一步,我们探讨了 Prompt 工程
大语言模型(LLM)在自然语言处理领域取得显著进展,但仍面临数据处理成本高、参数管理复杂、隐私风险、可解释性不足等挑战。十维认知演化框架(LOM)为解决这些问题提供了系统化路径,涵盖从规则驱动到集体智能融合的十个认知维度。该框架不仅推动多模态和推理能力提升,还为教育、医疗、金融等领域的应用扩展奠定基础。通过增强语言理解、视觉整合、深度推理和多范式思维,下一代大语言模型将向通用人工智能迈进,实现更灵
训练诗词生成模型的一点心得一、诗词对比其它文体二、模型选择三、训练集选取四、损失函数五、训练时间六、生成结果七、模型擅长的诗文类型八、将来可做的事情九、模型生成样例最近学习NPL的一些模型,训练了一个古诗生成模型作为练习。记录一些学习过程中的想法。一、诗词对比其它文体诗词生成问题要比散文、小说生成简单。最主要的原因是一般诗词篇幅比较短。现在的ML模型还做不到特别长的记忆力。目前,我可以测试到的,文
1、马斯克Grok 4泄露!xAI融资700亿,目标“重写人类知识库”2、全球首款AI原生游戏引擎Mirage发布!一句话生成GTA级神作3、星流Agent震撼上线!专为中国设计师打造的全能AI创意助手4、DeepSeek-R2神秘现身!大模型竞技场惊现"steve"引全网热议5、OpenAI紧急切割Robinhood代币风波:虚假股权引发市场震荡6、OpenAI暂停谷歌TPU合作,英伟达AMD稳
想象你是一位厨师,想要找到最完美的蛋糕配方。传统方法是凭经验不断尝试不同的配料比例,这既耗时又可能错过最佳组合。现在假设你有一台智能烤箱,它能够自动测试成千上万种配方组合,通过数据分析快速找到最优解——这正是自动Prompt优化在AI领域的作用。
摘要: Prompt注入攻击是一种通过恶意输入操控AI行为的安全漏洞,攻击者在正常输入中植入指令,使AI执行非授权操作。攻击方式包括直接注入、间接注入和上下文污染,利用AI对自然语言的过度信任。其危害从信息泄露到系统控制不等,具有隐蔽性强、实施门槛低等特点。防御面临传统输入验证无效等挑战。实际应用场景广泛,涉及企业系统、Web应用和开发工具等。未来攻击可能更自适应且结合社会工程,防御需多层次策略。
本文从。
RoBERTa分类模型正则化调优实验总结 本实验研究了dropout率和冻结底层网络对中文文本四分类任务的影响。实验采用chinese-roberta-wwm-ext模型,测试了5种不同配置组合。结果显示: 提高dropout率至0.20(无冻结)能有效抑制过拟合,保持最佳性能(F1=0.8774) 冻结底层网络虽提升泛化稳定性,但会轻微降低性能(F1下降约1.3%) 最优配置为dropout=0
本文介绍了一种基于NLP技术的MedSEBA系统,旨在解决医学信息检索中的立场识别问题。该系统通过PubMed检索相关文献,利用大型语言模型(GPT-4o)生成结构化答案,包括核心论据、立场标签和时间轴可视化。相比传统检索工具,MedSEBA能评估研究对特定医学问题的支持程度,并整合分歧结论。系统采用向量相似度重排序文献,并通过元数据分析提高结果可靠性。尽管存在摘要完整性等局限,但该系统为医学研究
本文介绍了Prompt模板的概念、核心组件及应用价值。Prompt模板是一种预定义的提示词结构化格式,通过固定指令和可变参数确保AI处理任务的一致性。相比随意编写的Prompt,模板化方法能显著提高稳定性(一致性提升11%)、降低错误率(7%降幅)并提升开发效率(3倍)。文章详细解析了模板的三大核心组件(固定指令、可变参数、元数据)和常见模式,列举了企业客服、内容审核等典型应用场景。同时指出模板化
本文详细解析了Transformer模型的结构与实现。
《思维链(Chain-of-Thought):让AI"一步步思考"的提示技术》 思维链是一种引导大语言模型通过中间推理步骤解决问题的技术,要求AI展示完整的思考过程而非仅给出最终答案。这种技术显著提升了AI处理复杂推理任务的准确性,如数学计算、逻辑推理和常识判断等场景。其工作原理受人类认知过程启发,通过分步处理和自我监控模拟人类推理。实现方式包括零样本思维链、少样本思维链和自洽
nlp
——nlp
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net