logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型推理优化系统性指南:从模型到部署,告别瞎优化,实现降本增效

这篇文章系统介绍了企业级大模型推理优化的四层次策略:基础模型层(量化、剪枝、蒸馏)、推理引擎层(KV缓存优化、动态批处理)、系统部署层(分布式推理、硬件选型)和数据应用层(Prompt工程)。作者强调大模型推理存在多维瓶颈,优化需系统诊断、全栈考量,避免盲目套用工具,才能真正实现降本增效。

文章图片
#人工智能
从零开始掌握RAG检索增强生成:构建企业级知识问答系统

RAG技术通过结合LLM、向量数据库、Embedding和Rerank模型,构建文档入库(离线处理)和问答分析(在线处理)两阶段架构。它解决了LLM的知识时效性、幻觉问题和上下文窗口限制,提高回答准确性和可靠性,降低成本。尽管面临系统复杂性和中间环节依赖等挑战,但在企业知识管理、智能客服、专业研究等需要准确性、时效性、隐私和可追溯性的场景中具有广泛应用价值。

文章图片
#人工智能#RAG
LoRA:大模型参数高效微调技术详解,5分钟掌握核心原理

LoRA是一种参数高效微调(PEFT)技术,通过低秩矩阵分解解决大模型微调的计算和存储成本问题。它冻结预训练模型参数,只训练低秩矩阵增量,显著降低训练开销。LoRA适用于GPT、LLaMA等大语言模型和视觉Transformer,支持多任务切换和高效推理,特别适合算力受限环境。

文章图片
#人工智能#RAG#LoRA
2025年最全AI大模型面试题汇总:存下吧很难找全的!

AI 大模型技术经过2023年的狂飙,2024年必将迎来应用的落地,对 IT 同学来讲,这里蕴含着大量的技术机会,越来越多的企业开始招聘 AI 大模型岗位。本文梳理了 AI 大模型开发技术的面试之道,从 AI 大模型基础面、AI 大模型进阶面、LangChain 开发框架面、向量数据库面等不同知识维度,试图找到一个共同的面试速成模式,希望对 IT 同学有所助益。

文章图片
#人工智能#面试#职场和发展 +2
【AI大模型】一文带你速通RAG、知识库和LLM!

定制知识库是指一系列紧密关联且始终保持更新的知识集合,它构成了 RAG 的核心基础。这个知识库可以表现为一个结构化的数据库形态(比如:MySQL),也可以表现为一套非结构化的文档体系(比如:文件、图图片、音频、视频等),甚至可能是两者兼具的综合形式。

文章图片
#人工智能#职场和发展#面试 +2
保姆级教程:LangChain框架详解 - 零基础也能学会的大模型应用开发

本文介绍了LangChain框架在大模型应用开发中的应用。LangChain是由哈佛大学发起的开源框架,可用于开发智能体、问答系统等。文章比较了多种LLM开发框架,并详细阐述了基于RAG和Agent两种架构的开发方法。同时介绍了大模型应用开发的四大场景:纯Prompt、Agent+Function Calling、RAG和Fine-tuning,并提供了选择建议。最后讲解了LangChain的核心

文章图片
#人工智能
手把手教你计算大模型GPU显存:Llama 70B实战案例

本文详细介绍了大模型GPU显存计算方法,以Llama 70B为例,分析模型权重显存(140GB)、KV Cache显存(800GB)和其他开销(94GB),总计约1TB支持10并发用户。文章提供优化建议,如减少并发数或上下文长度可降低显存需求,并指出显存计算是部署大模型的关键门槛,后续将介绍显存优化技术。

文章图片
#人工智能
一键打造你的个人AI智能知识库:轻松上手,快速实现

你是否也想要拥有一个属于自己的AI助理,可以回答各种问题、协助工作和学习?现在,通过ollama和AnythingLLM,你可以在本地快速部署大型语言模型llama3,并结合个人文档构建专属知识库。不需要复杂配置,就能体验智能对话和高效问答的乐趣。赶快行动起来,拥抱AI时代,享受属于自己的个人助理吧!总之,通过这两款软件,用户可以在本地便捷构建属于自己的AI知识助理,兼顾隐私、个性化和性能,是大模

文章图片
#人工智能#面试#职场和发展 +2
大模型应用:探索AI大模型的50个应用场景:让科技改变生活

随着人工智能技术的快速发展,AI大模型在多个领域的应用日益广泛。百度创始人李彦宏在2024年世界人工智能大会上指出,AI技术已从辨别式转向生成式,并呼吁关注应用而非模型本身。本文盘点了AI大模型的50个应用场景,涵盖自然语言处理、推荐系统、图像处理、自动驾驶、医疗诊断、金融分析、客户服务、教育、内容创作、工业自动化、游戏、农业、能源、环境保护、法律、物流、建筑、安全、旅游、文化、体育、交通、社会治

文章图片
#人工智能#科技#生活 +4
2025最简AI大模型部署:只需3步的保姆级指南

在当前的技术环境下,大型语言模型(LLMs)已经成为人工智能领域的一个重要里程碑。这些模型能够在各种任务上展现出人类水平的性能,包括但不限于文本生成、语言理解和问题解答。随着开源项目的发展,个人开发者现在有机会在本地部署这些强大的模型,以探索和利用它们的潜力。本文将详细介绍如何使用Ollama,一个开源项目,在Mac上本地运行大型模型(Win同理)。通过遵循以下步骤,即使是配备了几年前硬件的电脑,

文章图片
#人工智能#mfc#c++ +4
    共 504 条
  • 1
  • 2
  • 3
  • 51
  • 请选择