
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这篇文章系统介绍了企业级大模型推理优化的四层次策略:基础模型层(量化、剪枝、蒸馏)、推理引擎层(KV缓存优化、动态批处理)、系统部署层(分布式推理、硬件选型)和数据应用层(Prompt工程)。作者强调大模型推理存在多维瓶颈,优化需系统诊断、全栈考量,避免盲目套用工具,才能真正实现降本增效。

RAG技术通过结合LLM、向量数据库、Embedding和Rerank模型,构建文档入库(离线处理)和问答分析(在线处理)两阶段架构。它解决了LLM的知识时效性、幻觉问题和上下文窗口限制,提高回答准确性和可靠性,降低成本。尽管面临系统复杂性和中间环节依赖等挑战,但在企业知识管理、智能客服、专业研究等需要准确性、时效性、隐私和可追溯性的场景中具有广泛应用价值。

LoRA是一种参数高效微调(PEFT)技术,通过低秩矩阵分解解决大模型微调的计算和存储成本问题。它冻结预训练模型参数,只训练低秩矩阵增量,显著降低训练开销。LoRA适用于GPT、LLaMA等大语言模型和视觉Transformer,支持多任务切换和高效推理,特别适合算力受限环境。

AI 大模型技术经过2023年的狂飙,2024年必将迎来应用的落地,对 IT 同学来讲,这里蕴含着大量的技术机会,越来越多的企业开始招聘 AI 大模型岗位。本文梳理了 AI 大模型开发技术的面试之道,从 AI 大模型基础面、AI 大模型进阶面、LangChain 开发框架面、向量数据库面等不同知识维度,试图找到一个共同的面试速成模式,希望对 IT 同学有所助益。

定制知识库是指一系列紧密关联且始终保持更新的知识集合,它构成了 RAG 的核心基础。这个知识库可以表现为一个结构化的数据库形态(比如:MySQL),也可以表现为一套非结构化的文档体系(比如:文件、图图片、音频、视频等),甚至可能是两者兼具的综合形式。

本文介绍了LangChain框架在大模型应用开发中的应用。LangChain是由哈佛大学发起的开源框架,可用于开发智能体、问答系统等。文章比较了多种LLM开发框架,并详细阐述了基于RAG和Agent两种架构的开发方法。同时介绍了大模型应用开发的四大场景:纯Prompt、Agent+Function Calling、RAG和Fine-tuning,并提供了选择建议。最后讲解了LangChain的核心

本文详细介绍了大模型GPU显存计算方法,以Llama 70B为例,分析模型权重显存(140GB)、KV Cache显存(800GB)和其他开销(94GB),总计约1TB支持10并发用户。文章提供优化建议,如减少并发数或上下文长度可降低显存需求,并指出显存计算是部署大模型的关键门槛,后续将介绍显存优化技术。

你是否也想要拥有一个属于自己的AI助理,可以回答各种问题、协助工作和学习?现在,通过ollama和AnythingLLM,你可以在本地快速部署大型语言模型llama3,并结合个人文档构建专属知识库。不需要复杂配置,就能体验智能对话和高效问答的乐趣。赶快行动起来,拥抱AI时代,享受属于自己的个人助理吧!总之,通过这两款软件,用户可以在本地便捷构建属于自己的AI知识助理,兼顾隐私、个性化和性能,是大模

随着人工智能技术的快速发展,AI大模型在多个领域的应用日益广泛。百度创始人李彦宏在2024年世界人工智能大会上指出,AI技术已从辨别式转向生成式,并呼吁关注应用而非模型本身。本文盘点了AI大模型的50个应用场景,涵盖自然语言处理、推荐系统、图像处理、自动驾驶、医疗诊断、金融分析、客户服务、教育、内容创作、工业自动化、游戏、农业、能源、环境保护、法律、物流、建筑、安全、旅游、文化、体育、交通、社会治

在当前的技术环境下,大型语言模型(LLMs)已经成为人工智能领域的一个重要里程碑。这些模型能够在各种任务上展现出人类水平的性能,包括但不限于文本生成、语言理解和问题解答。随着开源项目的发展,个人开发者现在有机会在本地部署这些强大的模型,以探索和利用它们的潜力。本文将详细介绍如何使用Ollama,一个开源项目,在Mac上本地运行大型模型(Win同理)。通过遵循以下步骤,即使是配备了几年前硬件的电脑,








