
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
对数据敏感的企业想要部署自己的大模型该(如:DeepSeek R1)该选用什么方式呢?Ollama还是vllm呢?

诸如 GPT-4、Mistral Nemo 和 Llama 3.1 之类的大语言模型(LLMs)现在可以检测何时需要调用函数,然后输出包含调用该函数参数的 JSON。这一突破能够有效提升您的 AI 应用的能力。

RAG 是目前大语言模型相关最知名的工具之一,从外部知识库中检索事实,以便为大型语言模型 (LLM) 提供最准确、最新的信息。但 RAG 并不完美,在更好的使用 RAG 方面仍存在许多挑战。例如当针对整个文本文档提出一个全局的问题时,RAG会失败,因为RAG本质是一个查询聚焦摘要任务,需要先基于index做检索,而且不是一个明确的检索全文任务。同时受限于大语言模型的上下文窗口限制,不可避免中间信息

本文主要记录了我在RTX 4080Ti上部署DeepSeek V2 16B模型的过程。希望给大家一个参考,更多的参数还得看vLLM官方文档。此外,对于DeepSeek V2模型,它使用的MLA( Multi-head Latent Attention)目前vLLM尚未实现,但sglang最近实现了MLA,速度有了比较明显的提升。下一篇我们将会尝试一下。

Ollama是一个能在本机运行大语言模型的软件,它提供命令行和API的交互方式,对于需要考虑数据隐私的情景,可以方便的使用Ollama部署大语言模型,并在此基础上开发RAG等应用,而无需调用OpenAI等开放API。Ollama基本上已经建立了比较完善的生态,除了在系统中使用命令行、API等方式交互,Langchain、Dify等开发框架也都支持Ollama,另外,也有非常多GUI客户端可以使用,

在深入了解细节之前,让我们先了解这两个框架的核心目的。VLLM(超大型语言模型)是由 SKYPILOT 构建的推理优化框架,旨在提高在 GPU 上运行的 LLM 的效率。它专注于:使用连续批处理快速生成令牌。通过 PagedAttention 实现高效的内存使用,允许处理大型上下文窗口而不会消耗过多的 GPU 内存。无缝集成到 AI 工作流中,兼容 PyTorch 和 TensorFlow 等主要

电子商务平台每天产生海量用户行为日志,选择搜索 - 购买(search - buy)和共同购买(co - buy)这两种典型行为进行研究。搜索 - 购买行为定义为用户在短时间内点击查询并购买产品的查询 - 产品对;共同购买行为则用共同购买的产品对表示,且每个产品可归为一个主要领域。

Qwen-Agent[1]是一个开发框架。开发者可基于本框架开发Agent应用,充分利用基于通义千问模型(Qwen)的指令遵循、工具使用、规划、记忆能力。本项目也提供了浏览器助手、代码解释器、自定义助手等示例应用。之前试用了agent-scope,没qwen-agent好用,而且,其中的问题很多,尤其是agent-scope与本地LLM都连接不上,connection报错。基于本地部署的qwen2

文心一言是百度基于文心大模型打造的生成式AI产品,具备跨模态、跨语言的深度语义理解与生成能力。2023年10月,文心大模型4.0版本发布,实现基础模型的全面升级,理解、生成、逻辑、记忆四大能力显著提升,综合能力可直接对标GPT-4。通义千问是阿里自研的AI大语言模型,2023年10月31日发布了2.0版本,相较于1.0版本,在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升









