logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

调查笔记:MCP Python SDK 详细分析

MCP Python SDK 是一个帮助大型语言模型(LLM)管理上下文的工具。它让开发者可以轻松地为 LLM 应用程序提供数据和功能,研究表明这通过标准化方式简化了开发过程。

文章图片
#python#microsoft
Excel知识库与LLM结合的解决方案分析

在数据分析和智能问答系统的构建过程中,如何有效地结合结构化数据(如Excel表格)与非结构化数据(如文本文档)成为一个关键挑战。近期接触到的pandas+pandasql解决方案为此提供了一种优雅的处理方式,下面我将对这一方案进行分析和总结。

文章图片
OpenManus-RL 通过强化学习(RL)提升大型语言模型(LLM)代理的推理和决策能力

OpenManus-RL 是一个致力于通过强化学习技术优化 LLM 代理能力的开源项目。它的目标是增强代理在推理、工具使用和环境交互方面的表现,特别关注代理任务的复杂性。OpenManus-RL 项目采用多种后训练策略来提升 LLM 代理的表现。

文章图片
#语言模型#人工智能#自然语言处理
fp8部署deepseek

FP8部署DeepSeek是一种高效、低成本的模型部署方式,适用于大规模AI模型的训练和推理。通过硬件适配、权重转换和推理框架优化,开发者可以在NVIDIA、AMD、华为昇腾等平台上实现FP8模型的快速部署。未来,随着硬件技术的进步和国产算力的崛起,FP8部署将成为AI模型部署的重要方向。

文章图片
#人工智能#语言模型
NVIDIA H 系列 GPU与deepseek开源FlashMLA

H20概述: H20 是 NVIDIA 为中国市场设计的特制 GPU,基于 Hopper 架构。由于出口限制,它是 H100 的削减版,平衡了合规性与 AI 性能。规格: 96GB HBM3 内存,带宽 4 TB/s,FP8 精度下约 296 TFLOPS。特点: 计算能力不如 H100,但内存带宽优异,推理任务(如 70B 参数模型)表现突出,延迟比 H100 低约 20%。现状: 已于 202

文章图片
#开源
两年了4090已经无法满足我对大模型的追逐了,我需要更换一块5090显卡了。5090显卡迭代调研。

32GB显存可以支持在bp16精度下部署如Qwen 14B和GLM-4-9B等模型,特别是在进行推理时,如果合理设置批次大小和管理输入长度,你可以在显存限制内运行这些模型。关键因素包括选择合适的推理工具和框架(如NVIDIA TensorRT、DeepSpeed等),它们能帮助优化显存使用并提高推理效率。对于更大的模型(如Qwen 20B及以上),你可能需要更高显存配置,或者使用分布式推理方案。我

文章图片
#智能硬件
用LightRAG+DeepSeek v3开发政务知识图谱查询系统:从代码到实战的全流程解析

这个项目展示了如何用LightRAG和DeepSeek快速构建政务知识图谱系统。核心在于:预训练模型(DeepSeek)提供生成能力,政务数据构建(文本+图谱)奠定基础,RAG与知识增强确保精准输出。对于程序员来说,这是一个可复用的模板,下一步可以挑战实时政策更新或多语言支持。各位大佬,用RAG做过类似项目吗?有什么优化建议?欢迎留言交流!

文章图片
#政务#知识图谱#人工智能
AI Agent设计模式 四种高层次模式以及更具体的九种模式

AI Agent设计模式是构建智能自主系统的核心框架,允许AI执行复杂任务如规划、推理和行动。之前的文章介绍了九种模式,但用户反馈内容“不够全面,不够丰富”。为此,我们将提供更深入的分析,包括更高层次的分类、实际应用和最新发展,并补充更多资源。

文章图片
#人工智能#设计模式
超越限制:大模型token管理与优化实践

在大型语言模型(LLM)的应用中,token数量的管理是一个核心挑战。无论是模型的输入限制、计算资源的分配,还是成本的控制,token计数都至关重要。然而,当调用超过预期范围时,我们该如何应对?本书以一段简单的Python代码为起点,探索token管理的实用方法,帮助开发者从临时方案走向系统化解决方案。

文章图片
#python#开发语言
    共 67 条
  • 1
  • 2
  • 3
  • 7
  • 请选择