logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

两年了4090已经无法满足我对大模型的追逐了,我需要更换一块5090显卡了。5090显卡迭代调研。

32GB显存可以支持在bp16精度下部署如Qwen 14B和GLM-4-9B等模型,特别是在进行推理时,如果合理设置批次大小和管理输入长度,你可以在显存限制内运行这些模型。关键因素包括选择合适的推理工具和框架(如NVIDIA TensorRT、DeepSpeed等),它们能帮助优化显存使用并提高推理效率。对于更大的模型(如Qwen 20B及以上),你可能需要更高显存配置,或者使用分布式推理方案。我

文章图片
#智能硬件
NVIDIA H 系列 GPU与deepseek开源FlashMLA

H20概述: H20 是 NVIDIA 为中国市场设计的特制 GPU,基于 Hopper 架构。由于出口限制,它是 H100 的削减版,平衡了合规性与 AI 性能。规格: 96GB HBM3 内存,带宽 4 TB/s,FP8 精度下约 296 TFLOPS。特点: 计算能力不如 H100,但内存带宽优异,推理任务(如 70B 参数模型)表现突出,延迟比 H100 低约 20%。现状: 已于 202

文章图片
#开源
HippoRAG 2 的调研工作

HippoRAG 2 是一个为大型语言模型(LLM)设计的记忆框架,旨在增强它们识别和利用新知识连接的能力,类似于人类长期记忆。它通过改善关联性(多跳检索)和意义构建(整合大型复杂上下文)来提升 RAG 系统的性能,同时保持简单任务的效率。

文章图片
#人工智能
MCP(模型上下文协议)学习笔记

MCP(模型上下文协议)是AI领域的一个新兴标准,旨在让大型语言模型(LLMs)能够实时连接外部数据源和工具,而不仅仅依赖预训练知识。MCP是一个开放协议,定义了AI模型如何与外部资源(如数据库、API、文件系统和区块链)交互。它让AI能够动态获取最新信息、调用工具,甚至与其他系统协作完成任务。MCP是由Anthropic于2024年11月提出的开放标准,旨在解决AI模型与外部数据源和工具集成的问

文章图片
#学习
面向数据库场景设计大模型交互微调数据集结构

分析数据库理解目标数据库的模式,包括表结构、关系和常见查询模式。识别用户可能提出的查询类型,例如客户信息检索、库存统计、销售分析等。收集或生成NLQ从真实用户日志中收集NLQ,或使用生成工具(如基于现有数据集的扩展)创建合成查询。确保NLQ覆盖简单到复杂的各种场景,并考虑不同措辞。标注SQL查询为每个NLQ手动或半自动生成对应的SQL查询,确保与数据库模式兼容。可使用现有工具辅助生成,并由专家验证

文章图片
#数据库#交互#oracle
医疗大模型课程从ReAct机制到多智能体再到通用智能体

ReAct的全称是“Reasoning + Acting”,也就是推理加行动。它是一种AI代理的工作方式,要求代理在采取行动前先进行系统性思考。比如,假设我们要查询阿司匹林的副作用,ReAct代理不会直接调用搜索工具,而是先推理:“我需要哪些信息?药物副作用可能在医学文献中,我可以用PubMed查找。”然后再行动,调用API搜索。研究显示,这种方法能让AI的决策更透明、更可靠,尤其在医疗场景中。

#人工智能#知识图谱
RAG 技术的落地路径:通过自我反馈机制提升复杂任务的自主规划与决策

本文基于当前 RAG 技术(包括 LLaMA、Qwen、DeepSeek 的核心原理,微调技术如 PEFT/CoT/DPO,及多模态技术如 CLIP/LLaVA),详细探讨其落地路径,提供具体实践步骤、工具选择、行业案例、优化建议和学习资源,帮助技术开发者、企业用户快速实现 RAG 的落地应用。然而,随着企业对复杂任务(如动态智能客服、实时金融风控、跨域企业知识管理)的需求增加,传统的 RAG 系

关于开源大模型(如 LLaMA、InternLM、Baichuan、DeepSeek、Qwen 等)二次开发或训练经验的关键点和概述

中国的大模型接口对“response”功能(如工具调用和结构化输出)的支持相对有限,这可能导致它们在某些复杂任务上的表现不如 OpenAI 的 Responses API。然而,部分模型如 Qwen 已经具备这些能力,显示中国在基础建设上有所投入,但行业标准和接口设计的国际化程度仍有提升空间。

文章图片
#开源
具有自主规划与决策能力的 RAG 工作全面解析

RAG(Retrieval-Augmented Generation,检索增强生成)是一种将信息检索与生成模型相结合的技术,广泛应用于需要外部知识支持的 AI 任务。近年来,随着自主 AI 代理(Agent)的引入,部分 RAG 系统进化出自主规划和决策能力,能够动态优化检索策略、迭代推理并处理复杂任务。本文将深入探讨这些 RAG 工作的技术原理、实现方式、工具支持以及在客户支持、医疗保健、金融、

文章图片
#人工智能#机器学习#大数据
支持 MCP 协议的开源 AI Agent 项目

MCP 协议由 Anthropic 于 2024 年 11 月开源,旨在标准化大型语言模型(LLM)与外部数据源和工具的交互。它采用客户端-服务器架构,允许 AI 模型通过统一接口访问各种资源,如数据库、API 和本地文件。这种协议的开放性鼓励了开发者社区的创新,尤其是在构建自主 AI Agent 方面。

文章图片
#人工智能#microsoft
    共 59 条
  • 1
  • 2
  • 3
  • 6
  • 请选择