logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

视频理解大突破!Video-LLaVA 与 LLaVA-NeXT-Video 双雄争霸,刷新多模态模型性能天花板

北京大学团队推出的Video-LLaVA与LLaVA-NeXT-Video在视频理解领域取得重大突破。Video-LLaVA通过"提前对齐"策略统一图像和视频特征处理,采用两阶段训练显著提升多模态理解能力,在多个视频问答基准测试中创下SOTA记录。LLaVA-NeXT-Video则基于LLaMA3等大模型架构,通过零样本学习和动态规划优化在视频任务中表现优异。两者分别以特征对齐

文章图片
#音视频#人工智能#自然语言处理
震撼!GPT-5多模态大模型即将登场,推理与多模态融合,或将彻底改写AI格局

OpenAI即将推出的GPT-5或将彻底改写AI格局,深度融合多模态处理与深度推理能力,实现从"专项能手"到"全能助手"的跨越。GPT-5将整合原GPT系列的多模态优势与O系列的推理专长,并引入Operator代理的自主行动能力,为用户提供一站式解决方案。这一突破性技术有望解决用户在不同模型间频繁切换的痛点,在教育、设计、职场等多个场景实现更流畅的人机交互。

文章图片
#人工智能#AIGC#python
MCP:AI工具调用的“万能接口“!从Claude到本地模型,揭秘智能体如何打破生态壁垒

摘要: MCP(模型上下文协议)是Anthropic提出的AI工具调用统一标准,旨在解决不同模型与工具间的生态壁垒问题。通过"主机-服务器-客户端"三元架构,MCP实现了动态工具发现、跨模型兼容和双向通信,显著区别于OpenAI Function Call等封闭方案。该协议支持从Claude到本地小模型的广泛适配,已应用于企业数据整合、开发者工具复用及个人智能体开发。尽管面临安

文章图片
#人工智能#MCP#python
大模型 RAG 项目必看:技术架构拆解 + 实战步骤,新手也能快速上手

RAG(检索增强生成)技术架构详解:从基础到高级应用 本文节选自陈敬雷的新书《GPT多模态大模型与AI Agent智能体》,详细解析了RAG技术架构及其应用。RAG通过检索外部知识库辅助大模型生成答案,其基础架构包括七个关键环节:数据准备、分块与向量化、建立索引、检索过程、上下文提供、生成答案和后处理。高级技术架构则进一步引入了查询转换、聊天引擎、智能体等优化策略,使系统更加智能灵活。文章特别强调

文章图片
#架构#大数据#机器学习 +2
5大模式颠覆人机交互!多模态大模型AI Agents正在重构智能世界,你准备好了吗?

多模态AI Agents正在重塑人机交互,通过整合文本、图像、语音等多维度信息,突破传统AI的信息割裂、场景适应和交互自然性三大瓶颈。四大核心技术支撑其发展:数据融合打破模态壁垒,联合学习实现多模态协同训练,跨模态迁移学习促进知识复用,动态推理机制增强灵活应变能力。5大核心模式构建智能"操作系统":反射模式实现自我修正,工具使用模式扩展外部能力,ReAct模式模拟人类思考-行动

文章图片
#人工智能#人机交互#重构 +2
大模型RAG项目实战:RAG技术原理及核心架构

《GPT多模态大模型与AI Agent智能体》一书深入探讨了RAG(检索增强生成)技术的原理与架构。RAG通过结合大语言模型与向量数据库,显著提升生成答案的准确性与相关性,缓解模型幻觉问题,并支持实时知识更新。其核心架构包括数据准备、分块与向量化、索引构建、检索过程及上下文增强生成等环节。高级技术还涉及查询转换、智能体集成和多轮对话处理等优化策略。该书涵盖理论解析与实践案例,适合作为人工智能领域的

文章图片
#架构#python#人工智能 +3
从0到1微调DeepSeek大模型:大模型参数调优秘籍全揭秘

本文介绍了如何通过微调DeepSeek大语言模型将其转变为心理医生角色的完整流程。文章首先概述了项目目标,即使用EmoLLM心理健康数据集对deepseek-llm-7b-chat模型进行微调。随后详细讲解了微调所需的关键工具和环境配置,包括openMind Library和transformers框架的对比,以及硬件和软件要求。 核心部分重点介绍了数据预处理步骤和参数配置技巧,特别是LoRA技术

文章图片
#人工智能#机器学习#python
2025 AI Agent元年:撬动万亿市场,重构企业生产力的核心变量

摘要: 2025年被视为“AI Agent元年”,AI Agent作为生成式AI的高级形态,通过自主调用工具执行复杂任务,重构企业生产力。其技术架构整合大模型、工具及基础设施,具备自主性、规划与记忆能力等核心特征,已在办公自动化、客户服务、工业智能化、医疗辅助四大场景落地。全球市场高速增长,中国预计2027年规模超5000亿元。竞争格局呈现“上游集中、下游分散”,国际巨头领跑底层技术,国内厂商深耕

文章图片
#人工智能#重构#大数据 +2
大模型技术原理 - 基于Transformer的预训练语言模型

在自然语言处理领域,预训练语言模型已经成为了一种强大的工具,它们能够捕捉语言的深层结构和语义信息,从而在各种NLP任务中取得显著的性能提升。其中,基于Transformer的预训练语言模型更是引领了这场技术革命。ChatGPT作为当前最先进的对话生成模型之一,其强大的基础模型正是采用了Transformer架构。Transformer模型的出现,彻底改变了传统NLP模型处理序列数据的方式。传统的循

文章图片
#transformer#语言模型#深度学习 +3
大模型RAG项目实战:Pinecone向量数据库代码实践

本文介绍了Pinecone向量数据库的核心特性和代码实践。Pinecone是一款托管式向量数据库服务,专注于为机器学习模型提供高效的向量搜索能力,支持亚毫秒级相似性搜索。其核心特性包括高性能搜索、简单易用的API、自动缩放和多环境部署。文章通过Python代码示例演示了如何安装Pinecone客户端、创建索引、存储和查询向量数据,以及与OpenAI API集成实现AI知识库功能。代码涵盖了向量数据

文章图片
#数据库#人工智能#DeepSeek +3
    共 175 条
  • 1
  • 2
  • 3
  • 18
  • 请选择