storyseekee 个人主页

@storyseekee

storyseekee

2023-11-23 23:14:24 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习基本原理和网络搭建

摘要：本文系统介绍了神经网络的基本原理和实现方法。首先阐述了人工神经网络的定义及其对生物神经网络的模拟机制，重点讲解了全连接网络的三层结构（输入层、隐藏层、输出层）。其次详细分析了常用激活函数（Sigmoid、Tanh、ReLU、Softmax）的特性、数学表达式及适用场景。接着探讨了多种参数初始化方法（均匀分布、正态分布、Kaiming、Xavier等）及其实现代码。最后通过PyTorch示例展

#深度学习 #人工智能

A2A与MCP相关

本文档总结了Agent相关核心技术，重点介绍了Function Call功能及其应用。Function Call由OpenAI提出，允许大模型智能输出JSON格式函数调用参数，从而可靠连接外部工具和API，解决大模型信息实时性、数据局限性和功能扩展性问题。文档详细阐述了Function Call的三种实现方式：手动编写JSON Schema、使用@tool装饰器以及基于Pydantic模型的方法，

vLLM的一些理解

vLLM是伯克利团队开发的高效开源大语言模型推理框架，其核心创新PageAttention技术通过内存页式管理优化KV缓存，将显存利用率提升至96%。支持异步批量任务调度和多LoRA适配器切换，显著提高并行推理效率。部署建议Linux环境，安装简单但需注意版本兼容性。该框架解决了传统KV缓存资源浪费问题，为LLM推理提供了高性能解决方案。

关于大模型训练和推理的一些框架

DeepSpeed框架是微软推出的开源深度学习优化库，针对大规模模型训练提供高效解决方案。其核心优势在于创新的3D并行技术（数据并行、流水线并行、张量并行）和ZeRO内存优化，显著降低显存占用并提升计算效率。通过梯度累积、动态精度调整等技术，DeepSpeed能支持万亿参数级别的模型训练。实践案例展示了其与ChatGLM模型结合的微调流程，包括环境配置、分布式训练实现及推理部署。相比传统方法，De

Gradio自学入门

Gradio是一个快速构建机器学习模型交互界面的Python库，具有代码简洁、易于分享和调试的特点。它支持多种输入输出组件（文本、图像、下拉框等），可通过简单接口快速部署模型。相比Streamlit，Gradio学习曲线更平缓，适合初学者。安装后只需几行代码即可创建交互页面，支持实时计算、全局变量和会话状态管理。典型应用包括图像处理、聊天机器人等，可通过launch()方法本地运行或生成分享链接。

谈谈为什么现在大模型转向Decoder-only架构

Transformer架构自2017年提出以来，推动了NLP领域的技术革命。研究显示，大模型发展经历了从Encoder-Decoder架构（如BERT）向Decoder-Only架构（如GPT系列）的转变。这种转变源于Decoder架构在多方面的优势：更符合语言生成规律、更适合大规模扩展、训练效率更高，并能展现"涌现"能力。当前主流大模型普遍采用Decoder-Only架构，其

#人工智能

A2A协议和MCP协议的区别

Google推出的Agent2Agent（A2A）协议为智能体间协作提供了标准化框架，具有安全协作、任务管理、体验协商和能力发现四大特性。通过AgentCard实现服务发现，Task实体管理任务生命周期，支持多种状态流转。协议包含Server/Client架构，支持Artifacts结果存储和智能路由（AIAgentRouter）。相比Anthropic的MCP协议（专注工具集成），A2A更擅长复

#MCP

Agent智能体

该理论由Yao团队在2022年发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中首次提出，后经Lilian Weng的系统性阐释，成为Agent系统设计的标准范式。文章以通俗易懂的语言架起学术与工业的桥梁，促进了技术普及，对智能体系统的研究和应用产生了深远影响。通过上述的agent模式的演进过程，它清晰地指明了“如何

#RAG #MCP

Function Call 函数调用

本篇文章主要介绍了FunctionCall功能，FunctionCall功能使大模型能够通过生成JSON对象来调用外部函数，解决了大模型在信息实时性、数据局限性和功能扩展性方面的问题。该功能通过定义函数描述，让模型智能判断何时调用外部工具，并返回所需参数。实现方式包括手动定义JSON Schema、使用@tool装饰器和Pydantic类三种方法，各具特点。

LangChain基础知识入门

LangChain是由Harrison Chase于2022年10月创建的大语言模型(LLMs)开发框架，为各类LLMs提供统一接口，支持Python和Node.js。其主要包含六大组件：模型(LLMs、聊天模型、嵌入模型)、提示模板、记忆存储、索引(文档加载、文本分割、向量存储)、链式调用和代理工具。

共 11 条

请选择