logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于Deepseek大模型API完成文本分类预测功能

本文介绍了两种调用DeepSeek大语言模型API的方式:1) 通过LangChain的ChatOpenAI封装实现,支持JSON格式返回和重试机制;2) 直接使用OpenAI客户端调用。文章重点展示了新闻分类任务的实现方案,包括提示词工程、模型预测封装和评估流程。通过构建包含10个新闻类别的分类系统,实现了从文本预处理、模型调用到性能评估的完整流程,评估指标包含准确率、精确率和F1分数。该方案采

文章图片
#java#python#前端 +1
主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)

GPT系列模型演进历程:从GPT-1的单向生成到ChatGPT的人类价值对齐。OpenAI通过四年技术迭代,最终在GPT-3基础上引入RLHF(人类反馈强化学习),使ChatGPT具备更符合人类预期的对话能力。核心技术包括:Transformer架构、SparseAttention、Few-shot学习等。主流开源大模型方面,Meta的LLaMA、阿里的Qwen、清华的ChatGLM和深度求索的D

文章图片
基于GPT-2模型手搓一个医疗问诊聊天模型(全参数微调)

本文详细记录了从零实现基于GPT-2的中文医疗对话机器人的全过程。主要内容包括:1)数据处理阶段采用[CLS]Q[SEP]A[SEP]格式构建对话样本;2)模型训练策略使用梯度累积、学习率预热等技术;3)推理生成采用Top-K采样和重复惩罚机制;4)对话管理维护3轮历史上下文。项目实现了1.1亿参数的医疗对话模型,并提供了完整的Web部署方案。文章深入解析了GPT-2底层原理,分享了梯度累积、采样

文章图片
#人工智能
Coze平台入门指南:从零搭建你的第一个AI智能体

Coze(扣子)是字节跳动推出的AI智能体开发平台,定位为“字节版GPTs”,核心价值是零代码、可视化搭建AI智能体。平台提供插件库(搜索、天气、企查查等)、工作流(拖拽式编排)、知识库(RAG检索)、数据库(结构化存储)等核心功能,支持多模态(文生图、语音合成、视频生成)和Multi-Agent多智能体协作。用户通过配置提示词、添加工作流即可创建智能体,一键发布到飞书、微信、抖音等渠道。同时提供

文章图片
#人工智能#工作流
大模型Agent:让AI真正“动手”做事的智能体

《智能体Agent:从思考到行动的AI进化》 Agent是新一代人工智能助手,它突破传统聊天机器人的局限,具备自主规划、调用工具和执行任务的能力。Agent的核心架构由大模型大脑、记忆系统和工具库组成,能够将复杂任务拆解为可执行步骤,并通过调用计算器、搜索引擎等外部工具完成任务。其工作流程包含任务规划、工具选择、行动执行和结果反思等环节,支持多Agent间的标准化协作。随着MCP工具协议和A2A交

文章图片
#人工智能#RAG
LangGraph 垂直领域智能体实战:从入门到构建高效AI工作流

《基于LangGraph的智能体开发实战指南》摘要 本文系统介绍了使用LangGraph框架开发智能体的完整方法。首先讲解了智能体的核心架构(大脑、感知、行动和记忆模块),以及LangGraph的图结构计算模型优势。通过"冲咖啡"案例详细演示了流程控制、状态管理和人工介入的实现方式。重点阐述了六种智能体构建模式:提示链(分步处理)、分支(条件路由)、并行化(效率优化)、计划-执

文章图片
#人工智能
深度学习之循环神经网络RNN

摘要:本文系统介绍了循环神经网络(RNN)的核心知识与应用。首先讲解了RNN的基本概念、序列数据特点及主要应用场景(如文本生成、机器翻译等)。重点剖析了词嵌入层的作用和RNN的工作原理,包括向量表示、语义保持和时序依赖捕捉。通过PyTorch代码示例展示了Embedding层和RNN层的API使用方法。最后以AI歌词生成为例,详细演示了从数据预处理、模型构建到训练预测的全流程,并总结了RNN在维度

文章图片
#深度学习#rnn#人工智能 +1
深度学习之人工神经网络总结

本文介绍了神经网络的基本原理与优化方法。主要内容包括:1)神经网络模型构建,包括神经元计算(线性加权+非线性激活)和层级结构设计;2)激活函数的选择策略,隐藏层推荐ReLU,输出层根据任务类型选择Sigmoid或Softmax;3)参数初始化方法,如Kaiming和Xavier初始化;4)损失函数设计,包括分类任务中的交叉熵损失和回归任务中的SmoothL1损失;5)优化方法,重点介绍了动量法、自

文章图片
#深度学习#人工智能#算法
深入浅出RNN及其变体:从传统RNN到LSTM、GRU

摘要:本文系统介绍了循环神经网络(RNN)及其变体LSTM和GRU。RNN通过隐藏状态传递序列信息,适用于文本、语音等时序数据,但存在梯度消失问题。LSTM通过遗忘门、输入门和输出门控制信息流,能有效捕捉长距离依赖。GRU简化了LSTM结构,合并为更新门和重置门,在保持性能的同时提高效率。文章详细分析了各模型的结构特点、参数配置及适用场景,并通过PyTorch代码示例展示了具体实现方法。

文章图片
#rnn#lstm#gru +2
初始机器学习

本文系统介绍了机器学习的核心概念与基础知识。首先阐述了人工智能(AI)、机器学习(ML)和深度学习(DL)的定义及其相互关系:ML是实现AI的途径,DL是ML的一种方法。其次对比了基于规则的学习与基于模型的学习方式,后者通过算法自动从数据中学习规律。然后介绍了机器学习的发展历程、应用领域(如图像识别、自然语言处理等)以及发展的三要素:数据、算法和算力。最后详细讲解了机器学习中的关键术语(样本、特征

文章图片
#机器学习#人工智能#大数据 +2
    共 69 条
  • 1
  • 2
  • 3
  • 7
  • 请选择