logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI大模型:window下安装dify

安装过程中勾选“Install required Windows components for WSL 2”,完成安装后重启电脑。完成以上步骤后,即可在Windows上成功安装并使用Dify。• 若Docker镜像拉取较慢,可配置国内镜像加速源(如清华源、阿里云等)。• 确保系统满足最低要求:CPU≥2核,内存≥4GB。验证安装:打开命令提示符或PowerShell,输入。安装完成后,打开Git

#AI#RAG#语言模型
DeepSeek-OCR:视觉压缩长文本的理论突破与架构解析

摘要: DeepSeek-OCR是DeepSeek AI发布的革命性视觉-文本压缩模型,通过将文本视为连续视觉信号进行高效压缩,突破传统Transformer二次方复杂度限制。其核心架构包括DeepEncoder视觉编码器(3.8亿参数)和MoE解码器(30亿参数,稀疏激活),支持多分辨率动态处理,实现最高20:1的压缩比。训练采用两阶段策略,结合3000万页多语言数据,在文档数字化、知识管理等领

#DeepSeek
DeepSeek-OCR 视觉-文本压缩 创新多模态模型

摘要:DeepSeek-OCR是DeepSeek AI团队推出的创新多模态OCR模型,采用"视觉-文本压缩"技术实现高效文档处理。其双模块架构包含3.8亿参数的视觉编码器和3B-MoE解码器,支持5种分辨率模式,在10倍压缩率下仍保持97%准确率。该模型突破性地解决了传统OCR的结构保持、多语言支持和复杂内容解析等痛点,支持PDF/图像批量处理并输出结构化Markdown。典型

#DeepSeek
GPT-5震撼发布:博士级AI登场,国产模型开源破局

OpenAI发布GPT-5,实现"博士级"AI能力跃升,在编程、写作、医疗等领域展现突破性进展。国产AI模型以开源生态和垂直应用应对,通义千问登顶编程榜,沧渊深耕海洋科技,形成差异化竞争优势。全球AI进入双轨发展阶段:美国主导通用智能前沿,中国聚焦行业落地与开源生态。技术竞争正从单一模型转向全栈能力与产业转化的综合比拼。

#人工智能#开源#AI
AI: 一文读懂循环神经网络(RNN)

摘要: 循环神经网络(RNN)是处理序列数据的核心模型,通过隐藏状态传递历史信息实现序列依赖建模。其核心结构在每个时间步接收当前输入和上一状态,通过时间展开形成链式结构。针对传统RNN的梯度消失问题,LSTM引入遗忘门、输入门和输出门增强长期记忆能力,GRU则通过简化门控结构提升效率。RNN在自然语言处理(文本生成、情感分析)、时间序列预测和语音识别等领域有广泛应用,但面临梯度不稳定和训练复杂度高

#rnn#人工智能#深度学习
AI:微调框架 LLaMA-Factory(Large Language Model Factory)

LLaMA-Factory是由北航团队开源的大语言模型微调框架,支持100多种主流模型(如LLaMA 3、ChatGLM等)和多类微调技术(LoRA、QLoRA等)。其核心优势包括:1)高效训练算法,可降低显存占用至LoRA的1/4;2)全流程工具链,覆盖从数据准备到模型部署;3)支持多种训练范式(SFT、PPO等)。通过4比特量化技术,消费级GPU即可训练13B参数模型。项目提供Web UI和命

#人工智能#语言模型#AI
AI标准化协议: MCP(Model Context Protocol,模型上下文协议), AI的“万能插座”和“协作引擎”

摘要: MCP(Model Context Protocol)是一种标准化协议,旨在统一大型语言模型与外部工具的交互方式,解决接口碎片化、能力局限和安全风险问题。其技术架构分为执行环境、通信枢纽和服务终端三层,支持动态能力发现、细粒度权限控制和多种通信模式。应用场景涵盖企业智能化、工业物联网和消费级AI助手,显著提升开发效率与协作能力。MCP通过模块化设计和开放生态重构AI价值链,推动AI普惠化。

#人工智能#MCP
RAG管理工具:AnythingLLM 管理你的私有化知识库和本地AI模型

AnythingLLM 是一款功能强大的​​开源全栈 AI 应用程序​​,专为构建私有化知识库和智能问答系统设计。它通过检索增强生成(RAG)技术,将用户提供的文档(如 PDF、TXT、DOCX)转化为大语言模型(LLM)可理解的上下文,实现基于本地数据的精准问答。

#人工智能#AI#RAG
AI:监督微调(Supervised Fine-Tuning, SFT)

监督微调(SFT)是深度学习中的关键迁移学习技术,通过在预训练大模型基础上使用少量标注数据调整参数,使其适配特定任务。核心原理是引导模型知识迁移,避免从头训练的高成本。主流算法包括LoRA、QLoRA等参数高效方法,通过冻结大部分参数仅优化少量结构。实施流程包含模型选择、数据标注、预处理、微调训练及评估部署。当前面临幻觉问题、效率优化等挑战,未来将向多模态扩展发展。SFT作为"预训练-微

#人工智能#AI#LoRA
AI:词嵌入(Word Embedding)中的未登录词(Out-Of-Vocabulary, OOV)问题

摘要:未登录词(OOV)问题是NLP中测试词汇未出现在训练词表中的现象,主要由语言动态性、数据局限性和技术限制导致。OOV会降低模型性能,造成信息损失。主流解决方案包括子词分割(如WordPiece、BPE)、字符级模型和混合策略。不同语言OOV率差异显著,中文处理需结合字符级拆分和语素特征。最新进展包括动态词汇扩展和多模态嵌入。实践中建议优先选择支持子词处理的模型(如BERT),中文任务可优化使

#人工智能#AI
    共 58 条
  • 1
  • 2
  • 3
  • 6
  • 请选择