
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
SSH Turbo File Transfer是一款基于Python开发的轻量级SFTP文件传输工具,专为提升服务器运维和深度学习训练中的文件传输效率而设计。该工具具有以下核心优势:1)采用多线程并行传输技术,显著提升大量小文件的传输速度;2)内置实时流量监视器,直观显示传输速度;3)支持SSH命令自动解析,简化连接流程;4)提供双进度条系统,精确监控传输进度;5)跨平台支持Windows、mac

本文详细介绍了阿里巴巴达摩院研发的中文文生图模型Jimeng的部署方法。该模型结合中文BERT与Stable Diffusion架构,可直接输入中文生成高质量图像。文章提供了完整的部署指南,包括环境准备(需NVIDIA GPU)、核心依赖库安装,并重点解决了关键的版本冲突问题(huggingface_hub库兼容性修复)。提供了两个实用脚本:单次生成测试脚本和交互式生成系统,后者支持连续输入中文描

本文介绍了在AI应用开发中部署RAG(检索增强生成)系统的实战步骤,重点围绕两个核心模型:GTE-Chinese-Large语义向量模型和SeqGPT-560m轻量化生成模型。文章详细说明了环境准备、依赖安装、使用aria2加速模型下载的方法,并提供了避开常见错误的解决方案。通过Python代码示例展示了如何实现语义搜索功能和文本生成任务,包括知识库检索和Prompt优化技巧。最后总结了部署过程中

摘要: 论文《LoRA: Low-Rank Adaptation of Large Language Models》提出了一种高效的大模型微调方法,通过冻结预训练权重并插入可训练的低秩矩阵($\Delta W = B \cdot A$),显著降低参数规模(仅为原模型的0.01%-0.2%)。实验表明,LoRA在GLUE和生成任务上性能媲美甚至超越全量微调,同时实现无推理延迟、显存占用降低2/3等优

复旦NLP团队2023年发表的综述《The Rise and Potential of Large Language Model Based Agents》系统构建了LLM智能体的通用框架,提出以"大脑(LLM决策)-感知(多模态理解)-行动(工具调用)"为核心的技术范式,突破传统智能体的任务局限性。文章涵盖单智能体、多智能体协作、人机交互及智能体社群四大应用场景,并指出工具S

摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、

《DistilBERT:轻量化BERT的关键突破》摘要 DistilBERT通过知识蒸馏技术解决了BERT等大模型部署难的核心矛盾,在保留97%性能的同时将模型压缩40%。其创新在于:1)预训练阶段引入三重损失(蒸馏损失+MLM损失+余弦损失),全面迁移教师模型知识;2)精简架构设计(移除冗余组件、层数减半);3)采用教师参数初始化加速训练。实验显示,DistilBERT在GLUE基准上接近BER

《LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale》论文针对千亿参数大模型的内存瓶颈问题,提出创新性解决方案。研究发现大模型存在系统性异常值特征(约占0.1%),传统量化方法会因异常值主导缩放而性能退化。论文提出混合精度量化方案:对异常值保留FP16精度,普通特征采用向量级Int8量化。实验证明该方法在175B参数模

文章摘要:本文介绍了在RAG系统中部署BGE-Reranker-v2-m3的重要性,该模型能通过交叉编码器架构深度分析查询与文档的语义关系,解决传统向量搜索的模糊匹配问题。文章包含原理分析、环境准备步骤和核心代码实现,通过示例演示了Reranker如何识别关键词陷阱并锁定逻辑答案,从而提升大模型输出的准确性。标准RAG流程建议先进行向量搜索粗排,再用Reranker精排,最终筛选出最相关的文档喂给

本文详细介绍了如何在Linux服务器上本地部署智谱AI开源的GLM-4V-9B多模态视觉模型。主要内容包括:环境准备(Ubuntu系统、24GB显存等)、模型下载(推荐使用ModelScope加速)、核心部署代码实现图文对话功能,并提供了显存优化方案(4-bit量化)和高并发推理方案(vLLM部署)。文章还包含常见问题排查指南,帮助用户快速解决部署过程中的典型错误。通过本地部署该模型,可有效保护数








