logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

PDFMathTranslate:基于LLM的PDF文档翻译及双语对照的工具【使用教程】

PDFMathTranslate 是一个用于科学 PDF 文档翻译及双语对照的工具,是一个功能强大且灵活的科学文档翻译工具,适合科研人员、学生和专业人士使用,能够有效提高文档翻译的效率和质量。核心功能保留格式:在翻译过程中,能够保留原文档中的公式、图表、目录和注释,确保翻译后的文档与原文在结构和内容上保持一致。多语言支持:支持多种语言的翻译,满足不同用户的需求。多种部署方式:提供命令行工具、图形交

文章图片
#人工智能#pytorch#机器翻译 +1
Open-R1:Deepseek-R1复现项目(包含SFT阶段、GRPO阶段代码详解)

DeepSeek-R1的意义在于其通过创新的训练方法和技术突破,为大型语言模型(LLMs)在推理能力、训练效率和成本控制等方面树立了新的标杆。其采用的多阶段训练策略,结合冷启动数据微调、强化学习(RL)和监督微调(SFT),不仅显著提升了模型在复杂推理任务中的表现,还解决了传统单阶段训练方法难以克服的挑战。DeepSeek-R1的训练过程证明了强化学习可以有效提升模型的推理能力,同时其创新的GRP

文章图片
#深度学习#人工智能#nlp +2
LLaMA-Factory:无代码微调大模型,小白也能上手(以Qwen3为例,包括lora、dpo、ppo等)

LLaMA Factory是一个功能强大的平台,专注于训练和微调大型语言模型。它支持多种模型和训练方法,涵盖了从预训练到微调的全过程,能够满足不同用户的需求。总的来说,LLaMA Factory是一个功能全面、使用方便的平台,能够为用户提供高效、灵活的模型训练和微调体验。

文章图片
#深度学习#AIGC#自然语言处理
Qwen3:重磅开源,重夺开源第一!(包含详细使用教程)

Qwen3 代表了人类在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模,之子实现了更高层次的智能。作者无缝集成了思考模式与非思考模式,为用户提供了灵活控制思考预算的能力。此外,作者还扩展了对多种语言的支持,帮助全球更多用户。

文章图片
#人工智能#python#语言模型 +1
LightRAG代码详解

LightRAG是一种基于图结构和双层检索机制的检索增强生成(Retrieval-Augmented Generation, RAG)系统,旨在通过优化检索效率和知识表示,提升自然语言处理任务的性能。LightRAG的架构分为两个主要部分:基于图的索引阶段和基于图的检索阶段。在索引阶段,系统利用大型语言模型(LLM)从文本块中提取实体和关系,并构建知识图谱。该图谱通过去重和LLM增强分析,生成高效

文章图片
#人工智能#机器学习#python +3
Qwen3-VL:开源最强多模态大模型(架构解析及使用代码)

Qwen3-VL是阿里巴巴开发的新一代视觉语言模型,支持256K tokens的交错上下文处理,包含稠密型和混合专家型变体。其核心优势包括强大的文本理解能力、稳健的长上下文处理以及先进的多模态推理能力。模型通过增强型交错MRoPE、DeepStack集成和文本基视频时间对齐三大升级优化时空建模。训练采用四阶段预训练和SFT、知识蒸馏、RL后训练流程,在多模态任务中表现卓越。评估显示Qwen3-VL

文章图片
#人工智能#深度学习#语言模型 +2
DeepseekMath:超强开源数学模型(论文详解)

在本研究中,作者引入了DeepSeekMath,这是一个特定于领域的语言模型,它的数学性能显著优于开源模型,在学术基准测试中接近GPT-4的性能水平。为了实现这一目标,作者创建了DeepSeekMath语料库,这是一个包含120 B个数学标记的大规模高质量预训练语料库。在初始迭代中,使用OpenWebMath中的实例来训练分类器作为正面例子,同时纳入了其他网页的多样化选择作为负面例子。随后,使用基

文章图片
#深度学习
Kimi-Audio:Kimi团队开源最强音频大模型,横扫15项榜单,拿下第一!

Kimi-Audio,这是一个开源的音频基础模型,在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器(Audio tokenizer),并设计了一种新型的基于LLM的架构,该架构以连续特征作为输入,以离散标记作为输出,并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集,包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态,并构建了一个用于构建高质量和

文章图片
#音视频#AIGC#语言模型 +2
MinerU:最强文档解析多模态大模型

MinerU是一款由OpenDataLab开源的多模态文档智能解析工具链,旨在将PDF等非结构化文档转化为机器可读的结构化数据。MinerU支持多种输出格式(Markdown/LaTeX/HTML/JSON),可处理复杂版式文档,并针对重叠元素设计了智能后处理算法。该工具填补了开源社区在高精度文档理解基础设施方面的空白,为构建高质量大模型语料库提供了工业级解决方案。

文章图片
#开源#人工智能#视觉检测 +2
    共 66 条
  • 1
  • 2
  • 3
  • 7
  • 请选择