代号。。。。。。。个人主页

@sherlockMa

代号。。。。。。。

2023-01-24 16:33:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Qwen3：重磅开源，重夺开源第一！（包含详细使用教程）

Qwen3 代表了人类在通往通用人工智能（AGI）和超级人工智能（ASI）旅程中的一个重要里程碑。通过扩大预训练和强化学习的规模，之子实现了更高层次的智能。作者无缝集成了思考模式与非思考模式，为用户提供了灵活控制思考预算的能力。此外，作者还扩展了对多种语言的支持，帮助全球更多用户。

#人工智能 #python #语言模型 +1

Kimi-K2技术报告解读：万亿参数大模型，开源模型新SOTA

Kimi K2，这是一个面向智能体智能的 1 万亿参数开源 MoE 模型。借助 token 高效的 MuonClip 优化器与 15.5 T 高质量 token 数据，作者实现了稳定且可扩展的预训练。后训练阶段，作者将大规模合成工具使用数据与统一 RL 框架相结合，同时利用可验证奖励与自评反馈。Kimi K2 在智能体与推理基准上刷新开源纪录，成为迄今最强的开源大模型。

#人工智能 #nlp #AIGC +2

西瓜书《机器学习》全网最详细解释第二章：模型评估

周志华西瓜书机器学习第二章

#机器学习 #人工智能 #python +3

西瓜书《机器学习》全网最详细解读第四章：决策树

决策树(decision tree)是一类常见的机器学习方法，是一种基于树结构的监督学习算法，广泛应用于分类和回归任务中。

#机器学习 #决策树 #人工智能 +4

HPT：何凯明新作！解决智能体异构问题（包含论文代码详解）

在这篇博客中，我们介绍了异构预训练Transformer（HPT）模型，这是由MIT和Meta FAIR团队开发的机器人学习领域的一个突破。HPT解决了机器人学习中的异构性问题，通过预训练一个共享的神经网络主干来学习通用的表示，使模型能够跨机器人硬件和任务迁移和泛化。这一创新减少了对特定任务数据的需求，并在真实与模拟环境中展现了优异的性能，预示着机器人技术在智能化和自主化方面的广阔前景。

#人工智能 #计算机视觉

OverLoCK：先概览，再聚焦。CVPR2025全新主干网络

作者提出了一种深度阶段分解策略（Deep-stage Decomposition Strategy, DDS），该策略受人类视觉系统“先概览后细看”（Overview-first-Look-Closely-next）机制的启发，将卷积网络（ConvNet）分解为三个协同工作的子网络：Base-Net（基础网络）、Overview-Net（概览网络）和Focus-Net（聚焦网络）。这种设计旨在通过

#人工智能 #python #神经网络 +4

LSNet：以小见大，CVPR2025全新轻量级主干网络

本文提出了一种新型的轻量级视觉网络架构——LSNet（Large-Small Network），旨在通过高效的感知和聚合策略，在有限的计算成本下实现高性能的视觉信息处理。LSNet的设计灵感来源于人类视觉系统的“看大，聚焦小”策略，通过结合大核感知（Large-Kernel Perception, LKP）和小核聚合（Small-Kernel Aggregation, SKA）的LS卷积操作，实现

#深度学习 #计算机视觉 #人工智能 +4

百度开源文心一言4.5：论文解读和使用入门

百度ERNIE团队发布ERNIE4.5模型家族，包含10种多模态模型变体，涵盖47B和3B参数的MoE模型及424B总参数模型。该系列采用异构模态结构和模态隔离路由机制，支持跨模态参数共享，同时保持各模态独立性。模型在指令遵循、知识记忆、视觉理解等任务上达到SOTA性能。

#百度 #开源 #人工智能 +1

Kimi-Audio：Kimi团队开源最强音频大模型，横扫15项榜单，拿下第一！

Kimi-Audio，这是一个开源的音频基础模型，在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器（Audio tokenizer），并设计了一种新型的基于LLM的架构，该架构以连续特征作为输入，以离散标记作为输出，并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集，包含超过1300万小时的音频数据，涵盖语音、声音和音乐等多种模态，并构建了一个用于构建高质量和

#音视频 #AIGC #语言模型 +2

LLaMA-Factory：无代码微调大模型，小白也能上手（以Qwen3为例，包括lora、dpo、ppo等）

LLaMA Factory是一个功能强大的平台，专注于训练和微调大型语言模型。它支持多种模型和训练方法，涵盖了从预训练到微调的全过程，能够满足不同用户的需求。总的来说，LLaMA Factory是一个功能全面、使用方便的平台，能够为用户提供高效、灵活的模型训练和微调体验。

#深度学习 #AIGC #自然语言处理

共 53 条

请选择