logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LingBot-World 技术详解与部署指南

蚂蚁集团旗下灵波科技开源世界模型LingBot-World,引发AI领域广泛关注。该模型基于DiT架构,具备超长时序稳定生成、实时交互响应和Zero-shot泛化等核心能力,能模拟符合物理规律的动态场景。技术亮点包括:混合数据引擎融合真实视频与游戏合成数据;三层语义标注体系实现精细训练;三阶段进化训练策略逐步提升性能。与谷歌Genie 3相比,LingBot-World的开源策略推动了行业技术共享

文章图片
#人工智能#深度学习
LingBot-World 技术详解与部署指南

蚂蚁集团旗下灵波科技开源世界模型LingBot-World,引发AI领域广泛关注。该模型基于DiT架构,具备超长时序稳定生成、实时交互响应和Zero-shot泛化等核心能力,能模拟符合物理规律的动态场景。技术亮点包括:混合数据引擎融合真实视频与游戏合成数据;三层语义标注体系实现精细训练;三阶段进化训练策略逐步提升性能。与谷歌Genie 3相比,LingBot-World的开源策略推动了行业技术共享

文章图片
#人工智能#深度学习
NVIDIA Alpamayo 完整使用教程与介绍

NVIDIA Alpamayo是一款开源的自动驾驶AI模型,采用100亿参数的视觉-语言-动作架构,具备因果推理能力。该系统需要24GB显存GPU和Python 3.12环境,推荐使用uv包管理工具安装。模型权重托管在HuggingFace平台,需申请访问权限并认证后下载(约22GB)。国内用户可通过ModelSpace加速下载。该模型实现了L4级自动驾驶所需的轨迹预测和决策解释能力,在测试中显著

文章图片
#人工智能
10 分钟搞定!用UCloud + Clawdbot 打造飞书+企业微信双渠道 AI 助理

摘要:UCloud推出Clawdbot一键部署镜像,10分钟即可在飞书和企业微信中搭建私人AI助理。该助理支持日常问答、OCR识别、日程管理等实用功能,全天候运行在云主机上。部署过程简单,无需复杂代码,提供双端插件支持。用户只需购买指定云主机,选择Clawdbot镜像,配置飞书/企业微信插件即可使用。实测功能包括天气查询、OCR文字提取等,大幅提升工作效率。目前限时优惠90元/年起,支持东京、新加

文章图片
#人工智能
DeepSeek-OCR 2 使用教程

摘要: DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型,采用视觉因果流技术模拟人类阅读方式,智能解析文档结构,支持表格、文本和标签的高效识别。其核心架构DeepEncoder V2通过视觉-文本压缩技术,在A100 GPU上每日可处理超20万页文档。环境配置要求CUDA 11.8+、Python 3.8+及16GB+显存,推荐使用vLLM推理引擎或Gradio可视化界面部

文章图片
DeepSeek-OCR 2 使用教程

摘要: DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型,采用视觉因果流技术模拟人类阅读方式,智能解析文档结构,支持表格、文本和标签的高效识别。其核心架构DeepEncoder V2通过视觉-文本压缩技术,在A100 GPU上每日可处理超20万页文档。环境配置要求CUDA 11.8+、Python 3.8+及16GB+显存,推荐使用vLLM推理引擎或Gradio可视化界面部

文章图片
Mongoose网络库深度解析:从单线程到多线程的架构演进

Mongoose是一个轻量级、跨平台的C/C++网络库,采用单线程事件循环模型,支持HTTP、WebSocket、MQTT等多种协议。其核心设计理念强调简单易用,仅需两个文件即可集成到项目中。库内置连接管理器和事件回调机制,通过非阻塞I/O处理高并发网络请求,特别适合资源受限的嵌入式环境。Mongoose解决了C/C++网络编程中的跨平台兼容性问题,避免了复杂的依赖管理,显著提升了开发效率。该库的

文章图片
#网络#架构#php
AnywhereVLA深度流程解析---学习如何完成移动操作边界的语言驱动机器人系统

摘要: AnywhereVLA是一种创新的模块化移动操作系统,通过融合视觉-语言-动作(VLA)模型的语义理解能力与经典导航算法的鲁棒性,实现了在未知大型室内环境下的语言驱动任务执行。系统包含3D语义地图构建、主动环境探索等核心模块,采用LiDAR点云稠密化和多维度置信度评估技术提升感知精度,结合前沿探索策略实现高效导航。实验表明,该系统能在消费级硬件上实时运行,显著提升了复杂场景下的移动操作性能

文章图片
#学习#机器人
薛定谔导航器:让机器人学会“想象“未来的零样本目标导航框架

薛定谔导航器:基于量子思想的新型机器人导航方法 摘要:受薛定谔猫思想实验启发,本文提出了一种创新的机器人导航方法"薛定谔导航器"。该方法通过将未知空间建模为多个可能世界的叠加态,使机器人能够在行动前"想象"遮挡物背后可能存在的场景。系统采用三条候选轨迹(左绕、右绕、上越)覆盖主要方位,并利用3D高斯溅射技术快速渲染未来可能的3D场景。相比传统方法仅依赖当前观

文章图片
#机器人
LISN: 基于视觉语言模型的语言指令社交导航系统技术解析

本文提出LISN系统,解决移动机器人在社交场景中理解并执行自然语言指令的关键挑战。针对现有社交导航研究缺乏语言理解和实时控制能力的不足,LISN创新性地设计了VLM驱动的快慢分层架构Social-Nav-Modulator,通过将语言指令转化为导航参数调制策略,实现了语义感知的实时导航。系统形式化为指令条件马尔可夫决策过程,定义了四种基本导航模式(行人跟随/规避、区域到达/规避)。配套开发的LIS

文章图片
#语言模型#人工智能#自然语言处理
    共 383 条
  • 1
  • 2
  • 3
  • 39
  • 请选择