logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

助力解析化学图像生成文本分析,化学大语言模型 ChemVLM 来啦!

该模型旨在解决化学图像理解与文本分析之间的不兼容问题,通过结合视觉 Transformer (ViT)、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势,实现了对化学图像和文本的全面推理。可以看到模型针对图像准确描述了图像的内容是黄色的液氮罐,接着我们可以继续问它一个问题,比如我们输入「液氮的化学分子式是什么」。平台会自动选择合适的算力资源和镜像版本,这里使用的是英伟达 A100的算力和

文章图片
#语言模型#人工智能#自然语言处理 +2
腾讯 Hunyuan3D-1.0 教程,超真实 3D 图像生成

Hunyuan3D-1.0 是由腾讯公司研究团队于 2024 年推出的 3D 生成扩散模型模型,包括一个轻量版和一个标准版,均支持从文本和图像输入生成高质量的 3D 资产,轻量版模型能在大约 10 秒内生成 3D 物体,而标准版则在大约 25 秒内完成,标准版本比精简版和其他现有模型多 3 倍参数。本教程是 Hunyuan3D-1.0 轻量版,包含 2 个功能:「图像生成 3D (image to

文章图片
#3d#人工智能#深度学习 +2
支持多语言!Voxtral 玩转语音转写与总结:从音频到摘要只需一步

更重要的是,Voxtral 不止是听写工具,它还能自动生成音频摘要,告诉你这段话的重点是什么。在「Audio Transcription」界面,上传一段 TED 演讲音频,选择语言「en」,点击「Transcribe Audio」,可以看到很快模型转录出了这段音频的英文文本。接着我们选择语言「zh」,点击「Transcribe Audio」,模型很快给出了这段音频的中文文本。首先点击「公共教程」,

文章图片
#音视频#深度学习#人工智能
数字人技术再超越,TANGO 可生成与音频匹配的全身手势视频

选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。进入 Demo 界面后,在「Upload your audio」处上传音频,在「Your Character」处上传视频,「Seed」可设置随机种子数。最后点击「Generate Video」生成。稍等片

文章图片
#音视频#人工智能#深度学习 +3
使用 GTZAN 数据集预处理音频数据

色谱图是一系列色度特征,每个特征表示在时间窗口内音频的音调内容在 12 个色度频带/音高之间的分布,在色谱图中,通常使用不同的颜色或灰度来表示不同音高的能量。频谱中心表示频谱的质心位置,在感知上,它与声音亮度的印象具有牢固的关联,频谱中心是通过使用傅立叶变换确定信号中存在的频率,并将它们的幅度作为权重计算的加权平均值。感兴趣的可以听一下它给出的各种流派的音乐。频谱图表示了信号在不同频率上随时间变化

文章图片
#人工智能#机器学习#迁移学习 +3
以视觉为中心的多模态大型语言模型 Cambrian-1 在线运行教程

返回工作空间,再打开一个新的终端,输入命令 bash model.sh ,当系统输出 Uvicorn running on 一个链接时表示模型已配置完成,然后我们返回到之前的模型 Demo 界面,点击刷新,可以看到可以选择模型了。稍等 15s 左右,打开一个新的终端,输入命令 bash gradio.sh,模型将会输出一个 Running on public URL 的链接,我们点击进入。模型较大

文章图片
#人工智能#深度学习#图像处理 +4
更高效!更准确!YOLOE 实现实时目标检测

在「Visual Type」一栏中选择视觉类型,在「Intra/Cross Image」一栏中选择模式,在「Model」一栏中选择好模型并设置好参数后,点击「Detect & Segment Objects」开始检测。masks:例如上传一个包含很多人的图像,想检测人的图像,使用 masks 将一个人涂抹,推理时模型就会根据 masks 的内容识别图像中所有的人。待系统分配好资源,当状态变为「运行

文章图片
#目标检测#目标跟踪#人工智能 +2
大模型推理的「加速神器」,使用 vLLM 对 Qwen2.5 推理实操教程

选择「NVIDIA GeForce RTX 4090」以及「vLLM」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。如果我们对模型进行微调,那么系统就不那么重要了,因为无论我们使用哪个系统提示,模型都会从目标中学习该做什么。该教程为使用 vLLM 加载 Qwen2.5-3B-Instruct-AWQ 模型进行少样本学习,包括

文章图片
#python#开发语言#人工智能 +3
DeepSeek 开源多模态大模型 Janus-Pro-7B,一键完成图像理解 & 文生图

Janus-Pro 是一种新颖的自回归框架,它统一了多模态理解和生成,由中国 AI 企业 DeepSeek 于 2025 年开发的开源多模态大模型,它通过将视觉编码解耦到单独的路径来解决以前方法的局限性,同时仍然使用单一的、统一的转换器体系结构进行处理。选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择

文章图片
#人工智能#机器学习#深度学习 +2
vLLM 教程:使用 vLLM 加载大模型进行少样本学习

选择「NVIDIA GeForce RTX 4090」以及「vLLM」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。进入到工作空间后,打开左侧目录中的「README.ipynb」文件即可查看教程的运行步骤。,在「公共教程」页面,选择「使用 vLLM 加载大模型进行少样本学习」教程。稍等片刻,待系统分配好资源,当状态变为「运行

文章图片
#人工智能#深度学习#机器学习
    共 74 条
  • 1
  • 2
  • 3
  • 8
  • 请选择