小白狮ww 个人主页

@XLionXxxx

小白狮ww

2024-08-22 15:07:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

助力解析化学图像生成文本分析，化学大语言模型 ChemVLM 来啦！

该模型旨在解决化学图像理解与文本分析之间的不兼容问题，通过结合视觉 Transformer (ViT)、多层感知机 (MLP) 和大型语言模型 (LLM) 的优势，实现了对化学图像和文本的全面推理。可以看到模型针对图像准确描述了图像的内容是黄色的液氮罐，接着我们可以继续问它一个问题，比如我们输入「液氮的化学分子式是什么」。平台会自动选择合适的算力资源和镜像版本，这里使用的是英伟达 A100的算力和

#语言模型 #人工智能 #自然语言处理 +2

腾讯 Hunyuan3D-1.0 教程，超真实 3D 图像生成

Hunyuan3D-1.0 是由腾讯公司研究团队于 2024 年推出的 3D 生成扩散模型模型，包括一个轻量版和一个标准版，均支持从文本和图像输入生成高质量的 3D 资产，轻量版模型能在大约 10 秒内生成 3D 物体，而标准版则在大约 25 秒内完成，标准版本比精简版和其他现有模型多 3 倍参数。本教程是 Hunyuan3D-1.0 轻量版，包含 2 个功能：「图像生成 3D (image to

#3d #人工智能 #深度学习 +2

支持多语言！Voxtral 玩转语音转写与总结：从音频到摘要只需一步

更重要的是，Voxtral 不止是听写工具，它还能自动生成音频摘要，告诉你这段话的重点是什么。在「Audio Transcription」界面，上传一段 TED 演讲音频，选择语言「en」，点击「Transcribe Audio」，可以看到很快模型转录出了这段音频的英文文本。接着我们选择语言「zh」，点击「Transcribe Audio」，模型很快给出了这段音频的中文文本。首先点击「公共教程」，

#音视频 #深度学习 #人工智能

数字人技术再超越，TANGO 可生成与音频匹配的全身手势视频

选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，OpenBayes 平台上线了新的计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。进入 Demo 界面后，在「Upload your audio」处上传音频，在「Your Character」处上传视频，「Seed」可设置随机种子数。最后点击「Generate Video」生成。稍等片

#音视频 #人工智能 #深度学习 +3

使用 GTZAN 数据集预处理音频数据

色谱图是一系列色度特征，每个特征表示在时间窗口内音频的音调内容在 12 个色度频带/音高之间的分布，在色谱图中，通常使用不同的颜色或灰度来表示不同音高的能量。频谱中心表示频谱的质心位置，在感知上，它与声音亮度的印象具有牢固的关联，频谱中心是通过使用傅立叶变换确定信号中存在的频率，并将它们的幅度作为权重计算的加权平均值。感兴趣的可以听一下它给出的各种流派的音乐。频谱图表示了信号在不同频率上随时间变化

#人工智能 #机器学习 #迁移学习 +3

以视觉为中心的多模态大型语言模型 Cambrian-1 在线运行教程

返回工作空间，再打开一个新的终端，输入命令 bash model.sh ，当系统输出 Uvicorn running on 一个链接时表示模型已配置完成，然后我们返回到之前的模型 Demo 界面，点击刷新，可以看到可以选择模型了。稍等 15s 左右，打开一个新的终端，输入命令 bash gradio.sh，模型将会输出一个 Running on public URL 的链接，我们点击进入。模型较大

#人工智能 #深度学习 #图像处理 +4

更高效！更准确！YOLOE 实现实时目标检测

在「Visual Type」一栏中选择视觉类型，在「Intra/Cross Image」一栏中选择模式，在「Model」一栏中选择好模型并设置好参数后，点击「Detect & Segment Objects」开始检测。masks：例如上传一个包含很多人的图像，想检测人的图像，使用 masks 将一个人涂抹，推理时模型就会根据 masks 的内容识别图像中所有的人。待系统分配好资源，当状态变为「运行

#目标检测 #目标跟踪 #人工智能 +2

大模型推理的「加速神器」，使用 vLLM 对 Qwen2.5 推理实操教程

选择「NVIDIA GeForce RTX 4090」以及「vLLM」镜像，OpenBayes 平台上线了新的计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。如果我们对模型进行微调，那么系统就不那么重要了，因为无论我们使用哪个系统提示，模型都会从目标中学习该做什么。该教程为使用 vLLM 加载 Qwen2.5-3B-Instruct-AWQ 模型进行少样本学习，包括

#python #开发语言 #人工智能 +3

DeepSeek 开源多模态大模型 Janus-Pro-7B，一键完成图像理解 & 文生图

Janus-Pro 是一种新颖的自回归框架，它统一了多模态理解和生成，由中国 AI 企业 DeepSeek 于 2025 年开发的开源多模态大模型，它通过将视觉编码解耦到单独的路径来解决以前方法的局限性，同时仍然使用单一的、统一的转换器体系结构进行处理。选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像，OpenBayes 平台上线了新的计费方式，大家可以按照需求选择

#人工智能 #机器学习 #深度学习 +2

vLLM 教程：使用 vLLM 加载大模型进行少样本学习

选择「NVIDIA GeForce RTX 4090」以及「vLLM」镜像，OpenBayes 平台上线了新的计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。进入到工作空间后，打开左侧目录中的「README.ipynb」文件即可查看教程的运行步骤。，在「公共教程」页面，选择「使用 vLLM 加载大模型进行少样本学习」教程。稍等片刻，待系统分配好资源，当状态变为「运行

#人工智能 #深度学习 #机器学习

共 74 条

请选择