logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习第54讲:训练一个深度卷积对抗网络DCGAN

自从GoodFellow提出GAN以后,GAN就存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。为了解决这些问题,后来的研究...

Nano Banana Pro二次编辑的入口,谷歌竟然藏得这么深!

按照正常的逻辑,我生成了一张图,觉得需要优化,用二次编辑的方式定点修改。而不是我生成了一张图,觉得效果不好,但我需要把这张图先下载下来,再上传到Gemini,然后再二次编辑这张图后发给模型修改。具体操作方法是,用Nano生成完一张图后,把这张图下载到本地,然后再上传到Gemini,或者是上传一张需要修改的图。关键操作在于,上传后,不要写完提示词就点提交,先等一下,点击上传的图像到放大页面。所以,当

大模型从Chatbot变成Artifacts,Deep Research从文字结果到可视化报告

虽然这个问题链的话题并不是今天讨论的重点,但这种高度清晰可见的过程展示,让用户能够更加清楚的了解AI的工作过程,本身就是一种大模型可解释性的方式,也进一步增加了深度研究搜索过程和结果的可信度和可靠性。比如,在本例中,Gemini在报告的几个关键点上添加了Gemini交互按钮,我们可以点击相关按钮,更深入的理解报告内容。整体来看,Gemini Deep Research应该目前功能最为齐全的深度搜索

逆势而上的月之暗面:Kimi K2编程实测

该卡片应通过不同的动画效果直观展示以下天气状况:风:(例如移动的云朵、摇曳的树木或风线)雨:(例如落下的雨滴、积水形成)太阳:(例如照射的光线、明亮的背景)雪:(例如落下的雪花、积雪)将所有天气卡片并排显示。但K2的论文还未发布,这1T参数量的模型具体咋训练的,只能等后续论文发布了再看。特别是在年后DeepSeek崛起,六小龙模式岌岌可危的环境下,Kimi能逆势而上,仍然在基座模型上持续发力,颇有

我用DeepSeek将《桃花源记》拍成了微电影!

不好意思,有点标题党了,大家都知道DeepSeek是个纯LLM,没有多模态的功能,没法生成视频,出图的功能都没有。完整的技术方案应该是DeepSeek+Midjourney+即梦+剪映。其中DeepSeek用于生成分镜脚本和提示词,Midjourney用于生成分镜首图,即梦用来直接生成分镜视频,而剪映用于最终的剪辑和成片。本文主要展示如何组合使用上述工具,将陶渊明的《桃花源记》生成为1-2分钟的微

多模态RAG,图像/语音/视频也能拿来做检索增强生成

比如论文中这个图,传统的PDF文档检索,要经过OCR、布局检测、文本摘要、文档切分(chunking)等一系列处理步骤,一套操作下来,每一页需要7.22秒的时间,可以说非常耗时了。Qwen2.5-Omni是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。RAG作为大模型实际落地使用最需要的辅助工具,依靠基础的多模态大模型的能力进步,多模态

#人工智能
我用Gemini为两岁的女儿制作了一套AI故事绘本

作为一个有女儿的爸爸,我第一时间体验了下Gemini的storybook。让我吃惊的是,就这么一个看起来不是很复杂的AI Agent产品,所使用的Agent竟然高达20个!有了初步的使用经验之后,我又加大强度,将我女儿平时的生活照转换为吉卜力风格或者Veo3视频,再用Storybook生成了一套适合我女儿这个年龄阶段的故事绘本。当夜幕降临,我下班回到家,用电脑打开Gemini Storybook,

腾讯的混元3D AI生成,是每个人最佳的3D数字资产管理平台

Hunyuan3D-Paint则利用强大的几何和扩散先验,通过新颖的网格条件多视图生成管道和图像去光照模块,为生成或手工网格生成高分辨率、生动的纹理贴图,确保多视图生成的一致性。现在,我可以用单张3D医学影像,基于混元3D进行三维重建。但混元3D生成系列模型开源之后,在混元3D生成平台,用户仅需要提示词描述和参考图像,即可生成3D内容。在提升3D内容生成质量和效率的同时,也大幅度降低了3D内容创作

#3d#人工智能
DeepResearch + 一键生成PPT:建议立刻将NotebookLM作为日常生产力工具

从去年的Audio Overview播客生成,到今年的Video Overviews视频生成,再到现在的Slide Deck幻灯片生成,NotebookLM正在从一个AI笔记工具逐渐演变成一站式内容创作平台。然后针对这份报告,我们可以使用右侧的Studio功能将其呈现为PPT、语音播客、视频概览、文字报告、闪卡、测练题、信息图、思维导图,呈现形式可以说是相当丰富了。播客、视频摘要、信息图、PPT等

#人工智能
DeepSeek-R1-7b全量微调(SFT)技术教程

一个7b的模型,采用LoRA训练通常只需要两张24G的3090或4090显卡即可,并且对数据量要求不高,几百条数据即可开训,半小时内即可训练完成,非常高效。并且LoRA是一种可插拔式的适配器模型,当我们想要实现不同的模型风格效果时,在基础模型不变的情况下,可以训练多个LoRA与基础模型切换和适配,非常灵活。SFT一般需要较多的高质量微调数据,对算力要求也非常高,一个7b的模型,全量微调通常需要参数

#人工智能#深度学习#机器学习 +2
    共 65 条
  • 1
  • 2
  • 3
  • 7
  • 请选择