logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态RAG,图像/语音/视频也能拿来做检索增强生成

比如论文中这个图,传统的PDF文档检索,要经过OCR、布局检测、文本摘要、文档切分(chunking)等一系列处理步骤,一套操作下来,每一页需要7.22秒的时间,可以说非常耗时了。Qwen2.5-Omni是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。RAG作为大模型实际落地使用最需要的辅助工具,依靠基础的多模态大模型的能力进步,多模态

#人工智能
我用Gemini为两岁的女儿制作了一套AI故事绘本

作为一个有女儿的爸爸,我第一时间体验了下Gemini的storybook。让我吃惊的是,就这么一个看起来不是很复杂的AI Agent产品,所使用的Agent竟然高达20个!有了初步的使用经验之后,我又加大强度,将我女儿平时的生活照转换为吉卜力风格或者Veo3视频,再用Storybook生成了一套适合我女儿这个年龄阶段的故事绘本。当夜幕降临,我下班回到家,用电脑打开Gemini Storybook,

腾讯的混元3D AI生成,是每个人最佳的3D数字资产管理平台

Hunyuan3D-Paint则利用强大的几何和扩散先验,通过新颖的网格条件多视图生成管道和图像去光照模块,为生成或手工网格生成高分辨率、生动的纹理贴图,确保多视图生成的一致性。现在,我可以用单张3D医学影像,基于混元3D进行三维重建。但混元3D生成系列模型开源之后,在混元3D生成平台,用户仅需要提示词描述和参考图像,即可生成3D内容。在提升3D内容生成质量和效率的同时,也大幅度降低了3D内容创作

#3d#人工智能
DeepResearch + 一键生成PPT:建议立刻将NotebookLM作为日常生产力工具

从去年的Audio Overview播客生成,到今年的Video Overviews视频生成,再到现在的Slide Deck幻灯片生成,NotebookLM正在从一个AI笔记工具逐渐演变成一站式内容创作平台。然后针对这份报告,我们可以使用右侧的Studio功能将其呈现为PPT、语音播客、视频概览、文字报告、闪卡、测练题、信息图、思维导图,呈现形式可以说是相当丰富了。播客、视频摘要、信息图、PPT等

#人工智能
DeepSeek-R1-7b全量微调(SFT)技术教程

一个7b的模型,采用LoRA训练通常只需要两张24G的3090或4090显卡即可,并且对数据量要求不高,几百条数据即可开训,半小时内即可训练完成,非常高效。并且LoRA是一种可插拔式的适配器模型,当我们想要实现不同的模型风格效果时,在基础模型不变的情况下,可以训练多个LoRA与基础模型切换和适配,非常灵活。SFT一般需要较多的高质量微调数据,对算力要求也非常高,一个7b的模型,全量微调通常需要参数

#人工智能#深度学习#机器学习 +2
使用ChatGPT Deep research做技术调研,10分钟出一篇论文综述!

这两天OpenAI下调了Deep research功能的使用门槛,原先200美刀一个月的Pro用户才能用的,现在20刀的Plus用户也能用了。因为我日常经常要针对特定研究方向做文献调研,经常要花1-2周时间精泛文献,是一个非常耗时耗力的活。所以Deep research我第一时间尝了个鲜,简单和大家聊一下这个东西。选择o1模型,然后在输入框下面把Deep research勾选上,就可以体验深度研究

#人工智能
自从用了谷歌的NotebookLM后,我卸载了之前所有的个人笔记软件

这几年,笔记和知识库之类的应用涌现出很多,比如Notion、语雀、飞书,这些都能当个人笔记和知识库,并且这两年都不断在加深AI生态的构建。在中间的对话区,我们可以基于所有的数据材料,跟大模型进行对话,深度学习和探讨材料中的知识,并随时可以将讨论过程中的真知灼见添加到笔记区。NotebookLM还可以基于所有上传的材料,生成语音概览和视频概览,也就是AI博客,不想看文字的时候,我们可以听音频看视频。

#人工智能
DeepSeek-R1-7b全量微调(SFT)技术教程

一个7b的模型,采用LoRA训练通常只需要两张24G的3090或4090显卡即可,并且对数据量要求不高,几百条数据即可开训,半小时内即可训练完成,非常高效。并且LoRA是一种可插拔式的适配器模型,当我们想要实现不同的模型风格效果时,在基础模型不变的情况下,可以训练多个LoRA与基础模型切换和适配,非常灵活。SFT一般需要较多的高质量微调数据,对算力要求也非常高,一个7b的模型,全量微调通常需要参数

#人工智能#深度学习#机器学习 +2
迁移学习理论与实践

迁移学习Author:louwillFrom:深度学习笔记在深度学习模型日益庞大的今天,并非所有人都能满足从头开始训练一个模型的软硬件条件,稀缺的数据和昂贵的计算资源都是我们...

#神经网络#计算机视觉#机器学习 +1
深度学习论文精读[5]:Attention UNet

以CNN为基础的编解码结构在图像分割上展现出了卓越的效果,尤其是医学图像的自动分割上。但一些研究认为以往的FCN和UNet等分割网络存在计算资源和模型参数的过度和重复使用,例如相似的低层次特征被级联内的所有网络重复提取。针对这类普遍性的问题,相关研究提出了给UNet添加注意力门控(Attention Gates, AGs)的方法,形成一个新的图像分割网络结构:Attent...

#网络#深度学习#计算机视觉 +1
    共 65 条
  • 1
  • 2
  • 3
  • 7
  • 请选择