
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
比如论文中这个图,传统的PDF文档检索,要经过OCR、布局检测、文本摘要、文档切分(chunking)等一系列处理步骤,一套操作下来,每一页需要7.22秒的时间,可以说非常耗时了。Qwen2.5-Omni是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。RAG作为大模型实际落地使用最需要的辅助工具,依靠基础的多模态大模型的能力进步,多模态
作为一个有女儿的爸爸,我第一时间体验了下Gemini的storybook。让我吃惊的是,就这么一个看起来不是很复杂的AI Agent产品,所使用的Agent竟然高达20个!有了初步的使用经验之后,我又加大强度,将我女儿平时的生活照转换为吉卜力风格或者Veo3视频,再用Storybook生成了一套适合我女儿这个年龄阶段的故事绘本。当夜幕降临,我下班回到家,用电脑打开Gemini Storybook,
Hunyuan3D-Paint则利用强大的几何和扩散先验,通过新颖的网格条件多视图生成管道和图像去光照模块,为生成或手工网格生成高分辨率、生动的纹理贴图,确保多视图生成的一致性。现在,我可以用单张3D医学影像,基于混元3D进行三维重建。但混元3D生成系列模型开源之后,在混元3D生成平台,用户仅需要提示词描述和参考图像,即可生成3D内容。在提升3D内容生成质量和效率的同时,也大幅度降低了3D内容创作
从去年的Audio Overview播客生成,到今年的Video Overviews视频生成,再到现在的Slide Deck幻灯片生成,NotebookLM正在从一个AI笔记工具逐渐演变成一站式内容创作平台。然后针对这份报告,我们可以使用右侧的Studio功能将其呈现为PPT、语音播客、视频概览、文字报告、闪卡、测练题、信息图、思维导图,呈现形式可以说是相当丰富了。播客、视频摘要、信息图、PPT等
一个7b的模型,采用LoRA训练通常只需要两张24G的3090或4090显卡即可,并且对数据量要求不高,几百条数据即可开训,半小时内即可训练完成,非常高效。并且LoRA是一种可插拔式的适配器模型,当我们想要实现不同的模型风格效果时,在基础模型不变的情况下,可以训练多个LoRA与基础模型切换和适配,非常灵活。SFT一般需要较多的高质量微调数据,对算力要求也非常高,一个7b的模型,全量微调通常需要参数
这两天OpenAI下调了Deep research功能的使用门槛,原先200美刀一个月的Pro用户才能用的,现在20刀的Plus用户也能用了。因为我日常经常要针对特定研究方向做文献调研,经常要花1-2周时间精泛文献,是一个非常耗时耗力的活。所以Deep research我第一时间尝了个鲜,简单和大家聊一下这个东西。选择o1模型,然后在输入框下面把Deep research勾选上,就可以体验深度研究
这几年,笔记和知识库之类的应用涌现出很多,比如Notion、语雀、飞书,这些都能当个人笔记和知识库,并且这两年都不断在加深AI生态的构建。在中间的对话区,我们可以基于所有的数据材料,跟大模型进行对话,深度学习和探讨材料中的知识,并随时可以将讨论过程中的真知灼见添加到笔记区。NotebookLM还可以基于所有上传的材料,生成语音概览和视频概览,也就是AI博客,不想看文字的时候,我们可以听音频看视频。
一个7b的模型,采用LoRA训练通常只需要两张24G的3090或4090显卡即可,并且对数据量要求不高,几百条数据即可开训,半小时内即可训练完成,非常高效。并且LoRA是一种可插拔式的适配器模型,当我们想要实现不同的模型风格效果时,在基础模型不变的情况下,可以训练多个LoRA与基础模型切换和适配,非常灵活。SFT一般需要较多的高质量微调数据,对算力要求也非常高,一个7b的模型,全量微调通常需要参数
迁移学习Author:louwillFrom:深度学习笔记在深度学习模型日益庞大的今天,并非所有人都能满足从头开始训练一个模型的软硬件条件,稀缺的数据和昂贵的计算资源都是我们...
以CNN为基础的编解码结构在图像分割上展现出了卓越的效果,尤其是医学图像的自动分割上。但一些研究认为以往的FCN和UNet等分割网络存在计算资源和模型参数的过度和重复使用,例如相似的低层次特征被级联内的所有网络重复提取。针对这类普遍性的问题,相关研究提出了给UNet添加注意力门控(Attention Gates, AGs)的方法,形成一个新的图像分割网络结构:Attent...







