logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于SWIFT和Qwen1.5-14B-Chat进行大模型LoRA微调测试

训练一个epoch大约需要114小时;进行一次验证大约需要22分钟。(这里的时间只是一个大概值,在训练时,不同数据的处理速度不同,花费的总时间会一直变化)。相比于全参,LoRA的微调方式能够节约大量的显存,因此我们可以将nproc\_per\_node设置的大一些,以提高训练的速度。

文章图片
#swift#开发语言#ios +2
Java程序员可以转换到人工智能领域吗?

人工智能领域是未来主要的发展方向之一,目前很多Java程序员也都有着手学习python知识,这个确实是个不错的选择,而且未来人工智能方向发展前景还是不错的,不论是就业情况还是薪资待遇都比较可观!!目前整个人工智能领域的人才缺口还是比较大的,而且由于人工智能领域的人才培养周期比较长,所以人才缺口将持续较长一段时间,这为Java程序员转换到人工智能领域提供了机会,而且目前行业内确实有不少Java程序员

文章图片
#java#人工智能#开发语言 +3
Google硬刚Claude 3.5 Sonnet的底气:多智能体!

这两天谷歌更是硬怼Open AI,强势发布了基于多智能体打造的Gemini 2.0。,而ACL’24也是如此。毕竟,Multi agent无需针对特定任务或场景进行额外的微调,,为科研人开辟了一条更高效的探索道路。

文章图片
#python#深度学习#人工智能 +3
大模型|谷歌Gemini Live登陆旗舰手机

谷歌正式为Pixel 9和Galaxy S25用户推送Gemini Live多模态交互功能,实现摄像头实时问答与屏幕协同分析。该服务基于5月发布的Project Astra技术,用户可通过镜头捕捉环境(如识别水族箱鱼类)或共享屏幕内容(比价购物),获得即时AI辅助。虽然基础功能免费,但需订阅Gemini Advanced服务(月费19.99美元)解锁完整体验,目前已支持45种语言。实测显示系统响应

文章图片
#microsoft#人工智能#milvus +3
【剑桥 | 发布多模态检索器,赋能多模态大模型RAG应用】

PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。尽管多模态大模型(例如 GPT4-Vision、Gemini 等)展现出了强大的通用图文理解能力,它们在回

文章图片
#知识图谱#人工智能#语言模型 +3
这一次,AI真的能帮你实现职场跃迁

根据行业报告,近年来**AIGC(AI Generated Content)**领域岗位数量井喷式增长,AI大模型产品经理作为连接技术与市场的桥梁,正扮演着越来越重要的角色。这一趋势的背后,是企业对AI技术应用的迫切需求和对专业人才的高度渴求。然而,市场需求的激增也带来了人才供给的紧张,尤其是既懂技术又懂市场的复合型人才更是难求。是一个在人工智能领域中具有关键作用的职位,他们负责策划、开发和管理基

文章图片
#人工智能#语言模型#产品经理 +1
「2024 年 AI 时间轴」快速了解过去一年AI的最新资讯!

你还不知道2024年AI进步多快?「2024年AI时间轴」帮你回顾。2024年AI时间轴-All2024年AI时间轴-Openweightsonly2024年AI时间轴-APIonly左右滑动查看更多来源:https://huggingface.co/spaces/reach-vb/2024-ai-timelineStabilityAI宣布推出(逐步发布到等候名单)。GeminiProGoogle

文章图片
#人工智能#计算机视觉#机器学习 +2
ComfyUI:融合LLM技术,打造图片工作流新体验,实现图文音视一体化处理!(graphRAG、ollama助力)

我们正在使用一些Agent平台如FastGPT和Dify,他们注重于快速生成文本内容,知识库问答,提供自定义能力和与现有系统的集成性。同时,在AI绘画方面,我们原来使用SD,后来使用ComfyUI。虽然ComfyUI被广泛用于将文本转化为图像(文生图),但它实际上是一种生成式AI内容(AIGC)的工具,其功能不仅限于此。它还能够处理文本生成(文生文),因此可以实现多种内容的生成。Dify中也有提供

文章图片
#百度#microsoft#数据库 +1
全模态模型Qwen2.5-Omni开源,7B尺寸实现全球最强性能

今天,通义千问Qwen2.5-Omni-7B正式开源。作为通义系列模型中首个端到端全模态大模型,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。在权威的多模态融合任务OmniBench等测评中,Qwen2.5-Omni刷新业界纪录,全维度远超Google的Gemini-1.5-Pro等同类模型。Qwen2.5-Omni以接近人类的多感官方式「立体」认知世界并与之实时交

文章图片
#数据库#人工智能#计算机视觉 +2
BAGEL:王炸!字节开源7B豆包版,对标GPT-4o与Gemini2.0的国内首个统一多模态图像编辑模型

今日文章介绍一款名为的开源统一多模态模型,这是由的最新类似GPT-4O的7B参数的视觉大模型。其功能与 GPT-4o 和 Gemini 2.0 等专有系统类似,凭借原生多模态架构,能够实现实用且有价值的图像生成,输出精确、准确且逼真的图像。模型支持(可用于图等咨询和问答)、等。•:BAGEL 是统一的生成与理解模型,基于大型语言模型预训练,具备推理与对话基础能力。可处理图像和文本输入,并以混合格式

#transformer#人工智能#数据库 +1
    共 366 条
  • 1
  • 2
  • 3
  • 37
  • 请选择