logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MiniMind:已开源!只要3小时就能训练一个26M的大模型,教程非常清晰我感觉我又行了!

MiniMind 是一个轻量级的大语言模型项目,让用户可以在个人设备上快速训练和运行GPT模型。该项目可以使用极小的数据和计算资源,在3小时内训练出一个26M的模型,使大模型技术使用更加简单。MiniMind 支持单机单卡和多卡训练,兼容多个流行的框架,并提供完整的代码和文档支持,帮助初学者和研究者快速上手并进行定制和扩展。MiniMind现在总共有5个模型,最小的是26M,已经有不错的对话能力了

文章图片
#人工智能#语言模型#自然语言处理 +2
统一的多模态文字理解与生成大模型

TextHarmony是首个OCR领域的多模态生成模型,统一了视觉文本理解和生成任务。针对多模态生成模型的模态不一致问题,研究者提出Slide-LoRA模块,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony展现出了优秀的视觉文字感知、理解、生成和编辑能力,为依赖于视觉文本理解和生成的复杂交互任务提供了革命性的前景。

文章图片
#人工智能#语言模型#自然语言处理 +1
LLM每周速递!学术最前沿:大模型应用/微调、RAG应用/优化、CoT优化、多模态等

受检索增强生成(Retrieval-Augmented Generation, RAG)在大型语言模型(LLM)知识密集型任务中成功应用的启发,本文在TTA过程中引入了额外的条件上下文,提出了一种名为Audiobox TTA-RAG的新型检索增强TTA方法,相比传统仅依赖文本的生成方式,该方法通过检索音频样本作为额外条件,提供更多声学信息,生成更高质量的音频。更重要的是,这个模型能在低分辨率视频上

文章图片
#人工智能#神经网络#深度学习 +2
30个deepseek高阶提示词,3小时写完高质量课题!

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大

文章图片
#人工智能#microsoft#数据分析 +2
全网首发!百度出品的28页《AI大模型赋能人形机器人》高清PDF免费分享,人类迈向通用人工智能的一大步!

通用视觉大模型通过大量数据学到更多的通用知识,并迁移到下游任务中,基于海量数据获得的预训练模型具有较好的知识完备性,提升场景泛化效果。把机器人做成人形,就是为了使机器人的执行能力更加通用,上游核心零部件随着协作机械臂的兴起快速发展,促进了人形机器人硬件本体制造能力的提升,同时伴随自动驾驶技术的高速发展,人形机器人在视觉、SLAM 与基础 AI 上有了更多的方案选择,大模型的出现,会从语音、视觉、决

文章图片
#百度#人工智能#机器人 +1
全网首发!图灵出品的150页《大模型应用开发极简入门》高清PDF免费分享,小白必备实战指南!

本书为大模型应用开发极简入门手册,为初学者提供了一份清晰、全面的“可用知识”,带领大家快速了解GPT-4和ChatGPT的工作原理及优势,并在此基础上使用流行的Python编程语言构建大模型应用。通过本书,你不仅可以学会如何构建文本生成、问答和内容摘要等初阶大模型应用,还能了解到提示工程、模型微调、插件、LangChain等高阶实践技术。书中提供了简单易学的示例,帮你理解并应用在自己的项目中。此外

文章图片
#人工智能#AIGC
多模态大模型攻击综述

本文对当前针对大型视觉-语言模型的攻击研究进展进行了全面概述。LVLMs 在处理多模态任务方面展示了卓越的能力,但同时也暴露了显著的安全风险。通过系统地回顾对抗攻击、越狱攻击、提示注入攻击和数据投毒等方法,我们可以更好地理解 LVLMs 的脆弱性,并为未来的研究提供指导方向。希望通过这些研究能够促进 LVLMs 在安全性和鲁棒性方面的提升,使其在现实应用中更加可靠。

文章图片
#人工智能#大数据#计算机视觉 +1
【CVPR2025】多模态+视觉增强+大模型

近年来,多模态大语言模型(MLLMs)在计算机视觉和自然语言处理领域取得了显著进展,广泛应用于图像描述、视觉问答等任务。然而,这些模型在实际应用中常出现物体幻觉问题,即生成的文本描述与图像中的实际物体不匹配。这主要是由于模型在推理过程中过度依赖语言先验,而在模态融合过程中对视觉信息的关注不足,导致生成内容与视觉输入不一致,尤其在高精度应用如医疗诊断和自动驾驶中存在潜在风险。

文章图片
#microsoft#人工智能#深度学习 +2
ComfyUI Party:将LLM与图片工作流集成,图片、语音、文本、视觉一体!(graphRAG、ollama)

我们正在使用一些Agent平台如FastGPT和Dify,他们注重于快速生成文本内容,知识库问答,提供自定义能力和与现有系统的集成性。同时,在AI绘画方面,我们原来使用SD,后来使用ComfyUI。虽然ComfyUI被广泛用于将文本转化为图像(文生图),但它实际上是一种生成式AI内容(AIGC)的工具,其功能不仅限于此。它还能够处理文本生成(文生文),因此可以实现多种内容的生成。Dify中也有提供

文章图片
#人工智能#深度学习#计算机视觉
AI大模型应用落地路线

在当今AI浪潮汹涌澎湃的时代,AI 大模型以其强大的语言理解、生成能力以及广泛的应用潜力,成为了科技领域的璀璨明星。从自然语言处理到计算机视觉,从智能客服到自动驾驶,AI 大模型的身影无处不在,为各行各业带来了前所未有的机遇与挑战。然而,要将 AI 大模型从理论研究成功应用到实际场景中,并非一蹴而就之事,需要诊断、建设、应用和管理等一系列关键步骤。本文将梳理 AI 大模型应用落地的路线作为参考,以

文章图片
#人工智能#microsoft#知识图谱 +2
    共 361 条
  • 1
  • 2
  • 3
  • 37
  • 请选择