
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
MiniMind 是一个轻量级的大语言模型项目,让用户可以在个人设备上快速训练和运行GPT模型。该项目可以使用极小的数据和计算资源,在3小时内训练出一个26M的模型,使大模型技术使用更加简单。MiniMind 支持单机单卡和多卡训练,兼容多个流行的框架,并提供完整的代码和文档支持,帮助初学者和研究者快速上手并进行定制和扩展。MiniMind现在总共有5个模型,最小的是26M,已经有不错的对话能力了

TextHarmony是首个OCR领域的多模态生成模型,统一了视觉文本理解和生成任务。针对多模态生成模型的模态不一致问题,研究者提出Slide-LoRA模块,在单一模型中实现了视觉与语言模态的和谐统一。TextHarmony展现出了优秀的视觉文字感知、理解、生成和编辑能力,为依赖于视觉文本理解和生成的复杂交互任务提供了革命性的前景。

受检索增强生成(Retrieval-Augmented Generation, RAG)在大型语言模型(LLM)知识密集型任务中成功应用的启发,本文在TTA过程中引入了额外的条件上下文,提出了一种名为Audiobox TTA-RAG的新型检索增强TTA方法,相比传统仅依赖文本的生成方式,该方法通过检索音频样本作为额外条件,提供更多声学信息,生成更高质量的音频。更重要的是,这个模型能在低分辨率视频上

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大

通用视觉大模型通过大量数据学到更多的通用知识,并迁移到下游任务中,基于海量数据获得的预训练模型具有较好的知识完备性,提升场景泛化效果。把机器人做成人形,就是为了使机器人的执行能力更加通用,上游核心零部件随着协作机械臂的兴起快速发展,促进了人形机器人硬件本体制造能力的提升,同时伴随自动驾驶技术的高速发展,人形机器人在视觉、SLAM 与基础 AI 上有了更多的方案选择,大模型的出现,会从语音、视觉、决

本书为大模型应用开发极简入门手册,为初学者提供了一份清晰、全面的“可用知识”,带领大家快速了解GPT-4和ChatGPT的工作原理及优势,并在此基础上使用流行的Python编程语言构建大模型应用。通过本书,你不仅可以学会如何构建文本生成、问答和内容摘要等初阶大模型应用,还能了解到提示工程、模型微调、插件、LangChain等高阶实践技术。书中提供了简单易学的示例,帮你理解并应用在自己的项目中。此外

本文对当前针对大型视觉-语言模型的攻击研究进展进行了全面概述。LVLMs 在处理多模态任务方面展示了卓越的能力,但同时也暴露了显著的安全风险。通过系统地回顾对抗攻击、越狱攻击、提示注入攻击和数据投毒等方法,我们可以更好地理解 LVLMs 的脆弱性,并为未来的研究提供指导方向。希望通过这些研究能够促进 LVLMs 在安全性和鲁棒性方面的提升,使其在现实应用中更加可靠。

近年来,多模态大语言模型(MLLMs)在计算机视觉和自然语言处理领域取得了显著进展,广泛应用于图像描述、视觉问答等任务。然而,这些模型在实际应用中常出现物体幻觉问题,即生成的文本描述与图像中的实际物体不匹配。这主要是由于模型在推理过程中过度依赖语言先验,而在模态融合过程中对视觉信息的关注不足,导致生成内容与视觉输入不一致,尤其在高精度应用如医疗诊断和自动驾驶中存在潜在风险。

我们正在使用一些Agent平台如FastGPT和Dify,他们注重于快速生成文本内容,知识库问答,提供自定义能力和与现有系统的集成性。同时,在AI绘画方面,我们原来使用SD,后来使用ComfyUI。虽然ComfyUI被广泛用于将文本转化为图像(文生图),但它实际上是一种生成式AI内容(AIGC)的工具,其功能不仅限于此。它还能够处理文本生成(文生文),因此可以实现多种内容的生成。Dify中也有提供

在当今AI浪潮汹涌澎湃的时代,AI 大模型以其强大的语言理解、生成能力以及广泛的应用潜力,成为了科技领域的璀璨明星。从自然语言处理到计算机视觉,从智能客服到自动驾驶,AI 大模型的身影无处不在,为各行各业带来了前所未有的机遇与挑战。然而,要将 AI 大模型从理论研究成功应用到实际场景中,并非一蹴而就之事,需要诊断、建设、应用和管理等一系列关键步骤。本文将梳理 AI 大模型应用落地的路线作为参考,以
