logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一文读懂 | Vision Transformer(ViT)计算机视觉中的注意力模型始祖

Vision Transformer(ViT)通过将最初为NLP中的顺序数据设计的Transformer架构应用于图像数据,代表了图像处理的范式转变。它通过将图像划分为固定大小的块,将它们扁平化为向量,并将它们视为类似于句子中的单词的token。然后,这些token由多个Transformer编码器层处理,其中包括用于捕获补丁之间关系的多头自注意机制,用于增强学习的前馈神经网络,以及用于稳定训练的

文章图片
#transformer#计算机视觉#深度学习
不输ChatGPT!盘点国产功能强大且免费的大语言模型Top6!_路线1路线2路线3国产

今天给大家整理了国产功能强大且免费好用的几款大语言模型!用好了,你的学习/工作效率将提升10倍。智谱AI专注于研发新一代认知智能大模型,矢志不渝地推动中国创新大模型的发展。自2020年底开始研发GLM预训练架构以来,智谱AI成功训练出百亿参数模型GLM-10B,2021年采用MoE架构训练出万亿稀疏模型,并在2022年合作研发了双语千亿级超大规模预训练模型GLM-130B。基于此,智谱AI也正在构

文章图片
#语言模型#人工智能#学习 +1
初学者如何快速入门大语言模型(LLM)?

在大模型时代,我们如何有效的去学习大模型?现如今大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。掌握大模型技术你还能拥有更多可能性• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;• 能够拥有模型二次训练和微调能力,带

文章图片
#语言模型#人工智能#自然语言处理
搭建RAG系统,主流向量数据库如何选择?如Milvus、Qdrant、Weaviate、FAISS、RediSearch等

在搭建RAG系统时,选择合适的向量数据库是至关重要的。向量数据库能够 高效地 存储和检索大规模的 向量数据,为RAG系统提供快速、准确的检索支持。今天针对当下主流的 Milvus、Qdrant、Weaviate、FAISS、RediSearch 等主流向量数据库,他们也都是 开源 的向量数据库,给大家简单介绍下,供您参考。Milvus支持多种高效的索引结构,如IVF、HNSW等,能够在 毫秒级响应

文章图片
#数据库#milvus#自然语言处理 +1
生成式AI 大语言模型微调

我们回顾一下第二章。编码器模型:擅长从序列中获取丰富的表现。它们输出包含关于输入的语义信息的嵌入。我们可以在这些嵌入之上添加一个小型网络,并对其进行训练以完成依赖语义信息的新特定任务(例如识别文本中的实体或分类序列)。解码器模型:非常适合生成新文本。编码器-解码器模型:非常适合需要基于给定输入生成新句子的任务。零样本或少样本学习:我们可以使用一个高质量的预训练模型,说明任务(例如“分类成这四个类别

文章图片
#人工智能#语言模型#自然语言处理 +3
不同大语言模型 Text2SQL解析效果比较

ChatGPT的成功引发了一场人工智能竞赛,研究人员努力开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近来,一些模型已经涌现,通过各种指导调整方法声称性能接近GPT-3.5或GPT-4。然而,审慎对待这些声明并确切评估这些模型的实际有效性是重要的。因此,我们将六个流行的大型语言模型相互比较,系统评估它们在九个基准数据集上的Text-to-SQL解析能力,采用五种不同的

文章图片
#语言模型#人工智能#自然语言处理 +1
2025年最火爆的GitHub项目推荐:6个改变未来的开源创新!

文章介绍了7个GitHub上的热门开源项目,包括AI对冲基金团队、Sim AI Agent平台、浙大大模型基础书籍、Claude记忆插件、ConvertX文件转换工具、Win11Debloat PowerShell脚本以及逛逛GitHub公众号。这些项目涵盖了AI投资、Agent工作流构建、大模型学习、AI记忆增强等多个领域,为开发者和AI爱好者提供了丰富的学习资源和实用工具,特别适合希望入门大模

文章图片
#github#开源#人工智能 +3
大语言模型(LLM)学习秘籍:从初学者到专家的必经之路,数学基础与工程实战全解析!

这是一份全面的大语言模型(LLM)学习指南,分为基础、科学家和工程师三部分。涵盖数学、Python、神经网络基础,LLM架构、预训练、微调、对齐等核心技术,以及应用构建、RAG、部署等工程实践。提供丰富资源和项目,帮助学习者系统掌握大语言模型的理论知识和实践技能,适合从初学者到专业开发者。

文章图片
#语言模型#人工智能#大数据 +2
手把手教你用Ollama+Llama3 部署你自己的大语言模型,我不信你还学不会!!

Ollama是一个开源的大模型管理工具,它支持模型的训练、部署和监控等功能。通过使用Ollama,用户可以轻松地管理本地的大模型,从而提高模型的训练速度和部署效率。此外,Ollama还支持多种机器学习框架,如TensorFlow和PyTorch等,使用户可以根据自己的需求选择合适的框架进行模型的训练。Ollama不仅是一个大型语言模型服务,提供了类似OpenAI的API接口和聊天界面,还支持热加载

文章图片
#语言模型#人工智能#自然语言处理 +1
英伟达开源Nemotron 3大模型:百万token上下文+创新MoE架构,性能全面超越GPT与Qwen!

英伟达开源发布Nemotron 3大模型系列(Nano、Super、Ultra),Nano版本已上线,支持高达1M token上下文长度,采用创新混合式Mamba-Transformer MoE架构,在多项基准测试中表现优于同类模型。该系列专为多智能体系统设计,具备高速长上下文推理能力,通过NeMo Gym进行多环境强化学习训练。Super和Ultra版本预计2026年发布,采用NVFP4格式和l

文章图片
#架构#深度学习#人工智能 +1
    共 524 条
  • 1
  • 2
  • 3
  • 53
  • 请选择