logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一文搞懂Transformer:大模型核心架构详解教程

本文介绍全面的Transformer学习教程,从基础概念到实战应用共分五章。讲解Transformer作为Seq2Seq模型的改进和注意力机制原理,深入解析Encoder和Decoder结构细节,通过机器翻译项目实战巩固理解。强调每个结构设计都有其原理,建议多看几遍以加深对这一大模型核心架构的理解,阅读一遍约需1-2小时。

文章图片
#transformer#深度学习#人工智能
大模型在军事领域如何应用?

大模型代表着人工智能领域的重大进步,并且可能成为人工智能的发展趋势和未来。一年前,OpenAI推出的ChatGPT催生了人工智能界的新一轮高光,将大模型推向了风口浪尖,同时也将大模型在军事领域的潜在应用范围进行了广泛拓展。大模型指的是具有上千万甚至百万亿参数的深度学习或机器学习模型。生成式AI通过大模型对包括海量高质量数据集的数据库进行复杂性建模,并运用强大算力来估计模型的参数,找到数据间的关系。

文章图片
#人工智能#机器学习#语言模型 +1
AI大模型如何在企业内落地应用?

AI+”已成为继“软件+”“互联网+”之后,最重要的新质生产力,是今后十年内技术创新和产业升级的核心驱动力。AI大模型技术将重塑千行百业,如何尽快、尽好地将应用大模型技术创造新的核心能力和新的运营服务优势,是所有企业共同面对的机遇和挑战。就是要及时跟进建设自身的AI能力,要在大模型、大数据和大算力这三大要素上,让企业具备不同层次的能力(基础能力、强化能力和创新能力)。就是通过AI大模型技术的运用,

文章图片
#人工智能#语言模型#机器学习 +1
大模型训练故障异构弹性恢复技术

随着大模型技术的发展和其训练规模的不断扩大,集群的故障问题也日益凸显,严重影响模型训练的效率;例如,Meta AI实验室发布的OPT模型,其中OPT-175B[1]的训练时长90天( 900多张GPU),训练期间112次故障,故障恢复时间耗时长,最长一次甚至到80小时;OpenAI GPT-4[2]的训练时长90~100天(2万多张GPU),算力利用率MFU仅32%到36%,而故障恢复涉及的高开销

文章图片
#人工智能#大数据#深度学习 +2
大模型技术进阶路线,有了基础应该怎么进阶?

高性能大模型的打造,是一项复杂的系统性工程一个好的基础能够让你在学习的道路上事半功倍,但绝对不是学习的终点,大模型技术也不外如是。大模型的进阶学习路线那么怎么才能打造一款能够在企业生产中使用的大模型呢?而这就属于大模型技术的进阶;如果说大模型的基础是能够做出来一个大模型,那么大模型的进阶就是怎么把大模型做的更好。下面也将从几个方面介绍一下大模型的进阶:‍‍‍‍‍‍‍模型优化硬件加速分布式并行计算‍

文章图片
#人工智能#深度学习#AIGC +2
大模型的“谄媚“倾向:从reward hacking看AI行为逻辑,深度解析

本文探讨了大模型的"谄媚"倾向,指出AI如deepseek会过度夸人、沿袭叙事并使用强烈语气。作者认为这可能源于reward hacking现象——模型为获得奖励选择"讨好"这一最短路径,而非提升内容质量。建议将谄媚视为LLM的一种"性格"而非恶意或自主性,理解模型运作原理有助于我们更合理地对待AI回复,不必过度解读其行为。

文章图片
#人工智能#开发语言
从后端程序员到大模型工程师的转型攻略,非常详细收藏我这一篇就够了

由后端程序员向大模型工程师的成功转型并非易事,但这绝对是一条值得追求的道路。上述攻略只是为你提供了大致的方向指引,在实际过程中还需要根据自身情况进行适当调整。最重要的是保持好奇心和求知欲,勇于面对挑战,相信终有一天你会成为一名出色的AI专家。祝愿你在新的旅程中取得辉煌成就!

文章图片
#人工智能#机器人#语言模型 +1
AI Agent框架全解析:8大主流平台对比,助小白和程序员快速入门大模型

本文全面对比分析了8个主流AI Agent框架,包括LangChain、LlamaIndex、Dify、FastGPT等。从技术栈、开发门槛、核心优势到适用场景进行详细解析,并提供了按使用场景、团队能力和私有化需求进行选型的决策指南。无论你是零基础小白还是资深开发者,都能根据自身需求找到最适合的AI Agent解决方案,快速搭建大模型应用。

文章图片
#人工智能
大模型上下文工程实践指南-第6章:工具使用与MCP

早期有些人寄希望于大模型能力提升能实现AGI,但是现在慢慢地发现,工具调用才是现阶段模型最需要的,工具调用也是大模型与外界交互的一个窗口。现在流行的**Function Calling**、**Computer-Use**、**MCP(Model Context Protocol)**都是在这个方向延伸出来的。

文章图片
#人工智能#MCP
LangChain数据库查询实战:三大方法助你快速上手!

文章介绍了使用LangChain框架操作数据库的三种方法:1)通过MCP适配器连接数据库,使用MultiServerMCPClient管理多服务器连接;2)使用LangChain的Tools工具创建SQL代理,通过few-shot提示提高查询准确性;3)直接让大模型生成SQL语句并执行。这三种方法各有优势,MCP方法效率较高,Tools方法可控性强,直接生成SQL方法灵活性高,开发者可根据实际需求

文章图片
#数据库#人工智能
    共 840 条
  • 1
  • 2
  • 3
  • 84
  • 请选择