
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本书共设置了五个主要部分,分别是背景与基础知识部分、预训练部分、微 调与对齐部分、大模型使用部分以及评测与应用部分,按照如下的内容组织进行 设置:

向量化在大语言模型中是一个重要的概念。向量化使得非数值型数据能被计算机有效处理分析,捕捉数据特征和关系,提高计算效率。在大语言模型各环节发挥关键作用,为实现更强语言处理能力提供基础。向量维度选择对da大语言模型的精度和性能有重要影响。

随着bert在NLP各种任务上取得骄人的战绩,预训练模型在这不到一年的时间内得到了很大的发展,本系列的文章主要是简单回顾下在bert之后有哪些比较有名的预训练模型,这一期先介绍几个国内开源的预训练模型。

本篇带来Facebook的提出的两个预训练模型——SpanBERT和RoBERTa。

Transformer, BERT, and GPT: Including ChatGPT and Prompt Engineering, 出版于2023年11月,作者是奥斯瓦尔德·坎佩萨托(Oswald Campesato)奥斯瓦尔德·坎佩萨托( Oswald Campesato ):专门研究深度学习、Java、Android和TensorFlow。

近期有个需求,服务器不能联网,需要本地私有化用docker部署一套AI知识库系统,技术选型如下:FastGPT: FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景。

**强化学习(reinforcement learning,RL)** 讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决策(decision)。然后这个

随着“互联网+”的发展逐渐趋于成熟,其应用领域几乎涵盖了我们生活的方方面面,空间似乎变得有限。然而,正如每一次技术革命都会催生新的浪潮一样,AI(人工智能)的迅猛发展正预示着“AI+”时代的到来。在这个新纪元中,AI大模型的应用将渗透到各行各业,为社会带来前所未有的变革。对于普通程序员来说,如何提前向AI大模型靠拢,成为这一波技术浪潮中的弄潮儿?从“互联网+”到“AI+”,技术发展的步伐从未停止。

两家凑巧同一天放出了解题推理模型,简单对比着看了下实现方案,o1 类模型实现并没有和大家早期推测的那样用上 MCTS,PRM 这些方法,个人感觉也是太复杂的方法 scaling 不了。目前各家用的方案看起来更像是 sft+rl 的加强版,把推理过程内含进生成,而不是用结构去引导生成。两家效果看报告比较接近,个有所长。code 和 math deepseek 强了一点点,kimi 支持 vision

在AI技术飞速发展的今天,图片RAG(Retrieval-Augmented Generation,检索增强生成)正逐渐成为多模态应用的“杀手锏”。无论是电商平台的“以图搜商品”,还是教育领域的“文本生成插图”,图片RAG通过检索与生成的高效结合,能带来令人惊叹的效果。
