
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大言不惭的说,杭州的大厂都快被我面完了,我觉得这个问题我可太有发言权了哈哈哈哈以下都是我面试中被真实问到的问题,文章最后附上答案。介绍一下transformer原理、历史Tramsformer有几种mask?除了gpt,还了解其他的吗?知道bert吗?gpt和bert什么区别大模型的网络可以把transformer换成bert吗?介绍transformer的qkv有哪些掩码方式,transform

知识蒸馏技术是模型轻量化小型化的一种方式,其效果也远超我们的想象在深度学习领域模型的压缩与部署是一项非常重要的研究课题,原因就在于模型巨大的成本和算力需求;因此,怎么把模型小型化就成为一个亟待解决的问题。因此,一项技术就被应用于模型小型化的过程,这个技术就叫做知识蒸馏,而我们平常说的比较多的是大模型蒸馏技术。当然,知识蒸馏技术并不是一项新技术,其在2015年就已经被诺贝尔奖获得者——Hinton等

今天没有多的废话,直接给大家推荐这本书----《大模型项目实战:多领域智能应用开发》!这本书面向大语言模型应用的使用者和开发者,从大语言模型的基础知识开始,逐步深入,详细介绍了常见的操作方法和各类型应用的开发过程。

随着AIGC(如ChatGPT、Midjourney、Claude等)大语言模型的接连涌现,AI辅助编程工具正逐渐改变程序员的工作方式。一方面,这些工具通过代码生成、调试和优化,大大提高了编程效率,缩短了开发周期;另一方面,随着AI能力的增强,许多人开始担忧部分编程工作将被AI取代。那么,在这场技术变革的浪潮中,程序员应该如何应对,才能保持并提升自身的核心竞争力?

摘要 传统文本RAG系统在企业落地中面临准确率不足的问题,主要源于复杂文档(含表格、图片等)在解析、切分、向量化过程中的信息丢失。多模态RAG通过视觉语言模型(VLM)如ColPali/Qwen直接生成图像和文本的融合嵌入向量,显著提升了文档理解能力。实测显示,多模态RAG能准确解析PDF表格、提取目录结构,且检索速度快。尽管需要高性能GPU支持(如4090)且计算成本较高,但其问答质量的提升使这

本文分享了在无GPU的本地电脑上部署DeepSeek R1大模型与RAGFlow的实践过程。作者使用AMD Ryzen 5 5600G处理器、16GB内存的Windows 11环境,通过虚拟机运行CentOS 7.9和Docker完成部署。步骤包括:安装Ollama并下载DeepSeek模型(7B和1.5B版本)、配置RAGFlow完整版(含Embedding模型)、解决Elasticsearch

如何根据模型参数量估计大模型微调和推理所需显存?因此,准确估计模型参数量可以帮助我们合理配置硬件资源,确保训练过程顺利进行而不会因显存不足而导致训练失败或效率低下。特别是在使用高性能GPU进行大规模训练时,合理分配显存尤为重要。要计算大型模型微调所需的显存,我们需要考虑训练过程中涉及的各种组成部分及其占用的显存。:每个参数占用4字节。:占用与模型权重相同的显存。:这部分显存需求取决于具体的前向传播

要成功应聘大模型相关岗位(如算法工程师、NLP工程师、研究员等),需要系统性地掌握知识体系并积累高质量项目经验。以下是分阶段的学习路线和项目建议:

当前大模型技术发展迅速,相关岗位需求激增,面试竞争激烈。本文汇总了大模型算法岗常见面试题,涵盖基础和进阶内容。基础篇包括主流开源模型体系、prefix LM与causal LM的区别、涌现能力原因、大模型架构介绍、Tokenizer实现方法等。进阶篇涉及LLMs复读机问题、多模态大模型应用、处理长文本策略等。文章旨在帮助求职者系统掌握大模型相关知识,提升面试竞争力。

语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。








