如意鼠个人主页

@weixin_43784706

如意鼠

2023-03-14 11:49:43 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

26备战秋招day14——大语言模型概述

大语言模型（LLMs）是自然语言处理的核心技术，通过Transformer架构和预训练策略，能够高效理解与生成文本。它们在智能对话、翻译、文本生成等领域表现出色，但仍面临计算资源、偏见和可解释性等挑战。未来，LLMs将推动NLP技术进一步发展，扩展到多模态学习和复杂任务。

#语言模型 #人工智能 #自然语言处理

26备战秋招day17——llama

Llama（Large Language Model Meta AI）是 Meta 推出的高效大规模语言模型，基于 Transformer 架构，广泛应用于文本生成、对话系统等任务。Llama 模型采用了 decoder-only 架构，训练使用了海量文本数据。本文介绍了 Llama 的架构、训练过程，并详细说明了如何通过 Hugging Face 使用 Llama 模型进行文本生成、问答等 NL

#人工智能 #语言模型

26备战秋招day6——计算机视觉概述

计算机视觉是一门让计算机理解和分析图像、视频等视觉数据的技术，涉及图像分类、目标检测、图像分割等任务。通过卷积神经网络（CNN）、YOLO等模型，计算机能够在自动驾驶、医疗影像等领域实现突破。常用的数据集如ImageNet、COCO，评价模型性能的指标包括准确率、mAP、IoU等。这篇博客深入探讨了该领域的核心技术与应用。

#计算机视觉 #人工智能 #目标检测 +1

26备战秋招day7——自然语言处理概述

自然语言处理（NLP）是一门帮助机器理解、生成和处理人类语言的技术，广泛应用于搜索引擎、智能客服、机器翻译等领域。NLP的关键研究方向包括词嵌入、文本分类、机器翻译、情感分析和命名实体识别。通过深度学习和预训练模型，如BERT和GPT，NLP技术在语义理解和语言生成上取得了巨大突破。本文深入介绍了这些技术及其应用，帮助读者了解NLP的核心概念和前沿进展。

#自然语言处理 #人工智能 #算法 +1

[大模型教我成为大模型算法工程师之day2：传统机器学习算法（上）]

本文介绍了四种经典机器学习算法：线性模型（线性回归和逻辑回归）、朴素贝叶斯、决策树与随机森林、支持向量机(SVM)。线性模型是基础，逻辑回归用于分类；朴素贝叶斯基于概率且高效；决策树通过规则分类，随机森林通过集成提升性能；SVM追求最大间隔分类边界，可处理非线性数据。文章比较了各算法优缺点，并给出实战建议：逻辑回归适合基线模型，随机森林适合表格数据，SVM适合小样本高维数据。最后强调特征工程的重要

#算法 #机器学习 #人工智能

大模型教我成为大模型算法工程师之day14：目标检测 (Object Detection)

目标检测技术综述：本文系统梳理了目标检测的核心概念与技术演进。重点解析了IoU、NMS和Anchor三大基础概念，对比了Faster R-CNN（两阶段检测）与YOLO（单阶段检测）的技术差异：前者通过RPN筛选候选框再精修，后者采用网格划分直接回归。同时介绍了FPN多尺度特征融合方法，以及包含分类、置信度和边界框回归的复合损失函数。文章还提供了IoU计算的代码实现，完整呈现了从传统方法到现代深度

#算法 #目标检测 #人工智能

大模型教我成为大模型算法工程师之day12：深度学习框架与工程实践

摘要：本文深入探讨深度学习工程实践中的关键技术。首先解析PyTorch核心机制，包括Autograd自动求导系统和nn.Module参数管理。重点介绍混合精度训练(AMP)原理与实现，通过Loss Scaling解决FP16下溢问题。同时讲解梯度检查点和梯度累积等显存优化技术，以及训练监控工具(WandB/TensorBoard)和性能分析方法。这些工程技术能显著提升训练效率，帮助开发者从小规模实

#算法 #深度学习 #人工智能

大模型教我成为大模型算法工程师之day16：生成模型基础

aigc

#算法 #人工智能

大模型教我成为大模型算法工程师之day8：优化器与训练技巧

本文系统介绍了深度学习模型训练中的优化器演进与关键技术。从基础SGD到Momentum、Adam/AdamW优化器的原理对比，解析了学习率调度策略（Warmup和余弦退火）的重要性。深入讲解了归一化技术（BN/LN/RMSNorm）的作用机制及适用场景，并阐述了Dropout、Weight Decay等正则化方法的原理。文章通过形象类比和代码示例，帮助读者理解这些"炼丹"技巧如

#算法

大模型教我成为大模型算法工程师之day10：循环神经网络 (RNN)

摘要：循环神经网络(RNN)通过引入时间维度的记忆机制处理序列数据，但存在梯度消失问题。LSTM通过遗忘门、输入门和输出门控制信息流动，利用细胞状态(Cell State)实现长距离依赖。GRU作为简化版，合并状态和门控机制，提升效率。双向RNN同时考虑上下文信息，而Seq2Seq架构为机器翻译奠定基础。虽然Transformer主导NLP领域，但LSTM/GRU在小模型和实时计算中仍具优势。本文

#算法 #rnn #人工智能

共 45 条

请选择