logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GPT - 4 和豆包幻觉

大语言模型产生幻觉,从数据层面看,训练数据若含有错误、偏见或重复信息,模型可能学习并记忆这些不准确内容;从模型层面来说,模型结构、解码算法及训练过程中的偏差等,均可能导致幻觉的产生。

#人工智能#深度学习
Qwen-3(通义千问 3 系列模型)

表示型(Embedding):侧重 “静态向量表示”,用向量相似度快速筛文本;交互型(Reranking):侧重 “动态交互判断”,模拟对话逻辑精细排序。两者配合(比如先 Embedding 粗筛,再 Reranking 精排 ),能提升文本匹配的精度和效率,是大模型检索、问答系统里的常见组合思路。

#人工智能
Softmax 函数在深度学习中应用

在基于策略梯度的强化学习算法(如 A2C、A3C、PPO 等)中,策略网络用于输出智能体在当前状态下采取不同动作的概率分布。例如,在一个机器人在复杂环境中导航的任务里,策略网络接收机器人当前的状态信息(如位置、周围障碍物情况等),输出的各个动作(向前移动、向左转、向右转等)的分数经过 Softmax 函数转换为概率,智能体根据这些概率来随机选择动作,从而实现探索环境和学习最优策略的目的。在集成学习

#深度学习#人工智能
在深度学习代码中,device=‘cuda:0‘ 是一个与 GPU 计算相关的设置,下面为你详细介绍:

CUDA 是 NVIDIA 推出的一种并行计算平台和编程模型,它允许开发者利用 NVIDIA GPU 的强大计算能力来加速计算密集型任务。在深度学习领域,大多数计算任务(如矩阵乘法、卷积等)都可以通过 GPU 来大幅加速。的作用是指定计算设备为第一块 NVIDIA GPU。在深度学习中,合理使用 GPU 可以显著提高训练和推理速度,特别是对于大规模模型和数据集。

#深度学习#人工智能
神经网络 隐藏层

从浅网络开始,逐步加深,同时关注验证集性能和训练速度。现代框架(如 PyTorch、TensorFlow)支持动态调整架构,便于实验不同层数的效果。神经网络中隐藏层的数量是一个超参数,其选择取决于任务复杂度、数据规模和计算资源。

#神经网络#人工智能#深度学习
DeepSeek 中的强化学习机制

这个框架展示了 DeepSeek 如何通过强化学习对齐人类偏好,实际实现中还会包含更复杂的超参数调优、多阶段训练和模型融合技术。

#深度学习
agent rag 微调

Agent 先规划:这事该分几步?RAG 上场:查资料避免瞎说微调过的 AI:回答更对胃口

#人工智能
rag agent 微调

RAG(检索增强生成)、Agent(智能体)、微调是大模型应用里的关键技术,它们的关系可从。

#人工智能#深度学习
随机森林的实现代码py

self.n_features = n_features# 随机森林中使用,限制每次分裂时考虑的特征数量。return 0# 默认返回0作为标签,或者可以根据需要修改。# 处理n_features参数,如果是字符串则转换为整数。print(f"单棵决策树准确率: {accuracy_dt:.4f}")# 如果没有设置n_features,则使用所有特征。# 自助采样(bootstrap)# 如果无

#随机森林#机器学习#python
当将 return_dict 设置为 True 时,BERT 模型的输出格式会从元组(tuple) 变为字典风格的对象(BaseModelOutput 及其子类),这会导致后续处理代码的写法有明显差异

特性(元组)(字典对象)输出类型元组(tuple)类对象访问隐藏状态方式outputs[0](依赖索引,需记忆位置)(属性名访问,直观)代码可读性较低(需记住索引对应含义)较高(属性名自解释)兼容性兼容旧代码(早期 Transformers 版本)适合新代码(v4.0 + 版本默认)时,代码会更直观易读(通过属性名访问,无需记忆索引),这也是当前 Transformers 库的默认设置,推荐在新代

#python#人工智能#机器学习
    共 65 条
  • 1
  • 2
  • 3
  • 7
  • 请选择