logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

阿里提出ELSA:深挖 transformer 局部注意力的“致命点”并扭转乾坤

当把Transformer中的LSA替换为DwConv/动态滤波器时仍可取得相近,甚至更优的性能 。但是背后的根因一直未得到探索与挖掘,到底是什么导致LSA性能平庸呢

#transformer#深度学习#计算机视觉
综合LSTM、transformer优势,DeepMind强化学习智能体提高数据效率

选自arXiv作者:Andrea Banino等机器之心编译编辑:陈萍、杜伟来自 DeepMind 的研究者提出了用于强化学习的 CoBERL 智能体,它结合了新的对比损失以及混合 LSTM-transformer 架构,可以提高处理数据效率。实验表明,CoBERL 在整个 Atari 套件、一组控制任务和具有挑战性的 3D 环境中可以不断提高性能。近些年,多智能体强化学习取得了突破性进展,例如

#lstm#transformer#深度学习
使用 Langchain-chatchat 搭建 RAG 应用,并使用postman进行测试验证

LangChain-Chatchat (原 Langchain-ChatGLM),一种利用 langchain 思想实现的基于本地知识库的问答应用,目标期望建立一套对中文场景与开源模型支持友好、可离线运行的知识库问答解决方案。

文章图片
#postman#测试工具#算法 +1
一文彻底搞懂如何评估大模型 - 基准测试(Benchmark)

最近这一两周不少互联网公司都已经开始秋招提前批面试了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。如何评估大模型是面试常问的问题,今天我总结一下:LLM(Large Language Model,大型语言模型)中的Benchmark(基准测试)是用于衡

文章图片
#算法#面试#深度学习
全网最全:机器学习算法模型自动超参数优化方法汇总

什么是超参数?学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter)。还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyper parameter)。超参数是在开始学习过程之前设置值的参数。相反,其他参数的值通过训练得出。超参数:定义关于模型的更高层次的概念,如复杂性或学习能力 不能直接从标准模型培训过程中的数据中学习,需要预先

文章图片
#机器学习#算法#人工智能
TimeSformer:抛弃CNN的Transformer视频理解框架

Transformers开始在视频识别领域的“猪突猛进”,各种改进和魔改层出不穷。由此作者将开启Video Transformer系列的讲解,本篇主要介绍了FBAI团队的TimeSformer,这也是第一篇使用纯Transformer结构在视频识别上的文章。 >>加入极市CV技术交流群,走在计算机视觉的最前沿paper:  https://arxiv.org/abs

#transformer#cnn#音视频
大模型实战项目 | 5分钟利用 OpenVINO 部署 Qwen2.5

Qwen2.5 是阿里通义团队近期最新发布的文本生成系列模型,基于更富的语料数据集训练,相较于 Qwen2,Qwen2.5 获得了显著更多的知识(MMLU:85+),并在编程能力(HumanEval 85+)和数学能力(MATH 80+)方面有了大幅提升。此外,GenAI API 提供了 chat 模式的构建方法,通过声明 pipe.start_chat()以及pipe.finish_chat()

文章图片
#面试#人工智能#深度学习
Transformer 在时间序列预测中的应用

2017年,Google的一篇 Attention Is All You Need 为我们带来了Transformer,其在NLP领域的重大成功展示了它对时序数据的强大建模能力,自然有人想要把Transformer应用到时序数据预测上。在Transformer的基础上构建时序预测能力可以突破以往的诸多限制,最明显的一个增益点是,Transformer for TS可以基于Multi-head At

#transformer#深度学习#人工智能
Meta 发布 Llama3.1,一站教你如何推理、微调、部署大模型

最近这一两周看到不少互联网公司都已经开始秋招提前批了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

文章图片
#人工智能#深度学习
图神经网络框架-PyTorch Geometric(PyG)的使用及踩坑

PyG(PyTorch Geometric)是一个基于PyTorch的图神经网络框架,建议先了解PyTorch的使用再学习PyG,要不然看不懂。本文内容角度,喜欢本文点赞支持、欢迎收藏学习。PyG包含图神经网络训练中的数据集处理、多GPU训练、多个经典的图神经网络模型、多个常用的图神经网络训练数据集而且支持自建数据集,主要包含以下几个模块torch_geometric:主模块torch_geome

文章图片
#深度学习#神经网络#自然语言处理
    共 22 条
  • 1
  • 2
  • 3
  • 请选择