logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer太大了,我要把它微调成RNN

文 | 炼丹学徒编 | 小轶从前车马很慢,显卡跑的也慢,一生只够爱一个RNN。后来时代进步了,数据量和计算力阔绰了,堆叠起来的Transformer能够在更深更宽的模型结构里吃下去更多的数...

#人工智能#算法#深度学习 +2
山寨版 OpenAI o1 实验记录

作者|季逸超https://zhuanlan.zhihu.com/p/720575010纠结了一下还是决定把中秋假期捣鼓的山寨版 o1 模型开源出来。受限于数据和算力,该模型还只是个玩具,离 OpenAI o1 差十万八千里。但实验的过程中有些记录值得分享出来抛砖引玉:起因是在测试 o1 时,种种迹象 (见下方附录) 表明它在 inference-time 似乎没有进行 MCTS 或外置的 ...

谷歌小范围测试Gemini ?比训练GPT-4算力大5倍,多模态能力大提升

后台留言『交流』,加入 NewBee算法讨论组今年 5 月的谷歌 I/O 大会上,皮查伊宣布了对标 GPT-4 的大模型 PaLM 2,但同时也提到谷歌的研究重心正在转向 Gemini,后者是一种多模态和高效的机器学习工具。为了更快地开发 Gemini,谷歌在今年 4 月份合并了内部的两个人工智能实验室:谷歌大脑(Google Brain)和 DeepMind,Gemini 这项联合计划就由来自两

『运筹OR帷幄』——60w运筹学|优化理论|人工智能|数据科学的技术原创和交流社区...

『运筹OR帷幄』发源于德国海德堡大学数学博士留德华叫兽2016年初创办的知乎专栏,2018年1月1日,由MIT计算科学博士生覃含章、美国西北大学刘晗教授联合创办,目前由全球超过60名OR相...

#人工智能#xhtml
语音识别入门:从菜鸟到大佬

在人工智能飞速发展的今天,语音识别技术成为很多设备的标配,比如我们会对着手机说“siri,帮我打电话给老板”,又或是“小度小度,放首歌”等等。尽管语音技术在逐渐发展成熟,可目前行业内仍缺乏...

#算法#神经网络#人工智能 +2
百度发布PLATO-XL,全球首个百亿参数中英文对话预训练生成模型

【导读】和 AI 进行无障碍的对话,是什么样的体验?你或许能够在这篇文章里找到答案!近日,百度全新发布 PLATO-XL,参数达到了 110 亿,超过之前最大的对话模型 Blender ,...

#百度#大数据#机器学习 +2
LLM4Rec:当推荐系统遇到大语言模型

作者|kaiyuanhttps://bytedance.larkoffice.com/docx/OdGOdfsIPooznDx5ZvfcFqJjnne大家好,这里是NewBeeNLP。大模型LLM在越来越多的领域开始崭露头角,前段时间我们整理了大模型在推荐系统中的应用 survey,当时留了一些坑没填上,今天补上。完整阅读体验可看:https://bytedance.larkoffice.c...

#语言模型#人工智能#深度学习 +2
从大数据到大模型:搜索推荐技术的前沿探索

导读大家好,我是施兴(花名叔宝),来自阿里云机器学习平台 PAI,主要负责产品架构。我们团队主要负责:①搜索推荐,这是我们较为成熟的一个领域;②涉及图像和视频多模态处理,如图像视频打标和 Stable Diffusion 文生图,文生视频等相关工作;③在大模型场景下,阿里有通义系列大模型,我们负责通义的底层平台及相关训练推理优化工作;④进行 RAG 工程链路搭建和大模型评测,包括使用大模型评测大.

#大数据
预训练语言模型论文分类整理

© 作者|王晓磊机构|中国人民大学高瓴人工智能学院博士生导师|赵鑫教授研究方向 | 对话系统1. 引言近年来,以 BERT 和 GPT 系列为代表的大规模预训练语言模型(...

面经奉上!狂刷24家国内大模型公司

后台留言『交流』,加入 NewBee算法讨论组作者|Roberty整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/6578263572023年三月前后,大模型突然国内火了起来,笔者就面了一些公司,有大厂有初创。最近挺多朋友聊大模型相关的内容,对面试也感兴趣,想这里综合写一下,也希望能和各位同行交流下。因为有一段时间了(最早面的半年了),所以大部分细节记不...

    共 220 条
  • 1
  • 2
  • 3
  • 22
  • 请选择