logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

最新的混合专家大语言模型DeepSeek-V2

最近Deepseek团队(北大、清华和南京大学)刚刚公布开源MOE模型DeepSeek-V2,其技术细节见论文“DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model”。

文章图片
#语言模型#人工智能#自然语言处理
PowerInfer:使用消费级 GPU 提供快速大语言模型

23年12月来自上交大的论文“PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU”。

文章图片
#语言模型#人工智能#自然语言处理
基准数据集做大语言模型路由

23年9月来自MIT和MIT-IBM实验室的论文“Large Language Model Routing with Benchmark Datasets”。

文章图片
#语言模型#人工智能#自然语言处理
思维图GOT:用大语言模型解决复杂问题

23年8月份来自瑞士和波兰的大学以及一个数据公司Cledar的大语言模型论文“ Graph of Thoughts: Solving Elaborate Problems with Large Language Models“。

文章图片
#语言模型#人工智能#自然语言处理
PowerInfer-2:智能手机上的大语言模型快速推理

24年6月来自上海交大的论文“PowerInfer-2: Fast Large Language Model Inference on a Smartphone”。

文章图片
#语言模型#人工智能
大语言模型的持续预训练:如何(重新)预热模型?

23年8月来自加拿大蒙特利尔大学的论文“Continual Pre-Training of Large Language Models: How to (re)warm your model?”。

文章图片
#语言模型#人工智能#自然语言处理
大语言模型对临床知识的编码:提出指令提示调优方法

22年12月来自谷歌的论文“Large Language Models Encode Clinical Knowledge“。

文章图片
#语言模型#人工智能#自然语言处理
AutoFlow:大语言模型智体的自动工作流生成

27年7月来自Rutgers大学的论文“AutoFlow: Automated Workflow Generation for Large Language Model Agents”。

文章图片
#语言模型#人工智能#自然语言处理
SayPlan:使用 3D 场景图为可扩展的机器人任务规划落地大语言模型

23年7月来自澳洲昆士兰科技大学和阿德莱德大学的论文“SayPlan: Grounding Large Language Models using 3D Scene Graphs for Scalable Robot Task Planning”。

文章图片
#机器人#语言模型#人工智能 +2
VOYAGER: 一个具有大语言模型的开放式具身智体

23年9月论文“VOYAGER: An Open-Ended Embodied Agent with Large Language Models“,来自英伟达和其他几所高校。

文章图片
#语言模型#人工智能#自然语言处理 +1
    共 1267 条
  • 1
  • 2
  • 3
  • 127
  • 请选择