数据学习（Datalearner）个人主页

@df19900725

数据学习（Datalearner）

2022-12-27 22:05:29 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

李开复创业公司零一万物开源迄今为止最长上下文大模型：Yi-6B和Yi-34B，支持200K超长上下文

这是李开复亲自担任CEO的一家企业，可以说相当地重视。Yi系列模型名称模型参数上下文长度DataLearner模型信息卡地址Yi-6B60亿4K/32KYi-6B（Yi-6B）详细信息 | 名称、简介、使用方法，开源情况，商用授权信息 | 数据学习 (DataLearner)Yi-6B-200K60亿200KYi-6B-200K（Yi-6B-200K）详细信息 | 名称、简介、使用方法，开源情况，

#人工智能

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

原文较为详细，本文为精简版本，详情参考原文即可。近期，DeepSeek R1的出现使推理大模型受到关注。与GPT-4o等普通大模型相比，推理大模型有何不同？它适用于哪些任务？又是如何训练的？

#人工智能 #机器学习 #深度学习

哪个大模型的编程能力更好？DataLearner编程大模型排行榜帮你选择！开源进展神速，前五已经有4个开源模型！

为了方便大家对编程大模型有更清晰的比较，DataLearner也发布了一个编程大模型排行榜页面，方便大家对编程大模型领域的进展有清晰的认识。

#语言模型 #人工智能

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

#人工智能 #机器学习 #深度学习

6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择

本文原文来自DataLearnerAI官方网站：6种大模型的使用方式总结，使用领域数据集持续做无监督预训练可能是一个好选择 | 数据学习者官方网站(Datalearner)Sebastian Raschka是LightningAI的首席科学家，也是前威斯康星大学麦迪逊分校的统计学助理教授。他在大模型领域有非常深的见解，也贡献了许多有价值的内容。在最新的一期推文中，他总结了6种大模型的使用方法，引起

#人工智能 #深度学习

哪个大模型的编程能力更好？DataLearner编程大模型排行榜帮你选择！开源进展神速，前五已经有4个开源模型！

为了方便大家对编程大模型有更清晰的比较，DataLearner也发布了一个编程大模型排行榜页面，方便大家对编程大模型领域的进展有清晰的认识。

#语言模型 #人工智能

李开复创业公司零一万物开源迄今为止最长上下文大模型：Yi-6B和Yi-34B，支持200K超长上下文

#人工智能

如何提高大模型在超长上下文的表现？Claude实验表明加一句prompt立即提升效果~

如果模型在训练过程中接收到避免错误和不准确声明的强烈信号，它可能会在实际应用中表现出更多的谨慎。Claude 2.1版本的模型上下文长度最高拓展到200K，也是目前商用领域上下文长度支持最长的模型之一。但是，在模型发布不久之后，有人测试发现。而今天，Anthropic官方发布了一个博客解释，这个不是因为Claude模型能力不行，而是测试的方式不太好。可以看到，当文档长度超过20K之后，表现就非常差

哪个大模型的编程能力更好？DataLearner编程大模型排行榜帮你选择！开源进展神速，前五已经有4个开源模型！

为了方便大家对编程大模型有更清晰的比较，DataLearner也发布了一个编程大模型排行榜页面，方便大家对编程大模型领域的进展有清晰的认识。

#语言模型 #人工智能

什么是推理大模型？DeepSeek R1推理大模型与DeepSeek V3模型的区别是什么？什么时候该使用推理大模型？

#人工智能 #机器学习 #深度学习

共 16 条

请选择