logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Cohere继Command-R+之后发布大模型Aya-23,性能超越 Gemma、Mistral 等,支持中文

近年来,多语言大模型(MLLM)发展迅速,但大多数模型的性能依然存在显著差距,尤其是在非英语语言方面表现不佳。为了推动多语言自然语言处理技术的发展,Cohere团队发布了新的多语言指令微调模型家族——Aya 23,其性能超越了 Gemma、Mistral 等同类模型,并首次支持了中文。Huggingface模型下载:AI快站模型免费加速下载:

文章图片
#语言模型#人工智能#计算机视觉 +2
250万数据炼成SQL翻译官!中国团队OmniSQL九项测试碾压GPT-4o

OmniSQL并非一个单一模型,而是一个专门为Text-to-SQL任务量身打造的开源大语言模型(LLM)家族。它旨在精准地理解用户的自然语言问题,并将其转化为可在数据库上执行的SQL查询代码。OmniSQL-7B: 基于 CodeLlama-7b-hfOmniSQL-14B: 基于 WizardCoder-15B-V1.0 (Mistral-7B 基座)OmniSQL-32B: 基于 DeepS

文章图片
#sql#数据库#人工智能 +1
阿里通义千问Qwen1.5开源震撼发布,6种参数小至0.5B,性能超越GPT3.5

阿里通义千问Qwen1.5的开源不仅在技术层面展示了阿里巴巴在AI领域的强大实力,更在文化层面彰显了开源共享、合作共赢的精神。这次发布,既是对模型质量的一小步提升,也是对开发者体验的一大步优化,期待Qwen1.5能在您的研究或应用项目中发挥重要作用,共同推动AI技术的进步与发展。

文章图片
#gpt-3#人工智能#深度学习 +2
Hugging Face 新开源Parler-TTS,高质量文本转语音模型,可自主训练定制声音,训练代码、模型、数据集全部公开

Parler-TTS 是大名鼎鼎的huggingface推出的一款轻量级文本到语音(TTS)模型,它能够生成高质量、自然流畅的语音,并且能够模仿特定说话者的风格,包括性别、音高、说话风格等。这款模型是由Dan Lyth和Simon King创建,他们分别来自Stability AI和爱丁堡大学,共同撰写了论文《这个模型即是这一论文的复现。Huggingface模型下载:AI快站模型免费加速下载:p

文章图片
#图像处理#人工智能#深度学习 +2
幻方发布全球最强开源MoE模型DeepSeek-V2:超低成本,性能媲美GPT4

继今年1月份开源国内首个MoE模型后,幻方人工智能公司最新推出了第二代MoE模型——DeepSeek-V2。这款新模型不仅参数更多、性能更强,训练成本更低的特点,令其在业界引起广泛关注。DeepSeek-V2采用了创新的模型架构和训练方法,在多项综合评测中均表现出色,有些指标甚至媲美或超越目前最强的GPT-4模型。同时,它的推理效率和部署成本也大幅优于同类大模型,可谓是性能与成本的完美结合。Hug

文章图片
#人工智能#开源#自然语言处理 +1
开源金融推理新标杆!Fin-R1以7B参数逼近DeepSeek-R1满血版,单卡4090即可部署

Fin-R1 (Finance Reasoning Large Language Model) 并非通用型大模型,而是专为金融领域设计的推理(Reasoning)大模型,属于 R1 类模型。数据碎片化与噪音: 金融数据来源多样,格式不一,噪音多,难以有效利用。推理逻辑不可控: 传统模型像个“黑箱”,难以理解其决策过程,这在需要高可靠性的金融领域是致命的。业务泛化能力弱: 模型往往在一个任务上训练好

文章图片
#金融#人工智能#开源
生产环境H200部署DeepSeek 671B 满血版全流程实战(三):SGLang 安装详解

随着前两篇文章的推进,我们已经成功地在H200服务器上完成了DeepSeek 671B满血版的系统初始化以及vLLM的安装配置工作,整个部署架构正逐渐变得丰富和完善。但为了进一步挖掘模型的潜力,实现更加高效、精准的推理服务,SGLang的安装变得至关重要。SGLang作为一种专门针对大型语言模型(LLM)的推理引擎,它具备独特的优化机制,能够在资源利用率和推理速度方面带来显著提升,是整个DeepS

文章图片
#python#人工智能#开发语言
生产环境H200部署DeepSeek 671B 满血版全流程实战(二):vLLM 安装详解

在上一篇文章,我们完成了H200服务器的系统初始化工作,包括驱动安装和CUDA环境配置,为DeepSeek 671B模型的部署奠定了基础。然而,面对单机8卡H200的141GB显存和NVLink高速互联的硬件资源,如何高效利用这些资源实现千亿参数大模型的推理加速,成为关键挑战。vLLM 作为一款高性能推理引擎,能够极大提升 DeepSeek 671B 模型在推理阶段的表现,使模型能够更快速、更准确

文章图片
#python#人工智能#linux
生产环境H200部署DeepSeek 671B 满血版全流程实战(一):系统初始化

NVIDIA H200凭借其141GB超大显存和高速NVLink技术,成为部署DeepSeek 671B 满血版的理想选择。然而,“工欲善其事,必先利其器”——在正式运行模型前,一套稳定、高效的服务器环境是成功的关键。许多开发者在部署大模型时,常因忽略系统配置细节(如驱动冲突、环境变量错误、多GPU通信异常)而踩坑。为此,本系列教程将从最基础的系统初始化开始,逐步拆解单机H200服务器部署Deep

文章图片
#人工智能#开源#python
多任务微调框架MFTCoder助力CodeFuse-DeepSeek-33B荣登Big Code榜首

近期CodeFuse新开源模型在Big Code Models Leaderboard代码大模型榜单上荣登榜首,成为代码大模型领域的新焦点。这一成就得益于多任务高效微调框架MFTCoder的强大支持,以及以DeepSeek-Coder-33b模型为基础进行微调的精细策略。

文章图片
#gpt-3#人工智能#深度学习 +1
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择