logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

77万人围观的吉卜力风「游戏」视频,我们用3个国产AI整出来了(含提示词)

当然,技术上的挑战仍然不少,实时生成内容需要巨大的算力支撑,如何平衡质量与响应速度仍是一大难题,谷歌 GameNGen 模型就仅支持简单游戏如 1993 版《Doom》,且受限于 3 秒历史记忆,复杂场景易出现图像故障;她配文称,如果能够通过提示词创建自己的虚拟世界,并与由大语言模型和语音模型驱动的其他角色互动,那将会非常震撼,由此暗示了 AI 在游戏开发,特别是生成动态、沉浸式的虚拟环境中的潜力

#人工智能#游戏#音视频
张祥雨访谈精华版:多模态大模型研究的挣扎史和未来

2012 年出了 AlexNet,当时正值大数据集出现(ImageNet)、算力大幅提升(Nvidia)的时期,AlexNet 把当时的神经网络扩大了两个数量级,取得了巨大成功延续做大神经网络的思路,在 12-16 年读博期间,宽度放大:做了 MSRA Init,比较好解决了模型不好开始训起来的问题;深度放大:做了 ResNet(听说当时他们显存最大装下 ResNet 152层),甚至后续用一些技

#人工智能
DeepSeek-R2 「难产」原因曝光

过去半年关于 DeepSeek-R2 的传言 一直不断,之前多家外媒曾透露 R2 原计划在 5 月甚至更早发布,但根据 The Information 最新的独家报道,R2 很可能不会在短期内发布了。APPSO 给大家快速整理了 R2 推迟发布的关键点1️⃣ 内部原因:梁文锋不满意尽管 DeepSeek 的工程师们在过去几个月里一直在紧张地开发 R2,但梁文锋对 R2 现在的性能还不满意,工程师团

#大数据
比Gemini Diffusion更全能!首个多模态扩散大语言模型MMaDA发布,同时实现强推理与高可控性

杨灵:普林斯顿大学 Research Fellow,北京大学博士,研究方向为大语言模型、扩散模型和强化学习。田野:北京大学智能学院博士生,研究方向为扩散模型、统一模型及强化学习。沈科:字节跳动 Seed 大模型团队的 AI 研究员,研究方向为大语言模型预训练和统一学习范式。童云海:北京大学智能学院教授,研究领域涵盖多模态大模型、图像/视频的生成与编辑。

#语言模型#人工智能#自然语言处理
零成本、无编程,GLM-4-Flash免费API发布,算法工程师嗨翻了!!!

BigModel开放的GLM-4-Flash微调非常简单,仅需3步,无需额外代码开发,无需额外环境配置,即可完成模型微调和部署,体验非常好。选择模型业绩并发数,点击“确认创建”就完成了模型部署了。使用GLM-4-Flash微调和部署自己的专属大模型,省去很多开发和部署的时间,可以空出更多的时间优化业务的数据,提升预训练模型的效果,加速自己的业务产出以获得更高业务回报。从上视频可以看到,API的调用

文章图片
#算法#人工智能#自然语言处理
Auto-RAG开源,复杂多跳问题就这么解决了~

是一个以 LLM 强大的决策能力为核心的自主迭代检索模型,通过多轮对话的方式建立 LLM 与检索者之间的交互模型,通过迭代推理确定何时检索信息、检索什么内容,在获得足够的外部知识后停止迭代,并将答案提供给用户。。Auto-RAG进行迭代推理,策略性地规划检索,提取相关知识,精确识别信息需求,并为下一次检索细化查询,最终收敛到最终答案。在这个例子中,Auto-RAG在与检索器交互五次后终止,成功得出

#语言模型#人工智能
Perplexity CEO揭秘:不训大模型、关键在于检索、排序、编排

图片来源于网络Aravind Srinivas 是人工智能初创公司 Perplexity AI 的首席执行官兼联合创始人。Perplexity AI 致力于打造“世界上最值得信赖的问答引擎”,其核心产品是一款基于大型语言模型的聊天机器人,可以回答用户问题并提供信息来源。Srinivas 拥有加州大学伯克利分校的电气工程和计算机科学硕士学位。完成博士学位后,Srinivas 转入工业界,加入 Goo

#大数据#人工智能
Kimi悄悄开源了自家推理框架Mooncake~

Mooncake的核心是其以KVCache为中心的调度器,它在最大化整体有效吞吐量的同时,满足与延迟相关的服务水平目标(SLOs)要求。Mooncake的底层部分是传输引擎(Transfer Engine),它支持通过TCP、RDMA、基于NVIDIA GPUDirect的RDMA以及NVMe over Fabric(NVMe-of)协议进行快速、可靠和灵活的数据传输。未来,计划在传输引擎的基础上

文章图片
#开源
邱锡鹏团队开源MOSS-TTSD!百万小时音频训练,突破AI播客恐怖谷

以下是更多的 MOSS-TTSD 生成播客片段,表现出了优秀的零样本音色克隆能力和稳定的长语音生成能力,进一步验证了其在情感表达、语调自然度和整体流畅性上的优异性能。当前的文本到语音(TTS)模型在单句或孤立段落的语音生成效果上取得了令人瞩目的进展,合成语音的自然度、清晰度和表现力都已显著提升,甚至接近真人水平。与传统 TTS 模型只能生成单句语音不同,MOSS-TTSD 能够根据完整的多人对话文

#音视频#人工智能
老黄亮出全球最小超算,大模型在家跑!5090惊天问世,惊爆价16499

你们都在期待RTX 5090的发布,关注它的规格参数,但你们是否真正理解黄仁勋关于图形技术的说法?令人惊讶的是,RTX 5090 Founders Edition是一款双插槽显卡,能够适配小型机箱,跟RTX 4090的尺寸相比,这是一个巨大的变化。这个「世界模型」必须理解世界的语言,必须理解物理动力学,比如重力、摩擦,必须理解几何和空间关系,理解因果关系,理解物理永恒性......如此豪华的配置,

#人工智能#自然语言处理#机器学习
    共 248 条
  • 1
  • 2
  • 3
  • 25
  • 请选择