logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

阿里云:通义千问Qwen2 正式发布

Qwen2 是对前一代 Qwen1.5 全面升级,它提供了多种尺寸的模型,支持更多语言,并在代码理解、数学解题等方面表现更加出色。千问 2 系列模型基本能够超越同等规模的最优开源模型甚至更大规模的模型,尤。其是代码及中文理解上,重回开源天花板模型。

文章图片
#人工智能
迪士尼双足机器人: 公布设计和控制方法

详细介绍了其用于娱乐表演的机器人的设计图纸和主要控制技术,该机器人能在复杂地形行走,还能跳舞和表演。

文章图片
#机器人#人工智能
Llama 3.1 和 MeloTTS 驱动的 NotebookLM 开源替代

的谷歌 NotebookLM 开源替代方案。只实现了核心功能,能够将 PDF 文件转换为播客。看了下代码,作者也是白嫖仙人,Llama 模型用的 fireworks 的免费接口,MeloTTS 用的 HF Space 的 gradio 接口。是一个基于 Llama 3.1 405B 和。

文章图片
#人工智能#开源
字节豆包团队推出 SeedEdit:强大的图像编辑模型

是由字节豆包团队推出的图像编辑工具,它能够根据任何文本提示修改现有图像,并保持一致性。该工具支持多种功能,如局部替换、几何变换、重新打光、风格更改、表情编辑、文字替换、姿势修改以及局部擦除等。从演示视频和官方提供的演示来看,效果非常强大,你们可以。不过,我看了下代码实现,发现它调用了字节的 API,但目前这个 API 还没有公开申请的地方,期待后续的开放。

文章图片
#人工智能#图像处理
马斯克预言 2026 年将实现通用人工智能

他还表示他家的 Optimus 机器人可以变身猫娘、帮你接孩子、教孩子一切知识。未来量产Optimus 机器人的成本将低于一辆汽车,还讨论了未来战争形态、机器人数量比例等等。马斯克在直播玩大菠萝的切片视频中,预言 2026 年将实现AGI,并表示有1%概率我们的文明将直接Over。

文章图片
#人工智能
小米发布首款 AI 智能眼镜:支持语音交互与实时识别

产品搭载超级小爱 AI 助手,支持语音控制和智能交互,配备 1200 万像素摄像头可实现实时拍摄、记录和场景识别功能。现已发布开源权重,这是一个支持多模态(文本/音频/图像/视频)理解的大模型,仅需 2GB RAM 即可运行,也是第一个在 lmarena 上得分超过 1300 分的 10B 参数模型。Claude 推出 Artifacts Space,即在你创建了 Artifact 后,可以把这个

文章图片
#人工智能
英伟达开源 Cosmos 世界模型:助力机器人与自动驾驶数据生成

这模型支持文生视频和文+视频生视频,主要应用于机器人和自动驾驶领域的大规模合成数据生成。目前,英伟达已经开放了多个不同的预训练模型,这些模型均支持商业用途。,看看这个模型的实际效果如何。

文章图片
#机器人#自动驾驶#人工智能
前端又要被替代了 v0.dev 全新升级

现在迎来了大更新,就像 Claude Artifact 一样,支持了对话生成前端界面了,背后的知识库都升级到最新版本。视频演示的是使用 v0 chat 生成的俄罗斯方块游戏,即使你不懂代码也推荐你试试,非常的强。如果你是一个前端开发,那么 vercel 家 的。你一定知道,俺还是早期测试人员哩。

文章图片
#人工智能#前端
TangoFlux:极速文本转音频生成模型

TangoFlux 是一个开源的极速文本转音频(TTA)生成模型,在单个 A40 GPU 上仅需 3.7 秒即可生成 30 秒的 44.1kHz 音频。看看,速度确实飞快,生成的质量也算还行。

文章图片
#人工智能
智谱清影 CogVideoX-5B: 开源视频生成模型

早在 7 月份,智谱公布了他们的视频生成模型 CogVideoX(清影),昨晚他们的官推宣布 CogVideoX-5B 即将开源(大概率今天),框架已经提前完成了适配。

文章图片
#人工智能
    共 149 条
  • 1
  • 2
  • 3
  • 15
  • 请选择