logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

谷歌 Nano Banana Pro 上手实测

谷歌发布AI绘图工具NanoBananaPro(Gemini3ProImage),凭借深度思考模式、精准文字生成和搜索增强功能实现技术突破。该工具不仅能模拟物理逻辑生成图像,还能正确书写文字、保持角色一致性,并实时联网获取最新信息进行可视化创作。其"指哪改哪"的编辑方式和知识整合能力,使AI绘图从艺术创作升级为信息表达工具,展现出谷歌在AI领域的技术底蕴。

文章图片
#人工智能
马斯克发了6秒视频,X平台炸锅了,Grok Image不是来画画的,是来搞事情的?

Grok推出全新图像生成功能,实现从文字到图片再到视频的"一条龙"服务。其特色包括:8秒生成视频的超快速度、语音控制创意输出、自动匹配音效等沉浸式体验。最引人注目的是"Spicy"模式,允许生成带性感元素的内容,突破了行业常规限制。马斯克将Grok深度整合到X平台,打造AI内容生态,同时重新定义AI安全标准。这一创新虽然提升了创作效率,但也带来深度伪造风险、

文章图片
#人工智能
以后 P 图、做 3D 只要一句话?Meta 发布 SAM 3,普通人也能玩的黑科技

Meta发布SAM3系列AI模型,实现视觉理解能力质的飞跃。新一代SAM3不仅能识别物体,更能理解复杂概念,支持开放式文本提示分割目标,性能超越现有系统2倍。同时发布的SAM3D可从单张图像重建3D场景,已应用于电商预览等场景。Meta通过"人机混合"数据引擎训练模型,并推出在线Playground降低使用门槛。该技术已应用于Instagram创作工具和野生动物保护项目,将重塑

文章图片
#计算机视觉#AI
硬刚谷歌 Gemini 3 Pro,OpenAI 紧急发布 GPT-5.2,性能炸裂?

摘要:OpenAI发布GPT-5.2,与Google的Gemini3Pro展开AI领域竞争。新版本具备深度思考能力,在专业任务表现超越人类专家11倍,成本仅1%。其突破包括:1)从简单对话升级为项目执行,可自动生成专业PPT等成果;2)编程能力大幅提升,能独立完成全栈开发;3)错误率降低38%,减少"幻觉"问题;4)具备超长文本处理(25万token)和精准图像识别能力。该AI

文章图片
Gemini 3 发布:创新 “Vibe Coding“,吊打全网,Agent 终极形态来了

谷歌发布Gemini3 AI模型,在推理能力上实现重大突破,拿下多项测试最高分。其创新点包括:1)推出"VibeCoding"概念,能理解模糊需求生成代码;2)DeepThink模式增强复杂问题解决能力;3)多模态交互更贴近真实场景。该模型不仅参数提升,更改变了人机交互方式,从工具向"思维伙伴"转变。这一突破引发对AI发展速度及其对人类影响的新思考。

文章图片
#人工智能#深度学习#机器学习
TTT大语言模型架构发布,成功撼动了Transformer与Mamba模型

​上期图文,我们刚介绍了 transformer 模型与 Mamba 模型,觉得 Mamba 模型的发布可以有效改善 transformer 模型长序列输入复杂度的问题,应该能够成为下一个大语言模型的基石。谁想Mamba2 还没有发布几天,这边最新的大语言模型TTT模型发布,成功撼动了 transformer 与 Mamba 模型。​

文章图片
#语言模型#transformer#人工智能
Meta开源“语言神器“:1600种语言ASR系统,元宇宙又要卷土重来?

Meta开源全语言语音识别系统OmnilingualASR,支持1600+种语言(含500种首次被AI识别的语言)。该系统突破性地采用70亿参数语音编码器和大语言模型架构,实现"零样本"学习新语言的能力。通过Apache 2.0许可证完全开源,包括模型家族和350种语言的语料库。这一技术突破标志着AI发展从追求极致性能转向包容普惠,使边缘语言群体首次获得数字话语权。虽然10%的

文章图片
#人工智能#深度学习#机器学习
别读代码了,Code Wiki可视化代码,AI 聊天,代码理解从此像看小说

打听过很多程序猿,发现他们有个心照不宣的秘密:真正花在"写"代码上的时间,可能不到20%。剩下的80%?都在跟别人的(甚至自己的)代码缠斗。

文章图片
#人工智能
一人单挑Transformer神话,RNN卷土重来,Transformer何去何从?

在 Transformer 已统治 AI 世界七年的今天,几乎没人再质疑它的地位。无论是 GPT-5、Claude 4.5,还是 Gemini 2.5,全都建立在同一个信条上——“Attention is all you need.”

文章图片
#transformer#rnn#深度学习 +1
最大开源模型Kimi K2 Thinking:开源AI“思考大师”,重塑智能边界

摘要:月之暗面(MoonshotAI)推出革命性开源模型KimiK2Thinking,具备1万亿参数和256Ktoken上下文窗口,采用MoE架构。这款"思考代理人"能自主完成200-300步复杂任务链,实现推理与工具调用的无缝衔接。在HLE等基准测试中表现优异,以44.9%成绩超越GPT-5,且训练成本仅460万美元。其突出特点包括深度推理、超长记忆、稳定行为和高性价比,标志

文章图片
#人工智能
    共 59 条
  • 1
  • 2
  • 3
  • 6
  • 请选择