logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI 音乐

MiniMax、Music 1.5、AI音乐生成、多模态建模、细粒度控制、API、企业级音频解决方案。

文章图片
#人工智能
AI vs 程序员 突围之道

Osmani 在其警告中明确指出,2026 年真正的核心竞争力是把模糊问题转化为明确执行意图、设计好上下文结构,以及区分真正重要的东西(47)。这一论断揭示了 AI 时代程序员角色的根本性转变。在 AI 大模型时代,程序员不再是单纯的 “代码工人”,而是转变为 **“系统思考者”、“问题解决者” 和 “AI 的驾驭者”**(108)。你的核心竞争力将从 “写出代码” 转向 “理解并解决复杂问题”、

文章图片
#人工智能#机器人#软件工程
MCP Client Streamable HTTP 模式**、**SSE HTTP 模式** 和 **STDIO 模式

特性STDIO 模式SSE HTTP 模式MCP Client Streamable HTTP 模式通信基础标准输入/输出流网络要求无网络,本地进程需要网络连接需要网络连接连接方式进程间通信两个HTTP连接(长轮询GET + 普通POST)一个HTTP连接,双向流数据流双向(JSON-RPC)主要是服务器推送,客户端通过另一请求发送全双工双向流实时性高(本地)高(服务器可主动推送)非常高(双向实时

文章图片
#http#网络协议#网络
在线笔记Notion全面AI化的影响

Notion 3.0 的 Agent 化不是简单的“LLM + 工作流”,而是把记忆、权限、多模型、安全、社区生态打包成可消费的基础设施。对于企业,它意味着“ Citizen Automator ”时代到来:业务人员用自然语言即可拼装跨系统流程,开发者则专注治理、评估与二次开发。对于个人,它是把重复劳动外包给“数字实习生”,让注意力回归创造性思考。正如 Ivan Zhao 所言:“我们希望 AI

文章图片
#人工智能
functioncalling 和 agent的区别在哪?

Function Calling 是 Agent 的基石。你可以把 Function Calling 看作是 Agent 的“手和脚”,是它执行具体动作的方式。而Agent 是拥有了“大脑”的 Function Calling。这个大脑具备规划、记忆和反思的能力,能够指挥手脚去完成一套复杂的组合动作。如果任务相对简单、直接,使用就足够了。如果任务真正复杂,需要多个步骤、可能遇到分支情况、需要根据中

文章图片
#人工智能
Glyph框架

Glyph框架的核心创新在于其提出了一种全新的、以“视觉-文本压缩”为基础的上下文扩展范式,它通过将长篇幅的文本信息转换为高密度的图像表示,并利用先进的视觉语言模型(VLM)进行处理,从而绕过了传统大语言模型(LLM)在处理长序列时面临的计算和存储瓶颈 [[1,4]]。这一方法论的实现依赖于一个精巧设计的三阶段训练流程以及一个自动化、智能化的渲染配置优化机制,共同构成了Glyph的技术基石。第一阶

文章图片
#机器学习#人工智能#深度学习
AI 时代护城河

在这场 AI 变革中,纳德拉重新定义了数字时代的 “主权” 概念。他直言,长期以来欧洲乃至全球讨论的 “数据主权”—— 即数据存储在哪里、由谁管辖 —— 只是技术问题,并非战略核心。真正的 “企业主权”,在于对模型权重的控制(29)。纳德拉批评了现在泛滥的 AI 套壳公司,他表示,如果一家公司只是单纯调用外部的 AI 模型,而无法将自己公司内部独特的、隐性的知识(Tacit Knowledge)蒸

文章图片
#人工智能
LangChain 中 Output Parsers 是什么?

是 LangChain 中负责将语言模型(LLM)输出的原始、非结构化的文本转换为结构化、可编程的数据格式的组件。解析器功能输出类型最强大,解析为自定义的 Pydantic 模型解析为结构化的字典Dictionary解析为列表List解析为日期时间对象datetime包裹其他解析器,在失败时尝试自动修复与原解析器相同核心价值:Output Parsers 将 LLM 纳入了软件工程的“管道”中,使

文章图片
#java#数据库
Video Ocean 接入 GPT-5

Video Ocean作为全球首个接入GPT-5的视频智能体,开创了AI视频创作新纪元。其技术架构融合了GPT-5的强大理解能力与视频生成技术,通过脚本策划、视觉合成和配音字幕三大模块实现全流程自动化创作。基于OpenSora开源项目,Video Ocean在视频连贯性、精细控制和高质量输出方面取得突破,支持4K HDR电影级视频生成。产品提供多种创作模式、风格定制和视频续写功能,通过自然语言交互

文章图片
#人工智能
【翻译】从生成的人体视频到物理可行的机器人轨迹

视频生成模型在合成新颖情境下人体动作方面的能力正在迅速提升,使其具备成为情境化机器人控制高级规划器的潜力。人形机器人如何能够以零样本的方式执行生成视频中的人体动作?这一挑战的出现是因为生成视频通常带有噪声并表现出形态畸变,与真实视频相比,使得直接模仿变得困难。为解决这个问题,我们引入了一个两阶段流程。首先,我们将视频像素提升为4D人体表征,然后重定向到人形机器人的形态。其次,我们提出了GenMim

文章图片
#音视频#机器人
    共 72 条
  • 1
  • 2
  • 3
  • 8
  • 请选择