logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

别了,Gemini CLI!全面拥抱 Google 新一代终端神器 Antigravity CLI (agy)

Google宣布Gemini CLI将于2026年6月停服,全面转向新一代Antigravity CLI(agy)。agy不仅是简单的API封装工具,而是具备环境感知能力的终端级AI助手,支持多Agent协作和模型上下文协议。相比Gemini CLI的单向问答模式,agy能深度理解开发环境,执行复杂任务如代码重构和测试运行。虽然配额管理更严格且初期存在跨平台兼容性问题,但agy代表了AI终端工具向

文章图片
从对话到执行:为什么 2026 年是“AI Agent”的元年?

2026年:AI Agent元年到来 AI Agent(智能体)正成为科技新焦点,它超越传统大模型的被动交互,具备目标导向、环境感知、工具调用和自我纠偏能力。与仅能问答的ChatGPT不同,Agent能自主拆解任务(如策划发布会)、操作外部工具(如邮件/数据库),并持续优化执行过程。2026年,Agent已深入编程(自动修复代码)、办公(智能整理信息)和数据分析(生成报告)等领域。用户可通过现成工

#人工智能
AI 模型的“瘦身术”:量化(Quantization)——让大模型跑在你的边缘设备上

摘要: 模型量化(Quantization)通过将高精度浮点权重(如FP16)转换为低精度整数(如INT8/INT4),显著减少显存占用(如7B模型从14GB降至4-5GB),提升推理速度并降低功耗,使大模型能在边缘设备(如笔记本、嵌入式系统)运行。现代量化技术(如GPTQ、GGUF)可将精度损失控制在1%-3%,用户几乎无感知。推荐工具包括GGUF格式、Ollama部署及AutoGPTQ量化微调

#人工智能
全球实时多模态语音翻译与同传系统技术评估及市场展望报告

全球实时多模态语音翻译技术报告摘要(150字) 2026年,基于多模态大模型的实时语音翻译技术迎来突破性发展。阿里巴巴推出的qwen3.5-livetranslate-flash-realtime采用“思考者-表达者”双引擎架构,通过可读单元技术将端到端延迟压缩至2.8秒,支持60种语言互译,并整合视觉上下文消除歧义。相比传统级联架构,该模型实现声纹复刻、垂直领域热词修正及流式交互,显著提升复杂场

FunASR 与 QwenASR 语音识别技术深度对比及系统架构分析研究报告

阿里巴巴旗下的FunASR和QwenASR代表了语音识别技术的两大技术路线。FunASR采用非自回归架构,注重工业级应用的高效推理和模块化设计,支持多语言识别但更擅长东亚语种;而QwenASR基于大语言模型,通过自回归生成实现端到端语音理解,在复杂声学环境、多语种混合和方言识别中表现更优,尤其擅长语义纠错和噪声抑制。两者在架构设计、解码机制和应用场景上形成互补,分别满足了高效部署和高精度转写的不同

#语音识别#系统架构
选 vLLM 还是 Ollama?一文搞懂大模型推理工具的“平替”与“硬核”之选

Ollama 和 vLLM 是大语言模型部署的两类工具,定位不同但互补。Ollama 主打轻量化本地部署,提供一键运行、丰富模型库和兼容API,适合开发者调试和个人使用。vLLM 则专注高性能推理,通过 PagedAttention 和连续批处理技术优化显存与吞吐量,适用于高并发生产环境。选择取决于场景:开发验证用 Ollama,线上服务选 vLLM。两者结合可覆盖从原型到落地的全流程。

#人工智能
别再让显存焦虑限制你的想象力:新一代端侧大模型部署利器 MLC LLM 深度解析

摘要: MLC LLM是一款基于机器学习编译技术的开源工具,旨在让大语言模型(LLM)高效运行在任何硬件设备上,包括手机、电脑、浏览器甚至边缘设备。其核心优势包括:跨平台支持(Metal/Vulkan/CUDA等)、极致性能优化(通过编译器自动适配硬件)、低比特量化(如3-bit/4-bit压缩),以及丰富的生态API(WebGPU、移动端SDK等)。与传统方案(如llama.cpp)相比,MLC

冲破“拼图式”编译梦魇:深度解析 Apache TVM (Unity 架构演进版)

2026年生成式AI推理的主战场已转向端侧与边缘计算,传统深度学习编译器在处理大语言模型时面临动态形状失控和算子拼接困难等挑战。Apache TVM Unity架构通过三大革新突破僵局:1)引入Relax抽象层,原生支持动态形状追踪,消除显存浪费;2)采用Python-First设计,实现模块化组合与自定义算子无缝插拔;3)构建轻量级Relax虚拟机,运行时仅数百KB,支持跨平台部署。该架构将硬件

#unity#架构
终极量身定制:为什么 2026 年的端侧 AI 都得懂“硬件感知量化 (HAQ)”?

摘要: 2026年,生成式AI的战场转向端侧设备(Edge Devices),推动大模型在智能手机、车载系统等本地运行。然而,端侧设备的内存、算力和功耗受限,传统量化技术难以满足需求。硬件感知量化(HAQ)成为关键解决方案,其核心是将目标芯片的硬件特性融入量化优化过程,通过“硬件在环”测试动态生成混合精度模型(如INT8/INT4/FP16混合),最大化性能与精度平衡。HAQ已在非均匀位宽分配、算

#人工智能
告别信息过载!NotebookLM 深度使用报告:自媒体人的“第二大脑”进化了

摘要: Google推出的NotebookLM是一款基于Gemini Pro模型的个性化AI笔记本,专为知识管理和内容创作设计。与普通AI助手不同,它严格基于用户上传的PDF、网页、音频等资料生成回答,拒绝“幻觉”,并提供引用溯源功能,极大提升内容可靠性。 博主实测三大颠覆性场景: 快速消化长文:自动生成摘要,提炼矛盾观点和选题灵感; 语音播客辅助创作:将笔记转为自然对话式英文播客,激发灵感; 跨

#媒体#人工智能
    共 173 条
  • 1
  • 2
  • 3
  • 18
  • 请选择