logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

小旺 AI 截图:基于多模态大模型的桌面效率工具

小旺AI截图是一款集成截图翻译、OCR识别、录屏等功能的轻量化桌面工具,安装包仅10MB且无需注册。技术架构分为截图引擎、AI识别层和录制编码层,通过调用系统API和接入DeepSeek多模态大模型提升OCR与翻译准确率。特色包括功能高度集成、AI模型增强识别能力、本地化处理保障隐私,支持带壳截图、GIF录制等场景化需求。该工具通过技术整合解决了办公场景中多软件切换的效率问题,尤其在大模型处理复杂

文章图片
#人工智能
Sora退场,GPT Image 2.0封神!免费不限次还支持中文!

有了GPT Image 2.0之后,很多自媒体创作者已经彻底不用PS了。推理驱动架构:从“猜测式生成”升级为“规划式生成”,复杂指令遵循能力质变中文文字渲染:乱码率趋近于零,排版精度媲美专业设计软件多图一致性:跨帧保持角色、物体、风格连贯,单次可批量生成8张免费调用门槛:通过MindVideo等平台,注册即可零成本体验对于目前仍需付费或受限于本地算力的用户,MindVideo提供了一个绝佳的零成本

文章图片
#人工智能#计算机视觉
ChatTTS技术深度解析:专为对话场景设计的开源TTS模型如何实现“以假乱真”

ChatTTS是一款开源的对话式语音合成模型,通过10万小时中英文数据训练,能生成带有自然语气、停顿和笑声的语音。其核心技术采用GPT+DVAE架构,支持细粒度韵律控制,用户可通过特殊标记调节笑声、停顿等效果。模型提供多音色切换功能,适合自媒体配音、有声书制作等场景。虽然预训练模型禁止商用,但开发者可基于开源代码自行训练商业版本。本地部署需4GB以上显存,Windows用户可选择一键安装包或源码部

文章图片
#github#开源
Oh My PPT技术深度解析:本地优先的开源AI幻灯片生成器,重新定义“人机协同”式创作

OhMyPPT是一款基于Electron+Vue技术构建的开源AI幻灯片工具,主打本地优先策略,所有AI生成均在用户电脑运行,保障数据隐私。该工具支持OpenAI/Claude协议及本地Ollama模型,具备AI自动规划大纲、配色排版、逐页渲染功能,并提供可视化拖拽编辑器和对话式修改机制。内置30+风格模板,支持设计稿识别生成专属风格,采用固定16:9画布和内容高度预算算法确保排版精准。相比同类云

文章图片
#开源#人工智能
WeMark :一款基于 Markdown 渲染的公众号排版工具

WeMark是一款专注于微信公众号排版的免费开源工具,通过自研Markdown解析器实现实时预览和一键导出公众号富文本功能。其技术架构包含三大核心模块:1)实时渲染引擎,将Markdown语法精确映射为公众号兼容格式;2)主题管理系统,支持自定义样式参数;3)AI辅助模块,集成大模型实现智能写作与配图。该工具采用"专注垂直场景"的设计理念,通过简化排版流程显著提升公众号内容生产

文章图片
#开源
WeMark :一款基于 Markdown 渲染的公众号排版工具

WeMark是一款专注于微信公众号排版的免费开源工具,通过自研Markdown解析器实现实时预览和一键导出公众号富文本功能。其技术架构包含三大核心模块:1)实时渲染引擎,将Markdown语法精确映射为公众号兼容格式;2)主题管理系统,支持自定义样式参数;3)AI辅助模块,集成大模型实现智能写作与配图。该工具采用"专注垂直场景"的设计理念,通过简化排版流程显著提升公众号内容生产

文章图片
#开源
视频文件重复检测工具:基于哈希与视频指纹的三级筛选机制

本文分析了吾爱破解论坛开发者自制的一款视频查重工具的三级筛选架构。该工具通过"文件大小→MD5→视频指纹"的分层检测策略,既保留了哈希比对的速度优势,又能识别内容相同但编码参数不同的视频。核心创新在于视频指纹比对机制:通过FFmpeg抽取关键帧生成内容指纹,并采用窗口对比优化算法,将比对复杂度从O(n²)降至O(n×w)。相比传统哈希方案,该工具能检测转码后的重复视频;相比AI

文章图片
#哈希算法#音视频#算法
QuickSay :基于 Qt 的轻量级快捷短语管理工具

《QuickSay:基于Qt的高效重复文本输入工具技术解析》 QuickSay是一款专为客服、销售、运营等高频文本输入场景设计的开源效率工具,通过Qt框架实现轻量化跨平台支持。该工具创新性地采用全局热键(默认Ctrl+Shift+V)快速唤起分类短语库,结合SQLite本地存储和实时搜索功能,将传统5步复制粘贴流程简化为"选择-确认"两步操作。其核心技术包括:Win32 API

文章图片
#qt#开发语言
CardRead:一款基于WPF的悬浮阅读器

本文分析了开源悬浮阅读器CardRead的技术实现,该工具专为Windows11办公场景设计,支持TXT/Markdown/EPUB格式。核心创新在于采用WPF框架实现悬浮窗口层级控制与贴边吸附交互,通过窗口置顶、边缘检测和动画过渡,实现工作界面旁的无干扰阅读。内置多格式文本解析引擎,并采用JSON持久化存储阅读进度。作为轻量化工具,CardRead体现了"隐形化阅读"的设计理

文章图片
#wpf
Bili23 Downloader 技术解析:B站流媒体架构与API交互机制研究

Bili23 Downloader作为一个开源项目,为技术人员研究B站流媒体分发机制提供了一个清晰的参考样本。从API交互、Dash流解析、多线程传输到FFmpeg封装,其代码覆盖了流媒体客户端的主要技术环节。对于希望深入了解现代视频平台底层技术的开发者而言,阅读其源码和理解其技术实现,是学习相关技术知识的一个途径。值得注意的是,通过技术手段获取平台内容时,应仅用于个人学习、研究等合理场景,尊重平

文章图片
#架构
    共 56 条
  • 1
  • 2
  • 3
  • 6
  • 请选择