logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SnapTranslate轻量划词翻译工具:开箱即用的外文阅读神器(详细教程+原理拆解)

SnapTranslate是一款基于Python开发的轻量级划词翻译工具,解决了传统翻译方式兼容性差、操作繁琐的痛点。只需选中文本后按下Ctrl+L快捷键,即可在鼠标旁弹出半透明悬浮窗显示翻译结果,支持全场景使用且无广告。工具采用Tkinter构建界面,通过Windows API实现全局热键监听,调用Google翻译接口并优化缓存机制,同时运用多线程避免界面卡顿。开源代码支持自定义快捷键、翻译引擎

文章图片
#python#开发语言#机器翻译
解放你的文件夹:智能文件整理Agent,让杂乱文件一键归位

摘要: 「智能文件夹整理Agent」是一款基于DeepSeek大模型驱动的开源工具,可高效解决文件杂乱问题。核心功能包括: 多模式智能分类(智能语义分析、后缀名分类、前缀分组); 可视化交互(拖拽调整、右键自定义目录); 安全防护(标记大文件/近期文件,支持撤销操作); 个性化定制(多语言切换、自定义规则)。 工具采用轻量化Python+Tkinter开发,具备文件系统感知、AI决策、安全执行和反

文章图片
机器视觉:智能车大赛视觉组技术文档——第20届智能车比赛视觉组视觉模块多种思路分析

本文针对第二十届全国大学生智能汽车竞赛智能视觉组任务,从红色立方体定位、15类物品分类和手写数字识别三个关键技术点展开分析。在定位方面比较了垂直/斜向下YOLO检测、水平视觉定位及传感器融合三种方案;分类任务建议通过eIQ训练模型,强调数据集规模的重要性;数字识别提出整体100分类和分数字+角度识别的两种思路,后者虽逻辑复杂但准确率更高。文章指出各方案需结合队伍技术实力选择,并提醒注意数据增强和硬

文章图片
#计算机视觉
机器视觉:视觉大模型——从技术突破到产业革新的全面解析

本文从定义、研究现状、技术分支、产业应用等维度,带您全面读懂视觉大模型的技术内核与发展脉络。

文章图片
#人工智能#计算机视觉
本地部署 ChatGLM2-6B【保姆级教程】:从零搭建你的中英双语大模型对话助手

清华大学开源对话模型ChatGLM2-6B本地部署指南 摘要:本文详细介绍了如何在个人电脑上部署清华大学开源的ChatGLM2-6B对话模型。该模型支持中英双语,通过4-bit量化技术仅需6GB显存即可运行(如RTX 3060显卡)。部署步骤包括:1) 硬件与环境准备(建议Linux/Windows WSL2);2) 安装PyTorch和相关依赖;3) 通过ModelScope下载模型权重;4)

文章图片
#人工智能#自然语言处理
CyberArcanum 赛博秘仪:当AI与塔罗相遇,我用代码重构了一场数字时代的占卜仪式

摘要: CyberArcanum 赛博秘仪是一款融合神秘学仪式感与前沿技术的数字塔罗工具,旨在通过AI和交互设计重构传统占卜体验。其核心创新包括: 手势选牌:基于Google MediaPipe实现手部动作交互,用户通过挥动和握拳完成选牌仪式,全程本地处理保障隐私; 沉浸式流程:从输入困惑到AI解牌,每个环节(如暗金界面、3D翻牌动效)强化仪式感,避免传统数字塔罗的"点击抽卡"

文章图片
#人工智能#重构
机器视觉:智能车大赛视觉组技术文档——用 YOLO3 Nano 实现目标检测并部署到 OpenART

本文介绍了如何利用轻量级YOLO3 Nano模型实现嵌入式设备上的目标检测全流程。文章首先概述了YOLO3算法的优势和改进,重点讲解了针对嵌入式设备优化的YOLO3 Nano版本的特点。随后详细介绍了使用LabelImg工具进行数据标注的方法和技巧,包括图像准备、标注步骤和数据集导出。最后提供了模型训练的环境准备指南,帮助读者快速上手。全文以实践为导向,适合目标检测初学者学习如何在资源受限设备上部

文章图片
#目标检测#人工智能#计算机视觉
机器视觉:Swin Transformer 深度解读

Swin Transformer通过分层特征表示和移位窗口自注意力,有效解决了ViT的高计算复杂度和单分辨率特征图问题。其核心创新包括:1)采用类似CNN的多尺度特征构建方式,通过补丁合并实现分层特征输出;2)设计移位窗口自注意力机制,在局部窗口内计算自注意力以降低复杂度,并通过窗口移位建立跨窗口连接。这些改进使Swin Transformer成为首个能同时适配分类、检测和分割任务的通用视觉Tra

文章图片
#transformer#深度学习#人工智能
AI 十大论文精讲(二):GPT-3 论文全景解析——大模型 + 提示词如何解锁 “举一反三” 能力?

摘要 2020年发表的《Language Models are Few-Shot Learners》(GPT-3论文)开创了AI新时代。该论文突破性地证明:当Transformer模型参数规模扩大到1750亿时,仅通过文本交互即可实现任务无关的少样本学习。GPT-3采用"预训练+提示词"的新范式,无需微调就能在翻译、问答等40+任务上展现强大性能。论文系统验证了模型在语言建模、

文章图片
#人工智能#gpt-3
机器视觉:Vision Transformer——打破CNN垄断的视觉革命先锋

摘要 Vision Transformer (ViT) 是2020年由Google Brain团队提出的革命性视觉模型,首次将纯Transformer架构成功应用于图像识别任务。ViT通过将图像分割为16×16的图像块序列,利用自注意力机制捕捉全局特征,在ImageNet等数据集上超越传统CNN模型,准确率达88.55%,同时减少50%-75%的计算资源消耗。ViT的核心优势在于能建模远距离图像依

文章图片
#transformer#cnn#深度学习
    共 61 条
  • 1
  • 2
  • 3
  • 7
  • 请选择