简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型,它能够识别和提取文本,还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容,极大地拓宽了 OCR 技术的应用范围。模型大小仅 1.43GB,下面列出来在各个场景的效果,感兴趣的往下看。???? 项目特点① 多语言、多模态识别:GOT-OCR 2.0 支持多种语言和模态的文本识别,无论是印刷体还是手写体,都能准确识别。② 多样化输入
推荐一个低代码平台,通过该平台你能快速搭建出一个商城应用。该开源项目基于 Vue.js 是一个不错的练手项目。值得注意的是,阮一峰老师在自己的技术周刊中也推荐过该开源项目。这个名为 Mall-Cook 的可视化商城搭建平台开源三个月便斩获 2.1k 的 Star。包括多页面可视化构建、Json Schema 生成器(可视化搭建物料控制面板),实现组件流水线式标准接入平台。...
支撑影视人像抠图、医疗影像分析、自动驾驶感知等万亿级市场背后的核心技术是什么?那就要说到顶顶重要的图像分割技术。相比目标检测、图像分类等技术,图像分割需要将每个像素点进行分类,在精细的图像识别任务中不可替代,也是智能视觉算法工程师拥有关键核心竞争力的关键!图1 图像分割应用正因如此,DeepLabv3、OCRNet、BiseNetv2、Fast-SCNN等优秀算法层出不...
本期所有 GitHub 项目为 逛逛 GitHub 公众号粉丝推荐,它们分别是:1. 一个小众但不错的智能家居物联网项目2. 一个基于 vue 开发的可视化商城搭建平台3. 一个工具能为静...
今天小逛刷知乎,推送了一篇文章,你在 GitHub 上看到过的最有意思的项目是什么?看到了几个沙雕项目,太秀了,找几个过于沙雕的分享给大家。1. logolyStar:5.2k...
当前绝大部分数据仓库都会采用 SQL,SQL 发展了几十年已经成为数据库界的标准语言,用户量巨大,所以支持 SQL 对于数据仓库来讲也是很正常的。但是,在当代大数据背景下,业务复杂度节节攀升,在以计算为主要任务的数据仓库场景下,SQL 似乎越来越不够用了。典型表现是一些数据仓库开始集成 Python 的能力,将 Python 这样的非 SQL 语言融入到数据仓库中。且不论两种风格迥异的开发语言是否
Mocking Bird 是开发者 @babysor 开源的比较火的 AI 拟声开源项目,目前在 GitHub 已经获得了 32K 的 Star,它能在 5 秒内克隆你的声音并生成任意语音内容,支持中文普通话。01功能特性支持中文普通话拟声,并且在多个中文数据集进行了测试支持在 Windows、Linux、Mac 操作系统使用基于 B/S 架构交互,简单收集声音,生成拟声详细的部署教程...
本期推荐开源项目目录:1. 网页截屏转代码2. 协作数字白板3. GPT 爬虫4. 学术 GPT5. 绘制的线框生成 HTML01网页截屏转代码screenshot-to-code 是一个简单的应用程序,由 React/Vite 前端和 FastAPI 后端开发。可以将屏幕截图转换为 HTML/Tailwind CSS 代码。它利用了 GPT-4 Vision 来生成代码,并使用 DALL-E 3
本期推荐开源项目目录:1. Open-Sora2. 马斯克开源的大模型3. 基于 AI 的软件工程师01Open-Sora首先, Open-Sora 不是 Open AI 发布的 Sora 开源版。而是由 Colossal-AI 组织发起的一个开源项目,旨在高效地制作高质量视频内容,并使模型、工具和内容对所有人开放。这个项目遵循开源原则,不仅民主化了对先进视频生成技术的访问,还提供了一个简化和用.
本期推荐开源项目目录:1. 一个集成了主流 AI 大模型的 APP2. 模拟人类行为的小镇3. 离线 OCR 软件4. 流程图编辑框架01一个集成了主流 AI 大模型的 APP该开源项目集成了主流的大语言模型、绘图模型,基于Flutter开发,支持问答聊天、文生图、图生图、超分辨率等等功能。已集成模型:GPT-3.5/4、通义千问、文心一言、Stable Diffusion客户端:https://