watersink 个人主页

@qq_14845119

watersink

2023-01-03 15:16:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

一种特定场景去除高光算法

成功的人生在于追求「完整」而不是「完美」 ----乔丹·皮特森算法思路：1、求取源图I的平均灰度，并记录rows和cols；2、按照一定大小，分为N*M个方块，求出每块的平均值，得到子块的亮度矩阵D；3、用矩阵D的每个元素减去源图的平均灰度，得到子块的亮度差值矩阵E；4、通过插值算法，将矩阵E差值成与源图一样大小的亮度分布矩阵R；5、得到矫正后的图像result=I-R；应用场景：光照不均匀的整体

#算法 #矩阵 #线性代数

集7大模态（视频、图片、音频、文本、深度图、热力图、惯性）的IMAGEBIND

ImageBind 规避了这个难题，它利用最近的大型视觉语言模型它将最近的大规模视觉语言模型的零样本能力扩展到新的模态，它们与图像的自然配对，如视频 - 音频和图像 - 深度数据，来学习一个联合嵌入空间。通过这样的训练方式，即使没有进行过（声音，文本）的专门训练，也可以取得SOAT的（声音，文本）分类能力。该研究不需要所有模态相互同时出现的数据集，相反利用到了图像的绑定属性，只要将每个模态的嵌入与

#人工智能 #计算机视觉

姿态估计DeepLabCut

一个人走得快，一群人走得远……论文：DeepLabCut: markerless pose estimation of user-defined body parts with deep learningGithub：https://github.com/AlexEMG/DeepLabCut安装：pip3 install opencv-python==3.4.5.20...

姿态估计CPM

论文：Convolutional Pose MachinesGithub：https://github.com/timctho/convolutional-pose-machines-tensorflowhttps://github.com/JindongJiang/WeightedLoss_Convolutional_Pose_Machines_PyTorchCMU的工作...

基于单目视觉的实时3d人脸重建

论文：Real-time Facial Surface Geometry from Monocular Video on Mobile GPUsGithub：https://github.com/thepowerfuldeez/facemesh.pytorchhttps://google.github.io/mediapipe/solutions/face_mesh.html论文提出了端到端的3d

目标检测Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection

论文：Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_DetectionGithub：https://github.com/yihui-he/KL-LossCVPR 2019 CMU&&face ++论文提出了一种回归边框的不确定性的方法，来实现对于边框的后续矫正。主要包括...

从DeepSeek-V3到Kimi K2：八种现代 LLM 架构大比较

与传统的全局注意力机制相比，这种设计显著减少了KV缓存的内存占用。此外，Kimi 2在MoE模块中使用了更多的专家，在MLA模块中使用了更少的头。Llama 4采用了与DeepSeek V3类似的架构，但在某些细节上进行了优化，以提高模型的性能和效率。Llama 4使用了分组查询注意力（GQA）而非多头潜在注意力（MLA），并且在MoE模块中使用了更少但更大的专家。Qwen3的密集模型采用了较深的

#架构 #语言模型

复杂文档、图表解析大总结

模型首先对降采样后的图像进行全局版面分析，然后对原生分辨率的裁剪区域进行文本、公式、表格的细粒度识别。该基准涵盖学术论文、财务报告、报纸、教科书等 9 种文档类型，包含 15 个块级元素（文本段落、标题、表格等）和 4 个跨度级元素（文本行、行内公式等）的注释信息，以及页面和块级别的各种属性标签。支持识别文本、图像、表格、公式、手写体、表单字段、页眉页脚等各种元素，并支持印章、二维码、条形码等子类

#人工智能

MAAS平台

第二步，对收集到的需求进行详细分析和梳理，结合行业最佳实践和 AI 技术发展趋势，识别出适合大模型应用的关键业务场景，并明确每个场景的具体需求和目标。第七步，基于选定的模型和业务需求，进行大模型应用的整体架构设计和功能模块设计，确定应用的技术架构、交互设计和用户体验方案。第十一步，根据企业需求和 IT 架构，选择合适的部署方式（如公有云、私有云、混合云），将经过测试和验证的大模型应用部署到企业生产

#人工智能 #深度学习 #语言模型

大模型数据预处理方法总结

可以直接使用现有分词器，如 GPT-2 的分词器用于 OPT 和 GPT-3，而当语料库涵盖多个领域、语言和格式时，专门针对预训练语料库定制的分词器可能带来更多优势。该分类器通常使用从高质量数据源（例如维基百科）精选的数据作为正样本，将待评估数据作为负样本，进而训练一个二分类器，该分类器生成评分用于衡量每个数据实例的质量。这种方法通过设计一系列规则或策略来识别和删除低质量的数据，这些规则或策略基于

#深度学习 #人工智能

共 49 条

请选择