Toky丶个人主页

@Toky_min

Toky丶

2023-06-28 15:36:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

SmolVLM2: The Smollest Video Model Ever（二）

大型视觉语言模型（VLMs）性能卓越，但需要大量计算资源，这限制了它们在移动和边缘设备上的部署。较小的视觉语言模型通常沿用大型模型的设计选择，比如广泛的图像标记化，这导致GPU内存使用效率低下，并且在设备上应用的实用性受到限制。我们推出SmolVLM，这是一系列专为资源高效推理而设计的紧凑型多模态模型。我们系统地探索了针对低计算开销优化的架构配置、标记化策略和数据整理方法。通过这些探索，我们确定了

#人工智能 #计算机视觉

org.apache.jasper.JasperException: java.lang.ClassNotFoundException: org.apache.jsp.index_jsp

异常报告消息 org.apache.jasper.JasperException: java.lang.ClassNotFoundException: org.apache.jsp.index_jsp描述服务器遇到一个意外的情况，阻止它完成请求。Exceptionorg.apache.jasper.JasperException: org.apache.jasper.Jaspe...

C，opencv批量从文件夹下读取图片进行处理，并批量保存

1 批量读取glob在opencv4.x版本中提供的是glob函数，在以前的版本中可使用Directory类。int main() {//批量读取string src_path = "E:\\Toky\\VsProject\\ColoNavigation\\ColoNavi_Opencv\\ColoNavi_Opencv\\data\\";vector<cv::String> file

#opencv

LLM面试基础（一）

当前主流的大模型架构主要分为三类：1）Encoder-Decoder结构（如T5、BART），擅长理解类任务；2）CausalDecoder结构（如LLaMA），适合文本生成；3）PrefixDecoder结构（如ChatGLM），在对话场景表现突出。其中Decoder-only结构凭借简单高效、适配性强等优势成为主流选择。在训练机制上，CausalDecoder对所有token计算损失，而Pr

【文献阅读】General surgery vision transformer: A video pre-trained foundation model ...【GenSurgery数据集】

缺乏公开可用的数据和专门的基础模型是外科计算研究的主要障碍。为此，（i）我们开源了迄今为止最大的普通外科手术视频数据集，该数据集包含680小时的手术视频，涵盖28种手术的机器人和腹腔镜技术数据；（ii）我们提出了一种基于前向视频预测在手术视频上对普通外科视觉Transformer（GSViT）进行视频预训练的技术，该技术可用于实时手术应用，我们还开源了GSViT的代码和权重；（iii）我们还发布了

#transformer #人工智能 #深度学习

【技术点】RAG

RAG（检索增强生成）是一种 AI 框架，将传统信息检索系统（例如搜索和数据库）的优势与生成式大语言模型 (LLM)的功能相结合。通过将您的数据和世界知识与 LLM 语言技能相结合，接地输出更准确、更及时，并且与您的具体需求相关。检索和预处理：RAG 利用强大的搜索算法查询外部数据，例如网页、知识库和数据库。检索完毕后，相关信息会进行预处理，包括标记化、词干提取和停用词移除。接地输出：经过预处理的

#人工智能 #RAG

SmolVLM2: The Smollest Video Model Ever（七）

表示你调用 OpenAI API 时达到了组织（organization）的请求速率限制（RPM，Requests Per Minute，每分钟请求数）。的请求速率达到了上限（最大 RPM 为 3），需要等待 1 秒钟后再尝试。成本上来讲，kimi应该是更便宜一些，还免费送了15块钱。解决：在调用的时候加一个计时器去限制一下。错误信息中明确指出你的账号所在组织。总的来说，kimi输出的起码。# 保

#人工智能

【文献阅读】SparseGPT: Massive Language Models Can be Accurately Pruned in One-Shot

本文提出SparseGPT算法，首次实现大规模GPT模型的高效一次性剪枝。该方法能在4.5小时内完成1750亿参数模型的剪枝，达到60%稀疏度且精度损失极小。通过将剪枝问题转化为稀疏回归实例，并设计新型近似求解器，SparseGPT克服了传统方法计算成本高的问题。实验表明，该方法在OPT-175B和BLOOM-176B等超大模型上表现优异，且发现模型规模越大压缩效果越好。该算法支持半结构化稀疏模式

#语言模型 #人工智能 #自然语言处理

【文献阅读】Lossless data compression by large models

摘要：本文提出了一种基于大型人工智能模型的无损数据压缩方法LMCompress，在文本、图像、音频和视频四种数据类型上均显著优于传统压缩算法。该方法通过特定领域的预训练模型（如iGPT、bGPT-audio等）对数据进行语义理解，生成预测概率分布后使用算术编码进行压缩。实验表明，LMCompress将JPEG-XL、FLAC和H.264等传统算法的压缩率降低了一半，文本压缩率达到zpaq的三分之一

#语言模型

【文献阅读】Advances and Challenges in Large Model Compression: A Survey

摘要：随着大模型在AI领域的广泛应用，其庞大的参数量和计算需求成为资源受限环境部署的主要瓶颈。本文系统综述了大模型压缩技术（剪枝、知识蒸馏、量化、低秩分解等）的进展与挑战，分析其在保持性能的同时减小模型规模的关键方法。研究指出，当前技术仍面临压缩与性能平衡、策略优化及新模型适配等挑战，未来需开发智能轻量化框架、探索跨模态压缩及可解释性结合等方向。该综述为推进高效AI模型部署提供了重要参考。关键

#算法 #人工智能

共 45 条

请选择