登录社区云,与社区用户共同成长
邀请您加入社区
基于Xiaothink-T6-0.15B-ST模型实现低算力高效文本情感分类。该工具优势包括:零额外模型负担、适配轻量模型、即插即用API。通过pip安装后,只需3步即可实现情感分析:导入模块、初始化模型、调用分类接口。该方案采用指令微调技术,支持零样本迁移,无需额外训练数据。使用时需注意路径正确性和版本兼容性,适合资源有限的端侧应用场景。模型可通过ModelScope下载。
使用趋动云GPU算力线上跑猫狗分类项目学习笔记
研究企业大数据运用的意义不仅在于技术层面的突破,更涉及战略转型、效率提升、价值创造及社会影响等多维度变革。未来,随着数据主权、伦理治理等议题的深化,企业需构建“技术—战略—伦理”协同的大数据应用框架,在释放数据价值的同时,践行科技向善的责任。我们以大数据相关的关键词在上市公司年报中的词频密度来度量企业大数据运用指数,即Bigdata =(大数据相关关键词在年报中出现的次数/年报总词汇)×100。大
模型评估的本质,是将技术指标与业务代价对齐。没有“最好”的指标,只有“最合适”的指标。准确率、精确率、召回率、F1、AUC、AUPR 各有其适用边界,理解它们的定义、假设与局限,才能在实际项目中做出合理判断。
今天缩量,上方压力依然在,外围还在升级,企稳还需要时日。芯片(半导体)• 涨停家数:24家(当日最强方向)。• 驱动逻辑:美国对华芯片技术限制加码,国产替代政策加速落地,叠加AI算力、消费电子需求回暖。外贸(跨境电商/港口物流)• 涨停家数:15家(次强方向)。• 驱动逻辑:外贸政策扶持(如出口退税优化)、全球供应链重构,资金博弈出口链修复预期。石英材料(半导体/光伏上游)• 涨停家数:6家。•
图像分类是计算机视觉的核心任务,广泛应用于自动驾驶、医疗影像分析和人脸识别等领域。深度学习,特别是卷积神经网络(CNN),极大推动了这一技术的发展。2012年,AlexNet在ImageNet挑战赛中大幅降低分类错误率,标志着深度学习时代的开端。此后,模型架构从 ResNet 进化到 VisionTransformer(ViT),性能不断提升。到2025年,硬件算力增强和PyTorch 2.x 等
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模
本项目基于YOLOv10目标检测算法开发了一套高精度的扑克牌识别检测系统,能够准确识别和定位52种标准扑克牌(包括13个点数×4种花色)。系统在包含24,233张图像的数据集上进行了训练和验证,其中训练集21,203张,验证集2,020张,测试集1,010张。该系统可实时检测扑克牌的种类、位置和数量,可广泛应用于赌场监控、扑克游戏自动计分、魔术教学分析、智能机器人抓取等多个领域,具有重要的实用价值
本项目基于YOLOv10目标检测算法,开发了一套专门针对Apex Legends(Apex英雄)游戏中人物与物体的识别检测系统。系统通过对游戏画面进行实时分析,能够准确识别游戏中的玩家角色(avatar)和各种游戏物体(object),为游戏AI开发、战术分析、辅助工具制作等应用场景提供技术支持。项目使用自定义收集的Apex游戏数据集进行训练和验证,包含训练集2583张、验证集691张和测试集41
脑肿瘤检测是医学影像学领域的重要研究方向,早期准确诊断对患者治疗和预后至关重要。随着人工智能技术的发展,基于深度学习的脑肿瘤检测算法已成为辅助医生诊断的重要工具。本数据集为脑肿瘤检测算法的训练和评估提供了高质量的医学影像资源,包含大量经过分类标注的脑部CT或MRI图像,对推动脑肿瘤自动化检测技术的发展具有重要意义。本数据集完整构成包括原始医学图像文件和对应的分类标注信息。
由此我们实现了TFLite——从训练一个超轻量化模型开始,到部署到Android中,实现了一个图像分类功能,作为TFLite的入门学习,这有助于加深Android开发者使用TFLite在移动端实现AI功能的理解。作者:练泽宇TFLite——从模型训练到部署,实现Android图像分类功能。
本项目基于最先进的YOLOv10目标检测算法,开发了一套高精度的船舶分类识别检测系统,能够准确识别并分类五大类船舶:集装箱船(Container Ship)、邮轮(Cruise Ship)、军用舰艇(Military Ship)、滚装船(RORO)和油轮(Tanker)。系统采用包含3,721张高质量船舶图像的专业数据集进行训练和评估,其中训练集3,232张,验证集339张,测试集150张。该系统
LightGBM在医疗不平衡分类中的应用,远不止于算法优化——它是医疗AI从"技术驱动"转向"价值驱动"的里程碑。2026年的医疗AI,不应是"技术最优解"的胜利,而应是"人类福祉最大化"的实践。在数据海洋中,我们不仅要寻找疾病的踪迹,更要确保每一道算法的光芒,都能照亮所有患者的未来。这不仅是技术问题,更是对"生命权"的重新定义——而LightGBM,正站在这个十字路口的最前端。图1:典型医疗数据
本文探讨了共享出行领域拼车匹配系统的并发测试策略。针对高峰期高并发请求导致的系统崩溃风险,文章从测试从业者视角提出全生命周期测试方案,包括负载测试、压力测试等核心方法,并推荐JMeter、LoadRunner等工具实现高效测试。同时分析了数据一致性、资源竞争等挑战的解决方案,强调测试左移和自动化回归的重要性。最后指出AI预测和云原生测试将成为未来趋势,为测试团队提供构建韧性系统的实践指南。
随着语言模型(LM)的广泛应用,检测用户输入和语言模型生成输出中的不当内容变得越来越重要。每当主要模型提供商发布新模型时,人们首先尝试做的事情之一就是寻找方法来“越狱”或以其他方式操控模型,使其做出不该做出的回应。通过 Google 或 X 快速搜索,可以看到许多人找到绕过模型对齐调优的方法,使得模型回应不当的请求。此外,许多公司已经公开发布了基于生成性 AI 的聊天机器人,用于客户服务等任务,这
本项目基于YOLOv10目标检测算法开发了一套专门用于水下生物识别的智能检测系统,旨在实现对五种常见水下生物(海胆、海参、扇贝、海星和水草)的自动识别与定位。系统采用改进的YOLOv10模型架构,针对水下环境的特殊性进行了优化调整,在自构建的数据集上取得了优异的检测性能。该数据集包含7600张高质量标注图像,其中训练集5320张、验证集1520张、测试集760张,涵盖了各种水下场景和光照条件。本项
本次实战使用的是Kaggle精简版猫狗图像分类数据集,与经典的25000张大型数据集不同,该数据集经过筛选后包含697张标注图片(猫349张,狗348张),分为训练集和测试集两个子目录,标签通过文件夹名隐式标注( train 目录下为猫、 test 目录下为狗,实际实战中也可按文件名标注,如 cat_001.jpg / dog_001.jpg )置信度优化:将猫的置信度改为 1-pred ,狗的置
本文介绍了一个基于Python与AI大模型的新闻自动分类系统研究项目。该项目针对互联网新闻信息爆炸问题,利用Python和AI大模型(如BERT、GPT等)实现高效新闻分类。研究内容包括数据采集与预处理、模型选择与优化、系统开发等,创新点在于跨模型融合和动态标签扩展。预期成果包括构建10万+样本数据集、提升分类准确率5%-10%,并开发响应时间<1秒的Python原型系统。项目适用于媒体监控
根据2024年《自然·医学》最新研究,超过65%的医疗AI项目因数据隐私合规要求导致模型训练数据减少30%以上,直接降低诊断准确率5-8%。图1:不同隐私保护强度下,医疗AI模型关键指标变化趋势(数据来源:2024年全球医疗数据科学白皮书)。:医疗机构应建立隐私-性能平衡评估框架(参考附录流程图),数据科学家需掌握隐私增强计算(PEC)技能,政策制定者应推动“隐私-性能”双目标法规。然而,2024
文章介绍了智能体开发的三大核心概念:单智能体系统(SAS)、多智能体系统(MAS)和工作流。SAS虽功能全面但存在性能和幻觉问题;MAS通过任务拆解和智能体协作提高效率,但面临通讯挑战;工作流负责串联智能体并解决通讯问题。这些技术无优劣之分,可根据业务场景选择或结合使用,为智能体开发提供多样化解决方案。
可以使用文本对分类模型实现许多有趣的功能。这项技术仍然相当年轻,因此其应用尚未得到很好的探索。我们拥有对单一文本进行分类的良好技术已经有一段时间了——但准确建模文本之间关系的能力是相当新的。我期待看到人们用此构建什么。与此同时,我们正在开发一个交互式演示,以探索在某平台数据集和 SNLI 语料库上训练的不同模型。更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 h
搭建跨模态检索系统时,有两个难题:一是处理图文混合候选集时,token数量爆炸导致GPU直接内存溢出;二是用RL训练模型时,要么收敛不了,要么推理过程漏洞百出,检索准确率始终上不去。直到看到这篇 NeurIPS 2025 的 Retrv-R1 论文,才发现原来不用复杂架构,只要针对性解决“信息冗余”和“训练不稳定”两个核心痛点,就能让多模态检索的准确率和效率同时突破瓶颈——这篇研究给出了新的技术方
Transformer 是 2017 年由 Google 团队在论文《Attention Is All You Need》中提出的深度学习架构,核心用于序列建模任务(如文本、语音、时序数据),其革命性创新在于完全基于 “自注意力机制”(Self-Attention), 替代了传统 RNN/LSTM 的串行依赖结构,彻底改变了自然语言处理(NLP)领域,并逐步渗透到计算机视觉(CV)、语音识别、多模
然而,NLP数据集常伴随文本标注更新、样本增删、预处理规则调整等变化,传统的文件命名(如data_v1.txt)或Git管理方式,要么无法追溯变更细节,要么因数据集体积过大导致Git仓库臃肿。1. 标注流程整合:将标注工具(如LabelStudio)的输出目录纳入DVC追踪,标注完成后直接 dvc commit 生成新版本,实现“标注-版本-训练”的无缝衔接。2. 版本关联:可将数据集版本与代码版
分类:监督(带标签)、无监督(无标签)、半监督(少量标签+大量无标签)、强化(交互试错)。学派:符号(逻辑规则)、贝叶斯(概率推理)、类推(相似度类比)、联结(神经网络)、进化(生物优化)。关键价值:理解这些方法和学派,能精准匹配实际问题(如用监督学习预测房价,用联结学派做图像识别),避免“用错工具”。
diffusion-based adversarial perturbation(你提到的这篇文章)针对多模态模型(如 GPT-4V、LLaVA),在图像中嵌入对抗扰动,使模型误解图像或执行越狱。构造精巧 prompt(prompt-level adversarial examples)多个模态(图像 + 文本)协同制造攻击样本,使 LLM 产生错误或违规回答。模型行为中毒(behavioural
AI Agent分类详解与对比
知源-AI数据分类分级系统”已在实际政务场景中实现高效落地,助力某市人社局在三个月内将数据识别效率提升10倍,分类准确率达到98%,真正实现了“数据可管、安全可控、价值可释”,为政务数据的安全流通与高效应用奠定了坚实基础。这些痛点不仅制约数据价值释放,也加大了政务数据的安全风险与合规压力。展望未来,将继续深化AI与政务场景的融合,推动数据分类分级向“更智能、更合规、更易用”方向演进,助力政务行业在
摘要 本项目基于BERT+PyTorch实现小样本邮件分类,针对"每类仅10条标注样本"的场景,通过预训练模型微调达到83%准确率。实验使用自定义3类邮件数据集(工作/垃圾/私人邮件),采用轻量微调策略(冻结大部分BERT层、小学习率)和GPU混合精度训练优化效率。完整复现指南包含云平台与本地配置方案,核心代码仅需PyTorch、Transformers等基础库。项目验证了小样
例如,“苹果公司”在文本中被表述为“苹果”“Apple”“苹果科技”,若100组关联文本中80组统一为“苹果公司”,一致性率为80%,需通过实体链接技术检测。例如,“产品价格”字段标注“99元”,但文本描述“售价199元”,1000条数据中20条存在此类冲突,冲突率为2%,适用于电商商品信息、合同条款等场景。算法标注“正确文本”中经人工复核确认为正确的比例。先定义“业务核心文本字段”(如电商的“商
SFT已成为VLA模型事实上的训练后策略,但其对高成本人类演示数据的依赖限制了模型的可扩展性与泛化能力。本文提出“Probe, Learn, Distill,PLD”框架——这是一种三阶段即插即用框架,通过残差RL和分布感知的数据收集来改进VLA模型。
在 AI 技术飞速发展的今天,LLM 驱动的智能体通信已成为推动智能化进程的关键力量。然而,其背后的安全风险不容忽视。本文将深入探讨智能体通信的协议、安全挑战与防御策略,为构建安全可靠的 AI 生态系统提供思路与方向
语言大模型(NLP):是指在自然语言处理(Natural Language Processing,NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模语料库上进行了训练,以学习自然语言的各种语法、语义和语境规则。例如:GPT系列(OpenAI)、Bard(Google)、文心一言(百度)。
检索增强生成(RAG)因为能够有效控制大模型幻觉问题已成为当前LLM应用最热门的技术模式,利用一些编排框架可以快速构建一个知识问答类的原型应用。然而,令人沮丧的是,即使使用了RAG,构建了可信的知识库,但大模型仍然会因为上下文不准确,错乱,不完整等原因给出错误的答案。这些“幻觉”和不可靠性问题,正是阻碍当下AI应用难以真正上生产的拦路虎问题。
大语言模型Embedding技术演进:检索、分类与RAG的三步曲 摘要:本文探讨了大语言模型(LLM)文本编码(embedding)的核心技术路线演进。从最基础的预训练模型直接使用,到针对特定任务微调编码头,再到专门为RAG问答场景优化的bi-encoder架构,三种方式各具优势:原生LLM embedding适合快速验证;对比学习微调能显著提升分类和语义相似度任务效果;而RAG专用编码则实现了知
分类
——分类
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net