黑客思维者个人主页

@weixin_38526314

黑客思维者

数字化与人工智能的 “实验场” 与 “瞭望台”

2024-04-03 12:59:08 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

机器学习063:深度学习【模型框架】PyTorch：创造智能的“万能工具箱”

PyTorch是一个以灵活、直观的动态计算图为核心的深度学习框架，专为研究和快速原型设计而生。它提供张量计算、自动微分和模块化神经网络组件，让开发者能高效构建和训练CNN、RNN、Transformer等模型。虽然PyTorch在学术研究和快速迭代中表现优异，但在移动端部署和极致性能优化方面存在一定局限。它广泛应用于图像分类、语音识别等AI场景，是深度学习入门和创新的理想工具。

#机器学习 #深度学习 #pytorch +2

招商银行信用卡业务部的客服AI应用记录

招商银行信用卡客服AI系统开发全流程解析：从业务理解到部署上线，涵盖50+主意图、200+子意图的金融级智能客服方案。通过BERT微调实现95%意图识别准确率，结合规则引擎与强化学习管理多轮对话，对接核心银行系统保障数据安全。系统采用容器化部署，支持千万级并发，每月迭代优化模型与知识库，最终实现80%常见业务自动化处理，显著降低人工客服压力。

#人工智能 #dubbo

AI 大语言模型LLM局限性评估

如果不在，会说“无法确定”。有人在和GPT-4的对话中提到“我有高血压，正在吃缬沙坦（一种降压药）”，后来聊无关话题（如“推荐旅游景点”）时，模型突然说“你有高血压，旅游时记得带缬沙坦”——这说明模型记住了之前的隐私信息，没有及时“忘记”。患者起诉后，法院判决“医院承担30%责任（未人工复核），AI开发商承担45%责任（模型错误率超标），医生承担25%责任（轻信AI结果）”，同时要求开发商建立“错

#人工智能 #语言模型 #自然语言处理

BERT 双向编码器架构在自然语言处理领域的潜力与优势分析

BERT（Bidirectional Encoder Representations from Transformers）是 Google 于 2018 年提出的双向编码器架构，彻底变革了自然语言处理（NLP）领域。本文深入分析了 BERT 在核心 NLP 任务中的学术潜力与核心优势。BERT 通过创新的，能够同时利用左右上下文信息学习语言表示。实验数据证明，BERT 在中取得了突破性成果：将 G

#自然语言处理 #bert #架构

2025年Chat GPT 高频数据分析提示词集合（中文版）：角色扮演与概念解释 + 数据获取与生成 + 数据清洗与预处理 + 数据分析与商业洞察 + 数据可视化 + 机器学习与建模 + 代码辅助

本文整理了ChatGPT在数据分析领域的8大类高频提示词（截至2025年11月），包含87个具体提示模板。核心功能包括：角色扮演（统计学家、SQL终端等）、数据生成与获取、数据清洗预处理（18种操作）、特征工程、商业分析（KPI/SWOT）、可视化实现以及机器学习建模（自动ML、超参数调优等）。特别提供了32个代码辅助提示，涵盖Python数据处理全流程，可作为数据分析师的高效工作指南。

#信息可视化 #数据分析 #ChatGPT

LangChain系列 3：提示词工程最佳实践

首先创建一组问答样例，明确任务的输入输出格式：python# 定义示例集（问答对）"question": "什么是蝙蝠侠？","answer": "蝙蝠侠是DC漫画中的超级英雄，真实身份是布鲁斯·韦恩，没有超能力，依靠科技和格斗技巧打击犯罪。},"question": "蜘蛛侠的超能力来自哪里？","answer": "蜘蛛侠的超能力来自被放射性蜘蛛咬伤，获得了蜘蛛般的敏捷、力量和感知能力。Lon

LLM底层原理学习笔记：上下文窗口扩展技术如何突破记忆瓶颈，解锁大模型的长文本理解力

本文探讨了大型语言模型（LLMs）上下文窗口扩展技术及其应用。传统Transformer模型受限于4K-8K的Token处理能力，难以应对长篇文档。通过位置编码外推（如RoPE和ALiBi）和稀疏注意力机制，研究者成功将处理长度提升至数万甚至十万Token级别。这些技术解决了二次计算复杂度和位置编码失效问题，使模型能准确理解长文本中的位置关系。在专业领域如法律合同分析和技术文档处理中，扩展后的模型

#学习

为什么大模型训练需要混合精度(FP16/FP32)技术？

混合精度训练（FP16/FP32）是大模型训练的"救星"，通过分工协作解决速度、内存和精度的三角难题。FP16节省一半显存，使GPU能训练更大模型；FP32则确保关键梯度计算的精度，避免训练崩溃。这种组合既能提升2.5倍训练速度，又保持与纯FP32相当的精度。其本质是通过FP16处理快速计算，FP32把关关键数据，实现"又快又省"的大模型训练，显著降低硬件成

#人工智能

深入浅出理解大语言模型(LLM)的核心技术原理与实践应用

文档摘要：1000字的技术文章→200字要点，比如输入一篇关于“LLM幻觉问题”的文章，摘要会包括“幻觉定义、原因、解决方法、行业影响”。会议录音转摘要：将1小时的会议录音（转文字后）浓缩为500字摘要，标注“决策事项、待办任务、责任人”。新闻摘要：输入一篇5000字的深度报道，模型能提炼出“事件起因、经过、结果、各方观点”。Transformer架构：是LLM的“骨架”——通过自注意力机制实现并

#语言模型 #人工智能 #自然语言处理

为什么大模型画中文总乱码，底层原理是什么？

摘要：中文AI生成图像时常出现文字乱码，如“减”字少笔画、“株”字结构错乱，甚至误解“红烧狮子头”为猛兽头颅。核心原因在于：1）训练数据中英文占比超90%，中文不足5%，模型缺乏足够学习样本；2）中文结构复杂，需精确处理偏旁部首与笔画，远超英文字母组合难度；3）模型架构将中文视为“纹理”而非独立符号，忽略细节差异。应用场景如电商海报、绘本设计等乱码频发，影响实用性。优化建议包括中英文混合提示、放

#人工智能

共 171 条

请选择