logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

NL2SQL调研

将用户的自然语言查询(NL)转换为 SQL 查询可以显著降低访问关系数据库的障碍,并支持各种商业应用。随着大语言模型(LLMs)的出现,NL2SQL 的性能得到了极大提高。在这种情况下,评估当前文本转 SQL 的转换、确定从业者针对特定场景应采用的 NL2SQL 解决方案以及确定研究人员接下来应探索的研究主题至关重要。

文章图片
#AIGC#数据分析
沐曦玩转 LMDeploy、XTuner 和 InternLM3

学习链接: https://aicarrier.feishu.cn/wiki/O84LwkiBriUU0NkDwurcSufhnVb。

文章图片
#AIGC
Google AI Studio使用1:创建Flink测试题APP

尝试体验了下,非常丝滑,在功能基本完善之后,还可以上传至自己的github仓库,实现版本管控,如果后续丰富功能,可以继续与它互动,生成的新版本,继续保存上传即可。最近学习Flink,为了快速掌握它,使用了Google AI Studio的build创建了一个APP,用于测试Flink的掌握程度。我的流程是这样的,使用Gemini 2.5 Pro帮我生成提示词。

文章图片
#flink#大数据#AIGC
Claude Code实践1:Obsidian-skills

Obsidian Skills是由Obsidian CEO开源的一个项目,旨在让AI(如Claude Code)学会操作Obsidian笔记软件。该项目通过提供"技能包"(MCP协议),使AI能够理解和生成符合Obsidian标准的文件格式,包括Markdown、.base文件和JSON Canvas。这解决了三个核心痛点:AI不懂Obsidian特有语法、复杂文件难以手动编写

文章图片
《大数据之路1》笔记1:总述和数据技术篇

OneData是数据整合及管理的方法体系和工具,在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不执行,充分发挥阿里巴巴在大数据海量、多样性的独特优势。从计算频率角度:数仓分为离线数仓和实时数仓从数据加工链路角度:ODS\DWD\DWS\ADS元数据模型整合及应用: 数据源元数据、数据仓库元数据、数据链路元数据、工具类元数据、数据质量类元数据等 元数据应

文章图片
#大数据
sql性能优化

本文摘要: 大数据性能优化主要从三个层面展开:数据源头、SQL语句和计算引擎。数据源头优化包括文件格式选择、数据压缩、分区和分桶策略。列式存储(如Parquet/ORC)比行式存储更高效,支持谓词下推和高效压缩技术(字典编码、RLE)。分区通过"分区裁剪"显著提升查询性能,但需避免过度分区导致的小文件问题。分桶可优化JOIN操作,通过预先哈希分桶避免Shuffle过程,实现&q

#sql#性能优化#c# +1
大模型上下文协议(MCP)技术

Model Context Protocol(MCP)是Anthropic提出的一项开放标准协议,旨在重构AI系统与外部数据、工具之间的连接方式,通过统一接口解决传统大语言模型(LLM)在实时数据访问、领域特化和系统集成中所遇到的知识局限、集成碎片化等问题1。从技术原理、应用场景、安全风险与隐私保护以及未来发展趋势四个方面进行系统论述,并结合丰富的实践案例与可视化图表,详细阐述MCP的架构设计、工

文章图片
#AIGC
机器学习2-决策树

将原始数据集进行筛选,分裂成子数据集(每次分几份,以什么条件分)对生成的子数据集不断分裂,直到停止(停止的条件是什么)利用最终生成的n份数据的共性来代表这个节点(如何用节点共性代表未来预测值?总结,决策树的生成说白了就是数据不断分裂的递归过程,每一次分裂,尽可能让类别一样的数据在树的一遍,当树的叶子节点的数据都是一类的时候,则停止分裂。基尼系数是国际上通用的、用来衡量一个国家或地区收入差距的常用指

文章图片
#机器学习#决策树#人工智能
机器学习4-PCA降维

在数据处理过程中,会碰到维度爆炸,维度灾难的情况,为了得到更精简更有价值的信息,我们需要进一步处理,用的方法就是降维。降维有两种方式:特征抽取、特征选择过滤式(打分机制):过滤,指的是通过某个阈值进行过滤,比如经常会看到但可能并不会去用的,根据方差、信息增益、互信息、相关系数、卡方检验、F检验来选择特征。(什么是互信息?在某个特定类别出现频率高,但其他类别出现频率比较低的词条与该类的互信息比较大。

文章图片
#机器学习#人工智能#深度学习
    共 13 条
  • 1
  • 2
  • 请选择