VinkinTsang 个人主页

@zwqjoy

VinkinTsang

2022-11-25 17:30:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

[数据处理] Pandas利用groupby拆分csv

关键步骤：1、利用pandas的pd.read_csv读取csv内容到pandas dataframe结构里；2、利用groupby按共同元素聚合；3、提取groupby后的dataframe对象信息并输出。df=pd.read_csv(pathDir+"//"+"xx.csv",sep=",",engine='python',header=0)grouped=df.groupby(by="app

[数据结构]Python Heapq库--小顶堆

一、heapq库简介heapq 库是Python标准库之一，提供了构建小顶堆的方法和一些对小顶堆的基本操作方法(如入堆，出堆等)，可以用于实现堆排序算法。堆是一种基本的数据结构，堆的结构是一棵完全二叉树，并且满足堆积的性质：每个节点(叶节点除外)的值都大于等于(或都小于等于)它的子节点。堆结构分为大顶堆和小顶堆，在heapq中使用的是小顶堆：1. 大顶堆：每个节点(叶节点除外)的值都大于等于其子节

#数据结构

[LLM]大模型八股知识点(六)

💡提示学习（Prompting）是一种在机器学习中使用人类编写的提示或示例来辅助模型进行学习和推理的技术。在自然语言处理任务中，提示通常是一段文字或问题，用于指导模型生成或理解特定的输出。提示学习可以用于各种自然语言处理任务，包括文本分类、命名实体识别、情感分析、机器翻译等。在这些任务中，模型需要根据输入的文本来进行预测或生成输出。通过提供明确的提示，可以引导模型关注特定的信息或完成特定的任务。

#人工智能 #深度学习

[图神经网络] 图节点Node表示---GCN

一. 概括图神经网络已经成为深度学习领域最炽手可热的方向之一。GCN具体思想的核心是通过拉普拉斯矩阵可以对图信息进行特征分解的特点把该公式定义为图卷积操作，同时图卷积的出现也填补了神经网络获取拓扑图类型特征的空白。提取拓扑图空间特征的两种方式：(1) vertex domain(2) 频谱方法（Spectral Method）这种思路就是希望借助图谱的理论来实现拓扑图上的卷积操作。图谱理论简单的概

[LLM] 自然语言处理 --- 1.Attention

目录Attention简介Encoder-Decoder框架Attention模型Attention 的优点Attention 不同类型1. 计算区域2. 所用信息3. 结构层次4. 模型方面5. 相似度计算方式Attention详细介绍Soft Attention 模型图解Attention机制第一步：准备隐藏状态第二步：获取每个编...

#自然语言处理

[Spark]PySpark入门学习教程---RDD介绍(2)

一 RDDpyspark.RDD：http://spark.apache.org/docs/latest/api/python/reference/api/pyspark.RDD.html#pyspark.RDD本节将介绍RDD数据结构的常用函数。包括如下内容:创建RDD常用Action操作常用Transformation操作常用PairRDD的转换操作缓存操作共享变量分区操作这些函数中，常用的是

#hadoop #spark #big data

[LLM]大模型八股知识点(一)

LLM（Large Language Model，大型语言模型）是指基于大规模数据和参数量的语言模型。具体的架构可以有多种选择，以下是一种常见的大模型LLM的架构介绍：Transformer架构：大模型LLM常使用Transformer架构，它是一种基于自注意力机制的序列模型。Transformer架构由多个编码器层和解码器层组成，每个层都包含多头自注意力机制和前馈神经网络。这种架构可以捕捉长距离

#人工智能 #深度学习

[NLP]如何训练自己的大型语言模型

大型语言模型，如OpenAI的GPT-4或谷歌的PaLM，已经在人工智能领域掀起了一场风暴。然而，大多数公司目前没有能力训练这些模型，而且完全依赖少数几家大型科技公司作为技术提供者。在Replit，我们已经大量投资于所需的基础设施，以从头开始训练我们自己的大型语言模型。在这篇博文中，我们将概述我们如何训练LLM，从原始数据到面向用户的生产环境中的部署。

#自然语言处理 #语言模型 #人工智能

[机器学习] PMML实现模型上线

机器学习在用于产品的时候，经常会遇到跨平台的问题。比如用Python基于一系列的机器学习库训练了一个模型，但是有时候其他的产品和项目想把这个模型集成进去，但是这些产品很多只支持某些特定的生产环境比如Java，为了上一个机器学习模型去大动干戈修改环境配置很不划算，此时我们就可以考虑用预测模型标记语言(Predictive Model Markup Language,以下简称PMML)来实现跨平台的机

#机器学习

[机器学习]理解熵，交叉熵和交叉熵的应用

自信息"你对结果感到惊讶的程度"一个低概率的结果与一个高概率的结果相比，低概率的结果带来的信息量更大。现在，如果yi是第i个结果的概率，那么我们可以把自信息s表示为:熵现在我知道一个事件产生某个结果的自信息，我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率，所以用概率作为权重是有意义的，因为这是每个结果...

共 201 条

请选择