顶晚人个人主页

@qq_34333481

顶晚人

2022-12-19 11:02:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Dify笔记

Dify工作流的核心组件包括变量和节点。变量分为用户变量、系统变量、环境变量和节点输出变量，用于节点间数据传递。节点包括开始节点、LLM节点、知识检索节点、结束节点、Agent节点、问题分类器和条件分支节点。LLM节点支持多模态输入输出和结构化输出，可通过提示词优化模型响应。知识检索节点从知识库中检索相关内容作为LLM上下文。工作流通过节点组合实现复杂业务逻辑，最终由结束节点输出结果。

Dify笔记

TF-IDF存在的问题及其改进

一、问题在本质上IDF是一种试图抑制噪音的加权，并且单纯地认为文本频率小的单词就越重要，文本频率大的单词就越无用。这对于大部分文本信息，并不是完全正确的。IDF的简单结构并不能使提取的关键词，十分有效地反映单词的重要程度和特征词的分布情况，使其无法很好地完成对权值调整的功能。尤其是在同类语料库中，这一方法有很大弊端，往往一些同类文本的关键词被掩盖。例如：语料库D中教育类文章偏多..

pandas 读取csv 按行读取

import pandas as pdcsvfile = open('text.csv',encoding='utf-8')df = pd.read_csv(csvfile,engine='python')# 按行读取保存到字典里，假设每行有三个字段，item_id,info,titledict_item_id = {}dict_info = {}dict_title = {}di...

云模型（Cloud Model）

一、基本概念云模型是由中国工程院院士李德毅在1995年提出的概念，是处理定性概念与定量描述的不确定转换模型。已经成功应用到自然语言处理处理，数据挖掘，决策分析，智能控制，图像处理等领域。看一下百度的定义：嗯，乱七八糟，我也看不懂。不过没关系，了解大概的概念就好。整个模型叫云，每个小的数据，也就是每个发生在系统中的事件，叫做云滴。看他的数字特征。 ...

相似度计算之Jaccard系数

Jaccard相似系数定义给定两个集合A,B，Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值，定义如下：当集合A，B都为空时，J(A,B)定义为1。与Jaccard 系数相关的指标叫做Jaccard 距离，用于描述集合之间的不相似度。Jaccard 距离越大，样本相似度越低。公式定义如下：其中对参差（symmetric difference）...

IOError: [Errno 32] Broken pipe 错误分析

一、概述Broken pipe 本质是 IOError 错误，是 Linux 系统层面的机制导致，一般发生在读写文件IO和网络Socket IO的时候。对应的 Linux 系统错误是 EPIPE，摘自【参考2】的一段话：'''Macro: int EPIPE “Broken pipe.”There is no process reading from the other end...

LDA(二) 文本聚类

一、算法原理：使用Kmeans进行聚类二、算法流程：1. 对给定的语料先分词，得到分词后的语料；2. 构造词典，corpus_tfidf, 最后构造 corpus_lda3. Kmeans聚类，pred 是对语料的聚类结果列表。pred = kmean.predict(tfidf_vec)#!/usr/bin/python# -*- coding:utf8 -*-...

解决 UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Win

1. 原因：windows自身的问题。Some algorithms in Gensim (mostly the distributed/parallelized versions) call a function called chunkize, which splits an input stream of records into batches. It works in a strea..

到底了