简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
假如我们想要用 openai api 对一个段文本进行总结,我们通常的做法就是直接发给 api 让他总结。但是如果文本超过了 api 最大的 token 限制就会报错。这时,我们一般会进行对文章进行分段,比如通过 tiktoken 计算并分割,然后将各段发送给 api 进行总结,最后将各段的总结再进行一个全部的总结。LangChain 很好的帮我们处理了这个过程,使得我们编写代码变的非常简单。#
俗话说“工欲善其事,必先利其器”,真的一点没错,用对工具,你的幸福指数会立马提升。我平时主要的工作是看数据、撸代码、写博文,这三样事情都得靠电脑完成,几乎占据了我90%的时间,因此用一些提升效率的小工具非常有必要。这些小工具既包括客户端软件、APP,也有网站、插件等,给我的工作带来了很大的帮助。喜欢文末加入我们的技术讨论会。这是我记笔记、整理资料的主要文档工具,可以算作第二大脑。Notion是一款
关于如果用pandas库来实现数据集之间合并的文章其实说少也不算少,不过我总是感觉写的算不上完善,尤其针对Python初学者来说,所以今天打算来整理与总结一下,内容较多建议收藏,喜欢点赞支持,文末提供技术交流群。本文大概的结构是concat()方法的简单介绍append()方法的简单介绍merge()方法的简单介绍join()方法的简单介绍多重行索引的合并介绍表格合并之后的列名重命名combine
一谈到Web页面,可能大家首先想到就是HTML,CSS或JavaScript。本文中我就给大家介绍一下如何用Python制作一个数据可视化网页,使用到的是Streamlit库。轻松的将一个Excel数据文件转换为一个Web页面,提供给所有人在线查看。每当你对Excel文件进行更改保存,Web页面还能够实时进行更新,确实挺不错的。Streamlit的文档和教程地址如下。https://docs.st
在诸多数据问题中,我们不可避免会碰到数据出现缺失的情况,可能是因为记录数据时候的失误,也有可能是数据本身就没有(例如一些资料用户没有填充,或者股票停牌了,那么那天的交易记录就是为空的)。对于这些缺失值的处理对于模型最终的预测可能起到至关重要的作用,因为缺失的数据会导致:数据集失真:大量缺失的数据可能导致变量分布失真,可能增加或减少数据集中特定类别的值。影响最终模型的训练预测:缺失的数据会导致数据集
大家好,Pandas 是 Python 中最频繁、最受欢迎使用的模块之一,本文我将对 pandas 常用操作进行总结。内容主要涉及:读取数据和保存数据、数据详情信息、数据处理、数据切片、筛选、排序、分组、统计、表格样式等几部分内容,喜欢本文记得收藏、关注、点赞。1. 导入模块import pandas as pdimport numpy as np2. 读取数据和保存数据2.1 从CSV文件读取数
TransBigData是一个为交通时空大数据处理、分析和可视化而开发的Python包。TransBigData为处理常见的交通时空大数据(如出租车GPS数据、共享单车数据和公交车GPS数据等)提供了快速而简洁的方法。TransBigData为交通时空大数据分析的各个阶段提供了多种处理方法,代码简洁、高效、灵活、易用,可以用简洁的代码实现复杂的数据任务。
Python 是一种极其多样化和强大的编程语言!当需要解决一个问题时,它有着不同的方法。在本文中,将会展示列表解析式(List Comprehension)。我们将讨论如何使用它?什么时候该或不该使用它?喜欢本文记得收藏、关注、点赞。注:完整代码、数据、技术交流文末获取列表解析式的优势比循环更节省时间和空间。需要更少的代码行。可将迭代语句转换为公式。如何在 Python 中创建列表列表解析式是一种
特征工程是使用专业背景知识和技巧处理数据,使得特征值(自变量)能在机器学习算法上发挥更好的作用的过程。python的sklearn库,对于特征工程的处理提供了强大的接口。在本文中,我将详细介绍特征工程相关内容,喜欢记得收藏、关注、点赞。【注】完整代码、数据、技术交流,文末见内容目录特征抽取/提取:将任意数据(文本、图像等)转化为可以用作机器学习的数字特征。文本类型–>数值型;分类型数据(字符
本文将介绍在时间序列预测相关问题中常见的异常检测算法,可以很大程度上帮助改善最终预测效果。喜欢记得收藏、关注、点赞。注:完整版代码、数据、技术交流,文末获取异常分类时间序列的异常检测问题通常表示为相对于某些标准信号或常见信号的离群点。虽然有很多的异常类型,但是我们只关注业务角度中最重要的类型,比如意外的峰值、下降、趋势变化以及等级转换(level shifts)。常见的异常有如下几种:革新性异常: