
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
背景信用卡欺诈数据,这是个提取好特征的数据用逻辑回归来进行建模数据全部都是数值型的数据,28万左右样本,28个可用的特征,特征整体看上去都在一个量纲内Amount特征浮动比较大,需要预处理进行规范化对class进行分类,0:1=284315:492.分布极度不均衡,需要进行处理对于这种去发现欺诈数据,医疗数据中去发现得病的类别,这类数据的负样本通常比较少,都存在样本分布极度...
需求:dataframe中两列需要合并成一列,字符串并用“—”连接解决:df["ydate"] =df["y"].map(str) +"-"+ df["date"].map(str)如果是两列数值相加,则直接两列相加即可df["add"] =df["a"] + df["b"]
reset_index:可以保留多级索引信息,将其转换为普通列,同时能通过设置 drop=True 只保留原数据索引,从而正确赋值给 df 的新列。values:直接将计算结果转换为 NumPy 数组,丢弃所有索引信息,当原 DataFrame 索引是默认整数索引且顺序一致时,可直接赋值给新列。通过差分操作,可以消除数据中的季节性波动和周期性变化,从而更清晰地观察到潜在的长期趋势。—— 值越小越好
1.将dataframe中所有的np.nan转为Nonedf = df.where(df.notna(), None)2.使用lambda及判断对dataframe中列按照条件改造df['enb_name'] = df['enb_name'].apply(lambda x: x==x if x is None else (x.replace(',', '-') if x.find(',') els
数据记录1948年~2016年每个月份的美国失业率情况显示中文在代码中加入from pylab import *mpl.rcParams['font.sans-serif']=['SimHei']报错:TypeError: only size-1 arrays can be converted to Python scalars给plt.bar函数传的参数y列表里面不是...
电脑:win10虚拟机:VMlinux环境:Ubuntu16linux下虚拟机:virtualbox客机:win xpUbuntu主机环境1.安装cuckoo依赖sudo apt-get install git mongodb libffi-dev build-essential python-django python python-dev python-pip python-pil pytho
项目架构业务模块,模块之间的关系项目干了个啥。
数据挖掘的知识1.python基础不够熟练,没有处理过很多不同业务的数据,也不知道要按照什么样的业务需求去处理才是合适的。2.数据处理完之后,分类回归都是调包一条龙分析。核心算法推导记不住,也没有自己的去看谁实现。(应该自己实现以下就不会忘了吧,写不出来)3.案例,不知道什么场景下能够用的到数据挖掘4.什么时候能够,自己想一个应用的场景,自己去收集数据,自己去分析,写一个完整的报告...