
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
转自:https://zhuanlan.zhihu.com/p/38440477数据分箱的重要性及优势:离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;逻辑回归属于广义线性模型,表达能力
转自:https://www.zhihu.com/question/310448033/answer/596576732作者:刘一刀链接:https://www.zhihu.com/question/310448033/answer/596576732来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。机器学习里只不过是换了名字,l1正则化和l2正则化实际上就是套索回归和
用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大...
https://www.ricequant.com/community/topic/4271/ 一般的数据预处理中常提及到三类处理:去极值、标准化、中性化。这几个词想必大家都不陌生,也许存在疑问或有自己的一番见解,本文将先对前两个进行解释和总结,欢迎讨论和指正~一、离群值处理 因为过大或过小的数据可能会影响到分析结果,尤其是在做回归的时候,我们需要对那些离群值进行处理。实际上离群值和极值是有
https://www.ricequant.com/community/topic/4584/在量化交易中,多因子策略是一种常被提及且应用广泛的选股策略。我们会经常使用某种指标或者多种指标来对股票池进行筛选,这些用于选股的指标一般被称为因子。顾名思义,多因子模型是指使用多个因子,综合考量各因素而建立的选股模型,其假设股票收益率能被一组共同因子和个股特异因素所解释。 多因子模型的优点在
from:http://blog.sina.com.cn/s/blog_ad0672d60102x0sk.html1.TWAPTWAP(Time Weighted Average Price),时间加权平均价格算法,是一种最简单的传统算法交易策略,主要适用于流动性较好的市场和订单规模较小的交易。该模型将交易时间进行均匀分割,并在每个分割节点上等量拆分订单进行提交。例如,可以将某个交...
https://www.ricequant.com/community/topic/4559在多因子量化投资体系中,具有稳定的预期收益,可解释的经济驱动理论,与其他因子的低相关性是选择alpha因子的关键指标。本篇文章中,我们以此为因子选取标准,简单地构建了自己的因子库,总共包括八个大类因子,每个大类因子中包含四到五个子类细分因子。为了比较不同的权重优化方法的优劣,本文首先采取不同的方法对各个大类
转载自:https://www.ricequant.com/community/topic/4309/在上一个帖子中,我们总结了离群值处理和标准化,而本文将解释何为中性化以及其它的一些“中性化”定义。同样的,欢迎大家补充和讨论!!(接上帖)中性化当我们提及中性化时,我们往往是希望剔除待使用数据中那些多余的风险暴露。这些数据根据不同的应用场景会有不同类型,比如...
机器学习方法本质上是人类认知方式的新世界,是人类的未来。工业革命解放了人类的体力,以机器学习技术逐步解锁的人工智能革命将解放人类的脑力。这不是技术层面上的进步,而是从根本上改变人类认知世界的方式。长久以来,人类对事物的认知经由三个步骤:原始数据——专业知识/经验常识——认知。这里的原始数据指得是可被人类感知到的一切客观存在之总体,既包括理工范畴内的计量数据,亦包括文史范畴内的事件与现象。面对同样的
http://sanwen.net/a/csioaoo.html在移动银行,熟练的聊天机器人或搜索引擎出现之前,机器学习在金融领域就有广泛应用。由于交易量比较大,交易历史数据精确完备,以及金融领域的量化分析特点,金融领域是比较适合人工智能技术应用的领域。现在,金融领域出现了很多机器学习的应用场景,这主要是由计算能力的提高以及机器学习技术方法的普及推动的(比如谷歌的Tensorf