求职清单！AI商业落地企业Top100；『数据科学：理论、模型、算法与分析』电子书；超快多线程DataFrame 8K★；前沿论文 | ShowMeAI资讯日报

Python粤语NLP库、hologram 跨平台图像查看器、ModelFun [开源]一站式标注平台、MATE 用代码属性图寻找C/ C++代码错误、Polars 超快多线程DataFrame、k8s教程、『数据科学：理论、模型、算法与分析』电子书、深度学习单细胞分析相关文献、开放语音数据集大列表、前沿论文…点击获取全部资讯

ShowMeAI

10513人浏览 · 2022-09-15 13:31:56

ShowMeAI · 2022-09-15 13:31:56 发布

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 亿欧智库 ·『2022中国AI商业落地研究报告』与『TOP100企业』发布

亿欧在2022世界人工智能大会『AI商业落地论坛』上发布《2022中国AI商业落地研究报告》及《2022中国AI商业落地TOP100企业榜单》，从政策支持、技术发展、产业融合、投融资市场等角度出发，结合国内外竞争格局变化，解析2022年中国人工智能产业背景。

从产业应用上看，AI 已经广泛应用到了金融、智慧城市、制造、交通、医疗等各个领域。尤其是随着数字经济的发展，在产业数字化、智能化转型的过程中，AI在传统行业中的参与度会逐渐提升，这也为AI的应用打开了更大的空间。

基于上述AI的发展趋势，可以看到人工智能已经进入了『市场买单』的阶段。亿欧智库今年也设立了新的榜单研究纬度，从价值、效率与服务、安全、业务拓展与场景实践能力等4各方面，对中国人工智能企业进行研究，并输出2022中国AI商业落地TOP100榜单。

工具&框架

🚧 『PyCantonese』Python粤语NLP库

https://github.com/jacksonllee/pycantonese

https://pycantonese.org/

PyCantonese 是一个用于粤语语言学和自然语言处理（NLP）的 Python 库，支持的功能包括：语料库数据、解析和转换工具、解析粤语文本、停用词、分词、词性标注。

🚧 『hologram』跨平台终端图像查看器

https://github.com/edluffy/hologram.nvim

hologram 是 Neovim 的一个跨平台终端图像查看器，可扩展且速度快，用 Lua 和 C 语言编写。它可以在 macOS 和 Linux 上工作，目前支持 Kitty 图形协议。

🚧 『ModelFun』一站式自动化开源标注平台

https://github.com/CLUEbenchmark/modelfun

https://www.modelfun.cn/doc

ModelFun Flow 数据自动化标注流程。通过构建标注规则，并训练投票模型构建自动化标注引擎，对指定类别的数据进行批量化自动标注。并通过分析标注结果及错误样本数，对标注规则进行快速迭代，提升数据标注质量。

🚧 『MATE』一套用于交互式程序分析的工具，重点是用代码属性图在 C 和 C++ 代码中寻找错误

https://github.com/GaloisInc/MATE

https://galoisinc.github.io/MATE/

MATE 是一套用于交互式程序分析的工具，用于寻找 C 和 C++ 代码中的漏洞。MATE 使用代码属性图（CPG）将特定应用和低级漏洞分析统一起来，从而能够发现高度特定应用的漏洞，这些漏洞取决于目标 C/C++ 程序的实现细节和高级语义。

🚧 『Polars』Rust/Python/Node.js 的超快多线程 DataFrame 7.9K Star

https://github.com/pola-rs/polars

https://www.pola.rs/

Polars 是一个用 Rust 实现的 DataFrames 库，使用 Apache Arrow Columnar Format 作为内存模型，具备极高的效率和优化过的操作。

博文&分享

👍 『k8s tutorials』k8s 教程

https://github.com/guangzhengli/k8s-tutorials

k8s 作为云原生时代的操作系统，学习它的必要性不言而喻！这是一份非常优质的 k8s 教程，需要注意的是，教程侧重于实战引导，以渐进式修改代码的方式，从最基础的 container 容器的定义开始，经过 pod、deployment、servcie、ingress、configmap、secret 等资源直到用 helm 来打包部署一套完整服务。

👍 『Data Science: Theories, Models, Algorithms, and Analytics』数据科学：理论、模型、算法与分析 · 免费书

https://srdas.github.io/MLBook/

PDF下载：https://srdas.github.io/Papers/DSA_Book.pdf

作者 Sanjiv Ranjan Das 是 Santa Clara 大学商学院金融与数据科学教授。这本书是作者为其课程《Machine Learning with R》开发整理的课堂笔记。包含以下章节：

The Art of Data Science / 数据科学的艺术
The Very Beginning: Got Math? / 起步：数学基础
Open Source: Modeling in R / 开源：R语言建模
MoRe: Data Handling and Other Useful Things / 更多：数据处理与其他
Being Mean with Variance: Markowitz Optimization / 方差均值：马科维茨优化
Learning from Experience: Bayes Theorem / 从经验中学习：贝叶斯定理
More than Words: Extracting Information from News / 自然语言：从新闻中提取信息
Virulent Products: The Bass Model / 巴斯模型
Extracting Dimensions: Discriminant and Factor Analysis / 提取维度：判别和因子分析
Bidding it Up: Auctions / 竞标：拍卖
Truncate and Estimate: Limited Dependent Variables / 截断和估计：有限的因变量
Riding the Wave: Fourier Analysis / 乘风破浪：傅里叶分析
Making Connections: Network Theory / 建立联系：网络理论
Statistical Brains: Neural Networks / 统计大脑：神经网络
Zero or One: Optimal Digital Portfolios / 零或一：最佳数字投资组合
Against the Odds: Mathematics of Gambling / 对抗赔率：赌博数学
In the Same Boat: Cluster Analysis and Prediction Trees / 聚类分析和预测树

数据&资源

🔥 『awesome-deep-learning』深度学习单细胞分析相关文献列表

https://github.com/OmicsML/awesome-deep-learning-single-cell-papers

🔥 『Open Speech Corpora』面向ASR、TTS和其他语音技术的开放语音数据集列表

https://github.com/coqui-ai/open-speech-corpora

研究&论文

可以点击这里回复关键字日报，免费获取整理好的论文合辑。

科研进展

2022.08.27 『目标检测』 YOLOX-PAI: An Improved YOLOX Version by PAI
2022.09.01 『强化学习』 Transformers are Sample Efficient World Models
2022.08.13 『机器学习』 Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

⚡ 论文：YOLOX-PAI: An Improved YOLOX Version by PAI

论文时间：27 Aug 2022

领域任务：Object Detection，目标检测

论文地址：https://arxiv.org/abs/2208.13040

代码实现：https://github.com/alibaba/EasyCV

论文作者：Xinyi Zou, Ziheng Wu, Wenmeng Zhou, Jun Huang

论文简介：We develop an all-in-one computer vision toolbox named EasyCV to facilitate the use of various SOTA computer vision methods./我们开发了一个名为EasyCV的一体化计算机视觉工具箱，以促进各种SOTA计算机视觉方法的使用。

论文摘要：我们开发了一个名为EasyCV的一体化计算机视觉工具箱，以促进各种SOTA计算机视觉方法的使用。最近，我们在EasyCV中加入了YOLOX-PAI，这是YOLOX的改进版。我们进行了消融研究，研究一些检测方法对YOLOX的影响。我们还为PAI-Blade提供了一个简单的使用方法，它被用来加速基于BladeDISC和TensorRT的推理过程。最后，我们在单个NVIDIA V100 GPU上，在1.0毫秒内达到COCO dateset上的42.8 mAP，这比YOLOv6要快一点。在EasyCV中还设计了一个简单而有效的预测器api来进行端对端对象检测。代码和模型现在可以在以下网站获得：https://github.com/alibaba/EasyCV

⚡ 论文：Transformers are Sample Efficient World Models

论文时间：1 Sep 2022

领域任务：reinforcement-learning，强化学习

论文地址：https://arxiv.org/abs/2209.00588

代码实现：https://github.com/eloialonso/iris

论文作者：Vincent Micheli, Eloi Alonso, François Fleuret

论文简介：Deep reinforcement learning agents are notoriously sample inefficient, which considerably limits their application to real-world problems./深度强化学习代理有样本效率低下问题，这大大限制了它们对现实世界问题的应用。

论文摘要：深度强化学习代理有样本效率低下问题，这大大限制了它们对现实世界问题的应用。最近，许多基于模型的方法被设计来解决这个问题，其中在世界模型的想象中学习是最突出的方法之一。然而，虽然与模拟环境的几乎无限的互动听起来很吸引人，但世界模型必须在很长一段时间内是准确的。在Transformers在序列建模任务中成功的激励下，我们介绍了IRIS，一个在由离散自动编码器和自回归Transformers组成的世界模型中学习的数据高效的代理。在Atari 100k基准测试中，IRIS只用了相当于两个小时的游戏时间，就取得了1.046的人类归一化平均分，并在26个游戏中的10个游戏中优于人类。我们的方法为没有前瞻搜索的方法设定了一个新的技术状态，甚至超过了MuZero。为了促进未来对Transformers和世界模型的研究，我们将我们的代码库发布在 https://github.com/eloialonso/iris

⚡ 论文：Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

论文时间：13 Aug 2022

领域任务：Machine Learning, Optimization and Control, 机器学习，优化与控制

论文地址：https://arxiv.org/abs/2208.06677

代码实现：https://github.com/sail-sg/adan , https://github.com/frgfm/Holocron , https://github.com/lucidrains/Adan-pytorch

论文作者：Xingyu Xie, Pan Zhou, Huan Li, Zhouchen Lin, Shuicheng Yan

论文简介：Then Adan adopts NME to estimate the first- and second-order moments of the gradient in adaptive gradient algorithms for convergence acceleration./然后Adan采用NME来估计自适应梯度算法中梯度的一阶和二阶矩，以加速收敛。

论文摘要：自适应梯度算法借鉴了重球加速的移动平均思想，准确估计梯度的一阶和二阶矩，以加速收敛。然而，在理论上和许多经验案例中，Nesterov加速比重球加速收敛得更快，但在自适应梯度设置下，对它的研究却很少。在这项工作中，我们提出了ADAptive Nesterov momentum算法，简称Adan，以有效加快深度神经网络的训练。Adan首先对虚无的Nesterov加速进行了重构，开发了一种新的Nesterov动量估计（NME）方法，它避免了在外推点计算梯度的额外计算和内存开销。然后，Adan采用NME来估计自适应梯度算法中梯度的一阶和二阶矩，以实现收敛加速。此外，我们证明Adan在非凸随机问题（如深度学习问题）上，在O(ϵ-3.5)的随机梯度复杂度内找到了一个ϵ-近似的一阶静止点，与最知名的下限相匹配。广泛的实验结果表明，Adan在视觉变换器（ViTs）和CNN上都超过了相应的SoTA优化器，并为许多流行的网络，如ResNet、ConvNext、ViT、Swin、MAE、LSTM、Transformer-XL和BERT，设定了新的SoTA。更令人惊讶的是，Adan可以使用SoTA优化器一半的训练成本（epochs），在ViT和ResNet等网络上获得更高的或相当的性能，而且对大范围的minibatch大小，例如从1k到32k，也表现出极大的容忍度。我们希望Adan能够通过降低训练成本和减轻在不同架构上尝试不同优化器的工程负担来促进深度学习的发展。代码发布在 https://github.com/sail-sg/Adan

我们是 ShowMeAI，致力于传播AI优质内容，分享行业解决方案，用知识加速每一次技术成长！

◉ 点击 日报合辑，在公众号内订阅话题 #ShowMeAI资讯日报，可接收每日最新推送。

◉ 点击 电子月刊，快速浏览月度合辑。

◉ 点击这里，回复关键字日报免费获取AI电子月刊与论文 / 电子书等资料包。

K8S/Kubernetes

K8S/Kubernetes社区为您提供最前沿的新闻资讯和知识内容

更多推荐

【深度】阿里巴巴万级规模 K8s 集群全局高可用体系之美

作者 | 韩堂、柘远、沉醉来源 | 阿里巴巴云原生公众号前言台湾作家林清玄在接受记者采访的时候，如此评价自己 30 多年写作生涯：“第一个十年我才华横溢，‘贼光闪现’，令周边黯然失色；第二个十年，我终于‘宝光现形’，不再去抢风头，反而与身边的美丽相得益彰；进入第三个十年，繁华落尽见真醇，我进入了‘醇光初现’的阶段，真正体味到了境界之美”。长夜有穷，真水无香。领略过了 K8s“身在江

K8S/Kubernetes

如何基于 K8s 构建下一代 DevOps 平台？

作者 | 孙健波（天元）导读：当前云原生 DevOps 体系现状如何？面临哪些挑战？如何通过 OAM 解决云原生 DevOps 场景下的诸多问题？云原生开发应用模型 OAM(Open Application Model) 社区核心成员孙健波将为大家一一解答，并分享如何基于 OAM 和 Kubernetes 打造无限能力的下一代 DevOps 平台。什么是 DevOps？为什么基于 Kub