朱莉娅在 Hadoop 上? [关闭]

BIGdd

17人浏览 · 2022-08-31 21:25:09

BIGdd · 2022-08-31 21:25:09 发布

问题:朱莉娅在 Hadoop 上? [关闭]

我是 Hadoop 工程师,主要对机器学习和数据挖掘感兴趣。借助数据局部性利用和诸如Spark(尤其是MLlib)之类的现代工具,分析 TB 级数据变得轻松而愉快。到目前为止,我正在使用 Python API to Spark (PySpark) 并且对它非常满意。

然而,最近出现了科学计算领域的新强者 -Julia。凭借其 JIT 编译和内置并行性(除其他外),它可能成为传统工具的有力竞争者。所以我很感兴趣,如果我在某个时候切换到 Julia,我有哪些选择可以在现有 Hadoop 堆栈之上使用它?是否有任何绑定或桥梁允许运行 Julia 脚本并仍然利用 HDFS 的数据局部性?

编辑。 明确一点:我不是在问什么工具是最好的,不是将 Julia(或 Hadoop)与其他工具进行比较,也不是在推广任何计算堆栈。我的问题是关于可能有助于集成两种技术的项目。没有意见,没有深思熟虑——只有项目链接和简短描述。

解答

Elly.jl是“Hadoop HDFS 和 Yarn 客户端”
Spark 实现的开始:https://github.com/d9w/Spark.jl

编辑:我还应该指出 JavaCall 包,它可能允许利用该领域现有的 Java 库。https://github.com/aviks/JavaCall.jl

(编辑:最初也由 Elly 开发人员链接到现已弃用的 HDFS 绑定项目:https://github.com/tanmaykm/HDFS.jl)

向你推荐>>>开发者社区

华为、百度、京东云现已入驻，来创建你的专属开发者社区吧！

更多推荐

关于 Jupyter 笔记本最糟糕的五件事

我曾经喜欢 Jupyter。我仍然认为它们是许多任务的绝佳工具,例如探索性数据分析和轻松轻松地向同事展示见解。然而,虽然它们有时非常适合数据科学,但有时却令人头疼。像任何软件工具一样,它们也有其缺点。以下是 Jupyter Notebooks 用于数据科学的五个最糟糕的事情: 1.练习良好的代码版本控制几乎是不可能的 Jupyter Notebooks 对于代码版本控制来说很糟糕。问题是它们存储为

大数据

2023 年流行的大数据和数据科学角色

数据科学和大数据提供了广泛的职业前景。涉及数据的角色的扩展伴随着数据科学的出现。它是当今最流行和最前沿的技术应用领域之一,这是有道理的。数据科学目前可能是最好的就业市场。与此同时,这一发展中的主题正在改变众多业务和技术。随着所有垂直领域的行业越来越受数据驱动,就业市场和必要的技能受到影响。随着我们学习新的数据接触点和评估方法,我们生活的社会、日常生活和国家经济越来越依赖数据。这是大数据和数据科学能

大数据

数据科学的主要组成部分和特点

数据科学是十年来增长最快、最具挑战性和高薪的工作之一。那么,究竟什么是数据科学?数据科学是一个跨学科领域,它结合了统计学、计算机科学和机器学习算法,以从结构化和非结构化数据中获得洞察力。据《经济时报》报道,尽管供应增长缓慢,但印度对通过数据科学课程认证的各行业数据科学专业人员的需求增长了 400% 以上。数据科学的组成部分 1\。数据探索这是最关键的一步,因为它花费的时间最多。数据探索消耗了大