朱莉娅在 Hadoop 上? [关闭]
·
问题:朱莉娅在 Hadoop 上? [关闭]
我是 Hadoop 工程师,主要对机器学习和数据挖掘感兴趣。借助数据局部性利用和诸如Spark(尤其是MLlib)之类的现代工具,分析 TB 级数据变得轻松而愉快。到目前为止,我正在使用 Python API to Spark (PySpark) 并且对它非常满意。
然而,最近出现了科学计算领域的新强者 -Julia。凭借其 JIT 编译和内置并行性(除其他外),它可能成为传统工具的有力竞争者。所以我很感兴趣,如果我在某个时候切换到 Julia,我有哪些选择可以在现有 Hadoop 堆栈之上使用它?是否有任何绑定或桥梁允许运行 Julia 脚本并仍然利用 HDFS 的数据局部性?
编辑。 明确一点:我不是在问什么工具是最好的,不是将 Julia(或 Hadoop)与其他工具进行比较,也不是在推广任何计算堆栈。我的问题是关于可能有助于集成两种技术的项目。没有意见,没有深思熟虑——只有项目链接和简短描述。
解答
-
Elly.jl是“Hadoop HDFS 和 Yarn 客户端”
-
Spark 实现的开始:https://github.com/d9w/Spark.jl
编辑:我还应该指出 JavaCall 包,它可能允许利用该领域现有的 Java 库。https://github.com/aviks/JavaCall.jl
(编辑:最初也由 Elly 开发人员链接到现已弃用的 HDFS 绑定项目:https://github.com/tanmaykm/HDFS.jl)
更多推荐

所有评论(0)