MinIO分布式存储个人主页

@miniopro

MinIO分布式存储

2023-08-26 16:38:06 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

使用 Ray Train 和 MinIO 进行分布式训练

您使用的 worker 越多，这个分片就越小，您的训练运行速度就越快。在这篇文章中，我完成了我在上一篇文章中开始的工作，在那里我展示了如何使用 Ray Data 来分发在训练模型之前需要进行的任何预处理。在 TorchTrainer 对象中设置所有这些信息后，您可以调用其 fit（）方法，Ray Train 将创建工作线程并在工作线程中运行您的训练函数。下图是完整的分布式管道的可视化，包括分布式

#docker #k8s #硬件架构 +3

大数据的挑战是小文件

小文件可能会给存储平台及其支持的应用程序带来大问题。在 Google 上搜索 “small files performance” 会产生 2M+ 的结果。这篇博文将更深入地研究小文件问题，深入研究其根源并总结解决方案。

#大数据 #网络 #服务器

借助 AIStor 和英伟达™（NVIDIA®）GPU，企业人工智能基础架构变得简单易行

寻求利用 AI 功能的现代企业通常面临一个重大障碍：在其 Kubernetes 环境中复杂地部署和管理 GPU 基础设施。MinIO 的 AIStor 通过集成 NVIDIA GPU Operator 来正面应对这一挑战，彻底改变了组织为 AI 工作负载部署和管理 GPU 资源的方式。通过自动化 GPU 设置、驱动程序管理和资源优化，这种集成将曾经复杂的多步骤流程转变为只需单个命令即可实现的简化部

#人工智能

实现可扩展人工智能的便捷之路：英特尔 Tiber 开发者云 + MinIO 对象存储

在本文中，我展示了如何设置英特尔 Tiber Developer Cloud 进行机器学习实验。这需要创建一个帐户、设置计算实例、创建 MinIO 存储桶和设置 SSH 密钥。创建资源后，我演示了如何编写一些函数来上传和检索数据。我还讨论了可以放入内存的小型数据集和无法放入内存的大型数据集的数据加载注意事项。使用 Intel 的 Gaudi 加速器非常简单，开发人员将识别 PyTorch 中 hp

#人工智能 #机器学习 #深度学习

通过强大的语义层增强现代数据湖

在现代数据湖架构中，语义层通过向数据添加有意义的上下文来发挥至关重要的作用，否则这些上下文会丢失。此层充当现代数据湖（数据仓库和查询引擎）处理层中未整理的原始数据与利用此数据的工具和应用程序之间的桥梁。通过采用统一的数据策略，组织可以提高其语义层的有效性，确保所有数据源都有助于形成一个有凝聚力和治理良好的数据环境。人工智能系统需要高质量的数据来避免“垃圾进，垃圾出”的困境，即糟糕的输入数据会导致有

#kubernetes #容器 #云原生 +2

开源还是封闭？人工智能的两难选择

要使模型完全开放，您需要训练数据、模型的源代码、训练期间使用的超参数，当然还需要训练后的模型本身，它由存储模型知识的数十亿（很快是数万亿）参数组成，也称为参数内存。与“开源”不同的术语，“开源”只应用于非 AI 软件，因为模型的源代码无助于确定模型的行为。如果你相信它们是真的，那么“所有 AI 都应该开源吗”这个问题的答案是否定的，因为它不会控制 AI，闭源也不会。如上所述，它有不同的口味和不同的

#开源 #人工智能 #架构 +1

使用MinIO的SDK进行自动化数据准备以支持机器学习

此命令执行 Python 脚本 generate-and-upload-fake-data.py ，该脚本生成包含个人识别信息 (PII) 的虚假数据，将其保存为本地 Parquet 文件，然后将这些文件上传到 MinIO raw 存储桶，演示了将基本数据摄取到 MinIO 对象存储系统中的过程。generate_and_upload_to_minio 函数迭代指定次数（默认为 10）生成假数据，

#apache #知识图谱 #人工智能 +2

使用 Iceberg、Tabular 和 MinIO 构建现代数据架构

Tabular 是由 Apache Iceberg 的原始创建者创建的数据平台。它旨在提供一个独立的通用存储平台，可连接到任何计算层，从而消除数据供应商锁定。此功能对现代数据堆栈至关重要，它允许用户选择一流的计算和存储工具，而不会被迫使用特定供应商的老化和/或不匹配的工具集。在 MinIO 和 Iceberg 的架构中，可以通过 Tabular 进行增强。表格可用于管理和查询存储在 MinIO 中

#架构

AI 的未来是开源的

但是，真实的东西是无可替代的。真正参与开源软件开发的公司秉承极端开放创新的理念，通过承认并非所有好的代码或伟大的想法都存在于他们的组织中，来挑战传统的竞争优势概念。这种转变支持了这样一种观点，即开源生态系统中的共享创新会导致更快的市场增长，甚至为研发资金有限的小型软件公司提供从开源软件中存在的研发溢出效应中受益的机会。Meta 不允许将 LLaMA 2 与每月拥有 7 亿用户的产品集成，并且不允许

#k8s #硬件架构 #人工智能 +1

AI/ML 数据湖参考架构架构师指南

如果你对生成式人工智能很认真，那么你的自定义语料库应该定义你的组织。它应该包含其他人没有的知识的文件，并且只包含真实和准确的信息。此外，您的自定义语料库应使用向量数据库构建。矢量数据库为文档及其矢量嵌入（文档的数值表示）编制索引、存储和提供对文档的访问。（这解决了上述数字问题)。向量数据库有助于语义搜索。如何做到这一点需要大量的数学背景，而且很复杂。但是，语义搜索在概念上很容易理解。假设您想找到所

#人工智能 #架构 #kubernetes +3

共 19 条

请选择