字节数据平台个人主页

@m0_60025795

字节数据平台

2022-09-29 18:06:54 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

5000 字技术向拆解 | 火山引擎多模态数据湖如何释放模思智能的算法生产力

通过深度优化的湖存储格式、湖计算引擎，配合强大的 AI 算子和湖管理能力，LAS 不仅提升了数据存储、计算和管理的效率，还内置了企业级数据治理与权限管控机制，保证了用户数据的安全性。为了获得高质量的模型训练数据，模思公司针对原始音频、视频分别设计了对应的数据处理算法和链路。这条在自建 IDC 中基于 Ray 和 Worker Pool 构建的音视频处理链路，在早期支撑了模思公司全部的音视频训练数据

#火山引擎 #算法

代码量减少 70%、GPU 利用率达 95%：火山引擎多模态数据湖如何释放模思智能的算法生产力

在大模型技术竞速的下半场，行业注意力正从单一的算法迭代转向更深层的基础设施建设。已成为 AI 企业构建长期竞争力的核心课题。模思智能始终处于多模态 AI 研发的前沿，随着 MOSS TTS 和TTSD 语音生成、MOVA 音视频生成等一系列高精度模型的相继推出，其在多模态领域的研发已从技术突破，扎实地迈向大规模工程化。随着研发场景向深度多模态演进，传统分散的数据处理方式逐渐遭遇瓶颈。在早期阶段，碎

#大数据

字节跳动嵌入式数据分析最佳实践

Step 1. 获得目标仪表盘/图表的URL链接Step 2. 链接修改Step 3. 生成代码该开发人员建议在需要操作的项目中赋予项目管理员权限，完成后再根据实际情况赋予权限。

#数据分析 #数据库 #前端

提速 10 倍！深度解读字节跳动新型云原生 Spark History Server 原创

更多技术交流、求职机会，欢迎关注前不久，在 6月29日 Databricks 举办的 Data + AI Summit 上，火山引擎向大家首次介绍了 UIMeta，一款致力于监控、分析和优化的新型云原生 Spark History Server，相比于传统的事件日志文件，它在缩小了近乎 10倍体积的基础上，居然还实现了提速 10倍！！！目前，UIMeta Service 已经取代了原有的 Hist

#大数据 #spark #分布式 +1

数据飞轮拆解车企数据驱动三板斧：数据分析、市场画像、A/B 实验

近日，火山引擎数智平台（VeDI）2023 数据飞轮汽车行业研讨会在上海举办，活动聚焦汽车行业数字化转型痛点，从字节跳动自身数据驱动经验、数据飞轮模式落地、企业侧场景实践三方面，诠释数据飞轮如何在汽车行业转活数据消费。

#大数据 #火山引擎 #云服务

实时数据湖在字节跳动的实践

导读：今天分享的主题是实时数据湖在字节跳动的实践。将围绕下面四点展开：对实时数据湖的解读在落地实时数据湖的过程中遇到的一些挑战和应对方式结合场景介绍实时数据湖在字节内部的一些实践案例数据湖发展的一些规划数据湖的概念是比较宽泛的，不同的人可能有着不同的解读。这个名词诞生以来，在不同的阶段被赋予了不同的含义。数据湖的概念最早是在Hadoop World大会上提出的。当时的提出者给数据湖赋予了一个非常

#big data #hadoop #云计算

解锁产品迭代新速度：A/B测试在AI大模型时代的应用

DataTester目前已经服务了数百家企业，助力A/B测试应用在AI场景中，“让每一个决策更加正确”的显性效果指数级放大。

#大数据 #ab测试

火山引擎数据飞轮最新活动：结合大模型能力，探索金融行业数智化落地新可能

目前，数据飞轮还在持续加码数智产品的大模型能力，正如活动分享中提到的，解决企业问题只是数智产品的基础能力，更进阶的应该是持续降低数智产品的使用门槛，让企业内部更多岗位的员工都能畅享数据带来的便利，用数据倒逼底层建设，用数据驱动业务决策，最终助力金融企业能获得长期性的更好发展。这对负责数据治理的员工来说，可以极大减少日常工作中庞杂的工作量，转而能将更多精力投入到真正的治理工作中，在提升工作效率的同时

#火山引擎 #金融 #人工智能

存储成本降半、处理效率倍增：火山引擎多模态数据湖如何支撑Agent规模化落地

该格式支持数据的冷热分层管理，例如在模型训练阶段将热数据存放于高性能的 vePFS，而冷数据则根据策略沉降至成本更优的 TOS 对象存储，此机制已在大型客户的实际业务中得到应用。而早期的格式如 Iceberg 和 ORC 在设计时，底层采用的 Parquet 格式，是基于不同列之间大小差异在几倍到几十倍的假设下进行设计的，尽管它们也采用了列式存储结构，但在面对极不均匀的多模态数据时，仍会面临数据访

#人工智能 #大数据

火山引擎多模态数据湖解决方案，以新一代数据基座迎接AI Agent时代

在存储层，Lance格式支持多模态数据列式存储，实现高压缩比与灵活Schema变更，在实际生产中，100G 的 Tensor 数据经 Lance 压缩后可降至 2G，大幅节省存储成本；例如，存储端面临多模态数据统一存储与高性能点查的需求，计算端需实现CPU与GPU的高效协同，而管理端需打破结构化与非结构化数据间的壁垒。面向未来，火山引擎将持续深化多模态数据湖能力，并强化与开源社区的协作。火山引擎推

#大数据 #人工智能

共 58 条

请选择