logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

字节跳动基于Hudi的数据湖集成实践

本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。本文重点分享字节的探索实践,对话框回复数字9可以阅读关于技术选型的思考。文 | Gary Li  字节跳动数据平台开发套件团队高级研发工程师,数据湖开源项目Apache Hudi PMC Member在选择了基

文章图片
#big data#大数据
使用spark3操作hudi数据湖初探

环境:hadoop 3.2.0spark 3.0.3-bin-hadoop3.2hudi 0.8.0本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以下各步骤能够成功完成,请确保hadoop集群正常启动。确保已经配置环境变量HADOOP_CLASSPATH对于开源版本hadoop,HADOOP_CLASSPATH配置为:export HADOOP_CLASSPATH=$HAD

#big data#scala#spark
还不知道这几个流行的人工智能API?快来了解一下吧

AI能力以API的形式开放出来让我们普通开发者能够很轻易上手使用。当然,市面上有很多成熟的AI API,那么今天就和大家介绍以下几种。OpenAI网址:https://openai.com/api/OpenAI 是一家非营利性人工智能研究公司,其目标是推进数字智能。 最近,当他们宣布 Codex 时,引起了大家的注意,这是一种将自然语言翻译成代码的人工智能。 虽然 Codex 仍处于内部测试阶段,

文章图片
#人工智能
ubuntu 22.04安装mysql 8.0与避坑指南

MySQL 是一个开源数据库管理系统,可作为流行的 LAMP(Linux、Apache、MySQL、PHP/Python/Perl)堆栈的一部分安装。它实现了关系模型并使用结构化查询语言( SQL)来管理其数据。本教程将介绍如何在 Ubuntu 22.04 服务器上安装 MySQL 8.0 版。通过完成它,你将拥有一个可用的关系数据库,并且可以使用它来构建您的下一个网站或应用程序。

文章图片
#mysql#ubuntu#数据库
使用深度学习模型在 Java 中执行文本情感分析

积极的? 消极的? 中性的? 使用斯坦福 CoreNLP 组件以及几行代码便可对句子进行分析。本文介绍如何使用集成到斯坦福 CoreNLP(一个用于自然语言处理的开源库)中的情感工具在 Java 中实现此类任务。斯坦福 CoreNLP 情感分类器要执行情感分析,您需要一个情感分类器,这是一种可以根据从训练数据集中学习的预测来识别情感信息的工具。在斯坦福 CoreNLP 中,情感分类器建立在递归神经

文章图片
#深度学习#java#自然语言处理
使用深度学习模型在 Java 中执行文本情感分析

积极的? 消极的? 中性的? 使用斯坦福 CoreNLP 组件以及几行代码便可对句子进行分析。本文介绍如何使用集成到斯坦福 CoreNLP(一个用于自然语言处理的开源库)中的情感工具在 Java 中实现此类任务。斯坦福 CoreNLP 情感分类器要执行情感分析,您需要一个情感分类器,这是一种可以根据从训练数据集中学习的预测来识别情感信息的工具。在斯坦福 CoreNLP 中,情感分类器建立在递归神经

文章图片
#深度学习#java#自然语言处理
Spark SQL操作HUDI表实践

从 0.9.0 开始 hudi 已经支持 hudi 内置的 FileIndex:HoodieFileIndex 来查询 hudi 表,支持分区剪枝和 metatable 查询。这将有助于提高查询性能。它还支持非全局查询路径,这意味着用户可以通过基本路径查询表,而无需在查询路径中指定“*”。有关支持的所有表类型和查询类型的更多信息,请参阅表类型和查询。如果使用location语句指定一个位置,或者使

#spark#sql#大数据
ubuntu 22.04安装PostgreSQL

关系数据库管理系统是许多网站和应用程序的关键组件。它们提供了一种结构化的方式来存储、组织和访问信息。PostgreSQL 或 Postgres 是一种关系数据库管理系统,它提供 SQL 查询语言的实现。它符合标准并具有许多高级功能,例如可靠的事务处理和没有读锁的并发性。本文档说明了如何在 Ubuntu 22.04 服务器上安装 Postgres。它还为一般数据库管理提供了一些说明。

文章图片
#postgresql#ubuntu#服务器
Java中的多线程基本介绍

在 Java 中,多线程是指同时执行两个或多个线程以最大限度地利用 CPU 的过程。 Java 中的线程是一个轻量级进程,只需要较少的资源即可创建和共享进程资源。多线程和多进程用于 Java 中的多任务处理,但我们更喜欢多线程而不是多进程。 这是因为线程使用共享内存区域有助于节省内存,而且线程之间的内容切换比进程快一点。线程的生命周期线程在其生命周期中必须经历五种状态。 此生命周期由 JVM(Ja

文章图片
#java#开发语言#后端
依托于亚马逊云科技的开发者学习体验

前言截止今年(2022年),亚马逊云已经走过了16个年头,并连续十一年被Gartner认可为云计算领导者。在EC2方面从最原始的单一实例到今天支持475+实例类型,而在服务类型方面更是发展并延伸到了各行各业。说起我与亚马逊云科技的渊源,还得从上大学的时候说起,从当年免费体验亚马逊云上的服务资源,到今天在亚马逊云上的持续学习。接下来我将从产品使用、参与创新大会、深入阅读技术资源等方面聊一聊在亚马逊云

文章图片
#科技#学习#aws
    共 27 条
  • 1
  • 2
  • 3
  • 请选择