
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这篇文章主要来自于上周和一个朋友三小时的聊天中非AI辅助编程的内容的一个回顾。本文主要内容包含三部分:工业化的Scaling Law:超越参数与数据数据红利:合成数据的潜力终极目标:Token工厂与Token GDPScaling Law 本质是工业化思维不过我觉得很多人对Scaling Law 还缺乏理解,单纯的还是在想“效果和参数规模等比上升”,现在应该遇到瓶颈是在数据。但实际上这么思考是不够
前言从上周四开始,极限十小时实现了第一个可用版本,在这期间,我们成功实现了自举,也就是利用 Auto-coder 的基础功能来帮助 Auto-coder的开发,所以才有如此神速。今天这篇文章,我们来介绍下 Auto-Coder 到底可以给程序员带来什么价值。Github Copilot 够么?对于这个事情,我给大家从三个维度做分析。第一个维度是 Github Copilot 的定位,我一直是 Gi
前言上次花了点时间让CarbonData集成到StreamingPro中,方便大家更快速的体验到CarbonData的好处,集成完毕后就写了篇文章:让CarbonData使用更简单 文章里面有下载链接,下载下来就能用,基本不需要你了解carbondata的知识就可以直接用。然后集成过程中解决了不少问题,提交了个PR,因为社区你懂的,一般接受PR的速度都...
Spark 默认采用的是资源预分配的方式。这其实也和按需做资源分配的理念是有冲突的。这篇文章会详细介绍Spark 动态资源分配原理。前言最近在使用Spark Streaming程序时,发现如下几个问题:高峰和低峰Spark Streaming每个周期要处理的数据量相差三倍以上,预分配资源会导致低峰的时候资源的大量浪费。Spark Stream...
关于Spark Streaming中的任务有如下几个概念:BatchJobStageTask其实Stage,Task都是Spark Core里就有的概念,Job 在Streaming和Spark Core里的概念则是不一致的。Batch则是Streaming特有的概念。在Streaming中,一个ForeachRDD形成一个Job,每个Jo...
前言MLSQL Stack 都有哪些应用场景呢?毕竟现在是个场景为王的时代。其实MLSQL Stack有无限的可能性等待大家挖掘。下面我们提一些已经在应用的。数据同步组件比如从各个数据库里把数据同步到HDFS上。## ETL平台配合调度,传统的批处理平台。流式平台MLSQL 很好的支持了Structured Streaming.开发平台什么意思呢?就是根据业务需求,用M...
快速过下背景:1. nlp2sql去年大模型一出来,大家就开始搞了,但是目前准确率普遍上不去,导致很难普及。这个技术主要是改变交互,从人讲自然语言需求写SQL改成大模型来理解自然语言,写SQL。2. SQL内置大模型函数支持实现对传统数据分析能力的突破,这个去年应该是我们和 Databricks 搞的比较早,我们可能略早(纯瞎猜),而且底层技术方案可能也完全不一样。这个技术就是补上了SQL 对非.
Spark 1.6发布后,官方声称流式状态管理有10倍性能提升。这篇文章会详细介绍Spark Streaming里新的流式状态管理。关于状态管理在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了。而状态管理对Spark 的 RDD模型是个挑战,因为在spark里,任何数据集都需要通过RDD来呈现,而RDD 的定义是一个不变的分布式
前言昨天媛媛说,你是不是很久没写博客了。我说上一篇1.26号,昨天3.26号,刚好两个月,心中也略微有些愧疚。今天正好有个好朋友问,怎么在Java应用里集成Spark MLlib训练好的模型。在StreamingPro里其实都有实际的使用例子,但是如果有一篇文章讲述下,我觉得应该能让更多人获得帮助追本溯源记得我之前吐槽过Spark MLlib的设计,...
package www.websiteempire.cn;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStr