
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
当我们在吐槽马年春晚某些节目时,同时也在为春晚上频频出现的机器人暗自喝彩。相比25年春晚时的生硬表现,现在的具身智能机器人简直是脱胎换骨,不但能在小品节目中与演员谈笑风生,还能在歌舞节目中施展出一套漂亮的武术动作。<图片来源于网络,如有侵权请联系删除>很难想象,短短一年时间,具身智能就能迭代得如此迅猛。这其中靠的是什么呢,是算法的创新和优化吗?不完全是,其中起到关键性作用的是数据,是让机器人拥有灵

未来,随着传感器技术的升级(如更高帧率的激光雷达)和标注算法的优化,4D 标注将能捕捉更精细的时空细节(如毫米级的位置变化、毫秒级的反应时间)。它通过连续的时空数据,为智能驾驶系统构建了一个 动态的立体世界,让系统能像人类一样,在感知空间的同时,理解时间维度上的变化规律。4D标注是在3D空间维度的基础上,增加了时序这一关键维度。针对车辆、行人、骑行者等移动目标,4D标注会在连续的时间序列(如每秒3

从大语言模型的意图理解,到视觉大模型的图像识别,再到语音大模型的语音处理以及跨模态大模型的多信息融合,不同类型的大模型有着各自独特的标注内容和标注方式。而大模型的家族十分庞大,除了能说会道擅长推理的LLM(大语言模型),还有擅长看世界的视觉大模型、听声音的语音大模型等多种类型,不同类型的大模型,标注内容也有着天壤之别。我们常用的语音助手、语音输入法等都依赖于语音大模型。在了解大模型的种类后,我们再

那SFT阶段的数据训练就是它的义务教育,储备从小学到高中的知识,建立起基本的认知框架;从令人惊艳的ChatGPT到一鸣惊人的DeepSeek,再到如今的Gemini、千问、文心等百花齐放的大模型产品,我们在这些模型的迭代进程中都能看到。在AI这场大戏中,算法是聚光灯下的主角,算力是支撑表演的舞台,而数据标注则是幕后默默耕耘的团队。所以如果SFT没做好,模型输出的全是低质量、不完整、甚至错误的内容,

所谓的高质量OCR数据,当然不是一些清晰的图片那么简单,其中包含了丰富多样的样本,包括但不限于:不同分辨率(从手机到高清扫描仪)、不同语言(中文、少数民族语言、外文等)、不同版式结构(表格、多栏排版、图文混排)以及特殊场景(部分遮挡、艺术字体)。这些数据就像是AI学习的课本,是AI视觉理解能力的起点。OCR数据的标注在业内一直不算有难度的活,很多人认为不过就是把图片里的文字切成文字框再转写,但事实

例如,在自动驾驶领域,数据标注不再局限于简单的2D框标注,而是需要3D/4D点云标注,甚至要求标注员具备懂车的知识,能够标注车辆的速度、行驶意图以及与行人的相对距离。大模型的多模态交叉标注同样需要专业标注人才,能够处理文本、图像、语音的混合输入,满足复杂场景下的标注需求。能培养专家型标注团队的公司,能承接高精度3D点云、多模态大模型标注的服务商,能把行业Know-How转化为标注标准的企业,才是这

但现在的数据交付,需要做到:定义模型能回答/不能回答什么、确定模型的风险边界在哪、修正模型的价值偏差等。数据标注行业将从“劳动密集型”转为“知识密集型”已是不争的事实,以往依靠大量人力推进的标注模式正逐渐退场,基础标注的价值也正被进化的AI标注工具以及更高效的工作流不断挤压。此时,大模型产品之间的厮杀愈发激烈,各家比拼的不是算力,也不是所谓的参数,而是看谁家模型用的数据更优质、更具价值。在大模型的

从大语言模型的意图理解,到视觉大模型的图像识别,再到语音大模型的语音处理以及跨模态大模型的多信息融合,不同类型的大模型有着各自独特的标注内容和标注方式。而大模型的家族十分庞大,除了能说会道擅长推理的LLM(大语言模型),还有擅长看世界的视觉大模型、听声音的语音大模型等多种类型,不同类型的大模型,标注内容也有着天壤之别。我们常用的语音助手、语音输入法等都依赖于语音大模型。在了解大模型的种类后,我们再

AI语音交互面临语言多样性挑战,中国作为"语言富矿"拥有130多种活跃方言和民族语言,但主流语音技术对方言识别准确率低。这导致数字鸿沟、市场受限和文化传承隐忧。为此推出的高质量多方言语音数据集覆盖普通话、上海话、四川话、粤语等,累计超5000小时专业录制语音,严格标注文本和释义,为模型训练提供标准数据。该数据集旨在打破语言壁垒,赋能智能语音技术真正理解每一种乡音,促进普惠交互和

语音交互的三驾马车








