深度学习平台之技术栈
技术点:数据分布式存储,ib网络,分布式存储,存储数据管理任务分布式调度ib网络,多机多卡,万兆网络mongodb数据库docker隔离,训练框架caffe数据分析,自动化测试报告多维度分析海量数据量:几个T,几百万的小文件数,数据挖掘深度学习训练框架增强,多机,多卡,单机多卡,网络聚合不同训练框架的兼容和转换新技术:docker容器,k8s容器,nginx反向代理,mongodb数据库,mysq
技术点:
数据分布式存储,ib网络,分布式存储,存储数据管理
任务分布式调度
ib网络,多机多卡,万兆网络
mongodb数据库
docker隔离,训练框架caffe
数据分析,自动化测试报告多维度分析
海量数据量:几个T,几百万的小文件数,数据挖掘
深度学习训练框架增强,多机,多卡,单机多卡,网络聚合
不同训练框架的兼容和转换
新技术:docker容器,k8s容器,nginx反向代理,mongodb数据库,mysql数据库,caffe/pytorch,redis,django+uwsgi,(haddop,spark,gpfs)
产品:每一个场景都需要定制,数据量,时效性
市场:用户场景复杂,用户数据无法获取,需要对应场景定制,新兴市场
人才:工程人才+算法人才,工程+大数据分布式计算人才,容器云人才
性能指标和挑战:
技术:
1)分布式存储:高性能1PB,低性能 文件数/秒, 大文件带宽数/秒
2)数据管理平台QPS,标注平台,训练平台,自动化测试平台,(cpu,网络,磁盘io)
3)服务器数目500台
4)服务器运维监控,500台服务器,QPS:500/10 = 50条/秒 网络带宽:200m/秒 磁盘:200m/秒
5)用户数:标注用户:1000 训练用户:1000
6)任务数:qps:2000条/秒, 真实用户:1000条/秒
7)训练:500台服务器,每台服务器8张卡,最大并发任务数:4000个并发任务,文件数:4000*32/秒 = 128000文件数/秒
8)训练框架和性能优化,单机单卡,单机多卡,多机多卡
9)无法获取的用户场景和用户数据
10)多维度,多场景,不同框架的评审指标
11)automl的自动搭建问题
12)增强学习
13)公有智能云开发平台,安全,高并发,自动运维和报警
涉及部门:
1)数据标注组
2)算法组
3)优化组
4)集成组
5)市场
更多推荐
所有评论(0)