admin管理员组文章数量:1534194
发展起源
爱奇艺除了在音视频、推荐等深度学习的AI应用以外,也有不少数据挖掘、数据分析的传统机器学习应用场景,例如用户预测、风控等。传统的研发模式的痛点,就是会给算法人员和业务人员一些不便利,具体如下:
1. 用户代码基于单机脚本实现,处理环节长、耦合高,难以修改和扩展,长久以来可读性降低;
2. 同一业务下多个场景、同一场景下多个模型,在数据处理、模型训练等技术流程上类似,场景重复步骤和数据结果难以重复利用;
3. 场景不同导致存在周期训练、定时预估、实时预估等需求,对业务人员和算法人员的代码要求高,维护成本高;
4. 算法人员和业务人员对分布式机器学习的开发存在技术壁垒,导致数据量和模型复杂度受单机资源限制;
基于以上痛点,爱奇艺开发了面向通用的机器学习场景的一站式机器学习平台Deepthought,可实现可视化交互,能更加直观便捷的搭建适合业务场景需要的架构,以及实时预估服务,是算法模型部署至实际业务的重要环节。
业务需求
Deepthought在开发之初即考虑了以下基本业务需求:
1. 核心算法基于分布式机器学习框架封装,以开源封装为主、自研实现为辅,满足快速上线基本算法需求;
2. 对于机器学习和数据挖掘各个环节解耦,满足不同环节的输出结果可复用;
3. 与大数据平台通天塔深度融合,利用通天塔管理的项目、数据、调度实现机器学习任务的在线、离线场景的执行;
4. 减轻用户代码开发压力,通过可视化交互和配置方式,实现机器学习任务的编排,提升算法模型搭建效率。
总体架构与发展历史
Deepthought至今已迭代到3.0版,具体详情如下:
Deepthought v1.0版,面向具体业务的机器学习平台
属于反作弊业务使用的机器学习平台,主要将反作弊业务中的机器学习流程各个阶段解耦合,同时管理反作弊业务中的业务数据,例如黑名单、样本、特征管理。Deepthought v1架构如下图所示。
Deepthought基于Spark ML/MLLib封装了业务常用二分类模型,以及常用数据预处理过程,例如缺失值填充、归一化等。
Deepthought v1更多工作在特征管理和数据配置中,更加偏向反作弊本身的业务。在v1对Spark的封装和流程解耦串式调度执行的方式在后续Deepthought版本中继承了下来。
Deepthoughtv2.0版,面向通用业务的机器学习平台
在v1.0的经验基础上做了通用化改进,
本文标签: 一站式机器平台Deepthought
版权声明:本文标题:一站式机器学习平台Deepthought的建设与初探 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1726875519a1088299.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论