一站式机器学习平台Deepthought的建设与初探|电子爱好者

admin管理员组
文章数量:1534194

发展起源

爱奇艺除了在音视频、推荐等深度学习的AI应用以外，也有不少数据挖掘、数据分析的传统机器学习应用场景，例如用户预测、风控等。传统的研发模式的痛点，就是会给算法人员和业务人员一些不便利，具体如下：

1. 用户代码基于单机脚本实现，处理环节长、耦合高，难以修改和扩展，长久以来可读性降低；

2. 同一业务下多个场景、同一场景下多个模型，在数据处理、模型训练等技术流程上类似，场景重复步骤和数据结果难以重复利用；

3. 场景不同导致存在周期训练、定时预估、实时预估等需求，对业务人员和算法人员的代码要求高，维护成本高；

4. 算法人员和业务人员对分布式机器学习的开发存在技术壁垒，导致数据量和模型复杂度受单机资源限制；

基于以上痛点，爱奇艺开发了面向通用的机器学习场景的一站式机器学习平台Deepthought，可实现可视化交互，能更加直观便捷的搭建适合业务场景需要的架构，以及实时预估服务，是算法模型部署至实际业务的重要环节。

业务需求

Deepthought在开发之初即考虑了以下基本业务需求：

1. 核心算法基于分布式机器学习框架封装，以开源封装为主、自研实现为辅，满足快速上线基本算法需求；

2. 对于机器学习和数据挖掘各个环节解耦，满足不同环节的输出结果可复用；

3. 与大数据平台通天塔深度融合，利用通天塔管理的项目、数据、调度实现机器学习任务的在线、离线场景的执行；

4. 减轻用户代码开发压力，通过可视化交互和配置方式，实现机器学习任务的编排，提升算法模型搭建效率。

总体架构与发展历史

Deepthought至今已迭代到3.0版，具体详情如下：

Deepthought v1.0版，面向具体业务的机器学习平台

属于反作弊业务使用的机器学习平台，主要将反作弊业务中的机器学习流程各个阶段解耦合，同时管理反作弊业务中的业务数据，例如黑名单、样本、特征管理。Deepthought v1架构如下图所示。

Deepthought基于Spark ML/MLLib封装了业务常用二分类模型，以及常用数据预处理过程，例如缺失值填充、归一化等。

Deepthought v1更多工作在特征管理和数据配置中，更加偏向反作弊本身的业务。在v1对Spark的封装和流程解耦串式调度执行的方式在后续Deepthought版本中继承了下来。

Deepthoughtv2.0版，面向通用业务的机器学习平台

在v1.0的经验基础上做了通用化改进，

本文标签：一站式机器平台 Deepthought

版权声明：本文标题：一站式机器学习平台Deepthought的建设与初探内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1726875519a1088299.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

【数据集】机器学习数据集汇总（附下载地址）

2天前

点击上方，选择星标或置顶，每天给你送干货！ 阅读大概需要15分钟跟随小博主，每天进步一丢丢整理：AI蜗牛车大学公开数据集 (

LiveGBS流媒体平台GBT28181用户手册-版本信息:查看机器码、切换查看流媒体服务

2天前

LiveGBS流媒体平台GBT28181用户手册--版本信息:查看机器码、切换查看流媒体服务 1、版本信息1.1、查看机器码1.2、多个流媒体服务1.3、提交激活 2、搭建GB28181视频直播平台 1、版本信息版本信息页面&

Kaggle平台5个月2块银牌晋级Competition Expert历程

2天前

目录赛前学习经历第一个kaggle赛-CV分类赛第二个kaggle赛-CV分割赛赛前学习经历参加Kaggle赛从2020年12月开始，在此之前参加了3次百度飞桨的课程。目标检测7日打卡营、图像分割7日打卡营和论

借助国内ChatGPT平替+剪映百度AIGC平台快速制作短视频

2天前

系列文章目录借助国内ChatGPT平替MindShow，飞速制作PPT 借助国内ChatGPT平替markmapXmind飞速生成思维导图利用ChatGPT编写Excel公式，对比讯飞

电商商业平台技术架构系列教程之：电商平台安全与隐私保护

1天前

作者：禅与计算机程序设计艺术文章目录 1.简介1.1 概览1.2 本系列教程特点二、产品概述2.1 功能介绍2.2 特性2.3 发展历程2.4 电商平台安全与隐私保护概述（1）用户身份识别技术1）社交网络：2）手机号码：3）邮箱：4）其

Unity开发-网络.算法.平台相关知识！

1天前

A. 网络相关知识一、TCP 1、面向数据流。可靠。能保证消息到达顺序。 2、滑动窗口。控制发送量，发送方只能发送窗口内大小的数据包。防止发送方发送的数据过多，接收方无法处理的情况。 3

电脑开机突然变得很慢？是机器老化么？你该了解了解这些了

1天前

让电脑启动更快的十四招 ： 一、BIOS的优化设置在BIOS设置的首页我们进入“Advanced BIOS Features”选项，将光标移到“Frist Boot Device”选项&am

AMD平台配置安卓模拟器步骤

1天前

1.打开虚拟化，进入BIOS，搜索SVM，改成允许 2.关闭Win10的Hyper-V和Windows Hypervisor Platform 和 Windows Sand

Windows 平台下AMD 显卡加速pytorch训练

1天前

Windows 11已经支持使用directml加速 pytorch了。 2024.5.24 更新，新的torch-directml 包已经发布，完美支持常用算法。 -------------

暴风云视频平台SDK使用介绍（一）-- 概述

1天前

暴风影音推出了自己的云视频平台 ，提供了视频存贮，转码以及播放等服务，你可以借助这个平台创建自己的视频应用。我们将通过一系列文章对此进行介绍概述文件上传网页播放

暴风云视频平台点播SDK使用介绍（三）-- 视频播放（IOS）

1天前

本教程介绍使用暴风云视频 IOS平台播放器的SDK，快速构建一个视频点播功能的APP。下载SDK 访问暴风云视频平台官方网站的SDK页面，进入一站式视频点播，找到SD

【人工智能】人工智能、机器学习和数据工程 InfoQ 趋势报告 - 2021 年 8 月

1天前

关键要点我们看到越来越多的公司使用深度学习算法。因此，我们将深度学习从创新者转移到了早期采用者类别。与此相关的是，深度学习存在新的挑战，例如在边缘设备上部署算法和训练非常大

springboot网上购物平台的设计与实现-附源码141422

1天前

摘要随着Internet的使用越来越广泛，在传统的商业模式中，对于日常各类商品，人们习惯于到各种商家店铺购买。然而在快节奏的新时代中，人们不一定能

ChatGPT爆火后：API与平台战争

13小时前

无界社区是一个跨学科的创新组织，由设计师和工程师组成的开放式线上协作组织。我们正在寻找对跨学科内容感兴趣、敢于尝试新方法并乐于分享想法的人士。如果你准备好加入一个开放、协作、有思想并能够凸显你独特性格的大家庭&

突发！李开复宣布加入中文版ChatGPT大战！要打造AI 2.0全新平台！

13小时前

点击下方卡片，关注“CVer”公众号 AICV重磅干货，第一时间送达点击进入—>【计算机视觉】微信技术交流群转载自：APPSO 1123转载自刚刚&#x

腾讯AI开放平台使用尝试：通过文本翻译API进行汉译英

11小时前

这篇文章继续尝试使用腾讯AI开放平台提供的文本翻译API进行汉译英的示例说明。目录事前准备请求参数返回格式示例代码使用示例常见问题总结参考内容事前准备实现需要申请申请账号，获得如下接入凭证： AppID：应用IDAppKey：应用

Android平台使用MediaCodec进行H264格式的视频编解码

5小时前

Android平台使用MediaCodec进行H264格式的视频编解码 Android多媒体简介MediaCodecMediaExtractorMediaMuxH264关键词 Android多媒体简介提起android中的多媒体&am

一号通网络浏览平台畅想

4小时前

一号通网络浏览平台畅想 1、需求分析现有的网址导航大多大同小异，仅仅是简单地将各个网址挂上去，然后通过安装免费软件时很流氓地将用户的浏览器设定为以自己为首页。这种方式很