产品概述
REVIVE是一款数据驱动的强化学习(RL)工具包,集成了矢量智控通用智能决策算法,专注于解决真实“物理世界”建模难的问题,实现了强化学习控制算法走出游戏环境落地现实工业场景。
核心技术
 
 消除复合偏差
 让强化学习走进业务决策的核心
  
 更强的泛化能力
 通过还原奖励函数,跳出原有数据分布有效还原真实环境,具备更强泛化能力
  
 因果反事实推断
 考虑所有策略所有情况,使未见过动作模型也保持一致,具有更好的鲁棒性
 产品功能
 
 决策流图
 根据业务逻辑结合经验绘制,描述实际业务中智能体与环境的交互过程。
 环境学习
 基于数据与决策流图训练可模仿现实交互的虚拟环境。
 目标设置
 以数据函数作为表达形式,评价智能体与环境交互的行为。
 策略训练
 通过虚拟环境中按照特定目标训练,产生对应优化行为的模型。
 产品优势
多场景业务适配
 可视化决策流图设计,支持自定义函数,可灵活满足不同复杂度的业务需求
 开放环境
 基于环境模型学习核心技术,突破传统技术依赖封闭环境的屏障
 数据驱动
 少量数据即可进行环境学习,从而快速获得最优决策方案。