首页 馆藏资源 舆情信息 标准服务 科研活动 关于我们
现行 T/JSIA 0003-2020
到馆阅读
收藏跟踪
购买正版
基于强化学习的智能化决策系统标准
发布日期: 2020-02-28
实施日期: 2020-02-28
主要技术内容:1主要要求1.1 环境要求对不同的应用场景进行梳理,提供具有通用接口设计的仿真环境,允许比较不同的强化学习算法。并通过仿真环境测试实际系统。具体包括:环境的使用方式,环境对外统一的自定义接口规范等。1.2 观察强化学习是典型的“智能体-环境”循环实现,交互时智能体选择一个行动,环境返回一个观察和奖励值。1.3 空间用来描述有效的动作和观察,是环境的属性,智能体与环境交互时可以直接根据环境提供给系统的接口进行交互。1.4 策略策略的输入为状态和动作,并返回在输入状态的情况下采取输入动作的概率。2 运行设计2.1 环境配置环境配置主要是对初始状态的基本环境信息进行配置,有加区分对不同状态进行学习和挖掘,提升强化学习算法实验的结果。2.2 可视化展示实时可视化展示当前场景的相关环境信息,便于开发人员观察效果,并对算法进行相应的调优工作。2.3 交互规范智能体与环境进行交互可分为两类:人机交互和自动交互。a) 人机交互, 人根据系统设计相应的交互方式和系统进行交互,而机器则直接依据智能算法生成相应的策略进行输出,并在界面上动态显示。b)  自动交互,交互双方则均是依据机器生成相应的策略进行输出,并在界面上动态显示,无需人的参与。2.4 策略生成策略生成模块则是针对不同的应用场景均内置相应的基准策略用于和设计的算法效果进行对比。2.5 数据库存储数据库操作模块的主要功能是对系统中的参数配置信息和数据文件进行存储,为策略生成模型的模型训练提供可靠数据。3 使用性能要求3.1 安全性3.1.1 系统的安全分析、安全设计、安全使用、安全管理等,应该遵循下列的原则要求:a)有限授权原则系统应能控制用户的使用权限,规定必要的最小授权范围,应能控制操作者的使用权限和使用等级,防止对系统信息的越权使用、修改和调阅;b)全面确认原则系统应能对采集数据的合法性、输人数据的有效性、信息处理的正确性、传输数据的安全性等进行确认;c)安全跟踪原则对系统的信息处理过程应设置完善的跟踪目标,具有安全的跟踪力,随不规范的操作可以自动记录并提示;d)既要充分有效地把系统可能造成的危害减少到能承受的最小程度,又要避免付出与其效果不相称的过高的投资代价或系统资源代价,从而取得综合性的、最佳的安全。3.1.2 系统应能对重要信息资料能够给予相应的操作权限,以防重要数据、文件等被破坏。3.1.3 系统应具有防范计算机病毒产生、侵人和传播的能力。系统内的重要部位应有防病毒措施,重要程序和文件应设置禁写保护。3.1.4 系统的电气安全、环境安全等要求应符合G881、G1295中的有关规定。3.2 保密性3.2.1 系统不能因用户有意或无意的不正当操作而破坏。3.2.2 系统处在不保密环境时,应有严密的保护措施,确保系统内指挥信息、文电、情报数据等在严格安全保密条件下传递、处理和使用。3.2.3 系统对重要信息应采用加密技术进行保护。3.2.4 系统加密软件本身应具有防拷贝、防改、防静态分析等自我保护措施。3.3 可靠性3.3.1 系统及分系统应规定定性要求和验收准则。可用故障模式与影响分析等方法,发现薄弱环节,采用工程保证,生产质量保证等措施,降低致命性故障发生的概早,保证系统的可靠性。3.3.2 系统应采用冗余设计,必要时关键模块应采用双机备份,保证系统具备一定程度的容错性
分类信息
关联关系
研制信息
相似标准/计划/法规