知识与推理是人类智能的基础,计算机要实现推理与决策,则需要解决三个问题:知识表示与推理形式、不确定性知识表示与推理、常识表示与推理。
牌类是不完全信息博弈,计算机打牌要比下棋困难得多。2017年人工智能才在6人无限注德州扑克牌上战胜了人类。牌类是概率确定性问题,而现实环境是完全不确定的,甚至是对抗环境,因此复杂环境下的自主决策具有很大的挑战性。
对抗场景下的自主决策的挑战主要有两个方面:环境的动态性和任务的复杂性
(1)环境的动态性包括不确定条件、不完全信息、形势动态变化、实时博弈;(2)任务复杂性包括信息采集、进攻、防守、侦察、骚扰等。
对抗场景下的自主决策通常利用常识和逻辑演绎弥补信息的不完全性,进而通过融合人类领域知识和强化学习结果生成预案,协助做出正确决策。
复杂环境下的自主决策还需要解决如何适应环境变化而相应地做出决策变化的问题。比如自动驾驶将物体识别出来后建立模型,在此基础上做实时的驾驶规划,但难以应对突发事件。因此自动驾驶还需要驾驶的知识和经验,需要在与环境的不断交互过程中学习这些经验知识,即强化学习。
因此智能赋能的安全系统的威胁检测与防护的自主决策能力是衡量其智能程度的关键指标之一。参考自动驾驶系统的分级,可构建一个智能安全自主度模型。