科达首席科学家章勇博士：大模型驱动行业AI创新与变革

来源：投影时代　更新日期：2023-09-12 作者：pjtime资讯组

年度评选盛典获奖揭晓 Infocomm China 深入报道年度商显市场最大的看点何在

9月8日，2023中国（厦门）安防人工智能创新峰会上，科达首席科学家章勇博士发表了《从感知智能到决策智能—AI技术在安防领域的变革》的主题演讲，重点聚焦安防+AI，大模型技术落地安防行业的广阔前景与科达实践。

从深度学习技术到近两年兴起的大模型技术，近十年，人工智能技术加速演进，引领各行各业加速向智能化跃升。

章勇博士表示，现代人工智能的发展，为像科达这样的安防厂商带来了全新的活力和机遇。在人工智能领域，科达已有9年技术积累。2014年，科达就推出业内首款感知型摄像机，使摄像机具备目标检测、属性分析等感知能力，推动平安城市智能分析实现规模化部署和应用；2020年，科达率先提出了AI像素级推理，发布AI超微光摄像机，为解决低照成像的难题带来新范式，目前已在上海、武汉等20多个城市落地，有效改善了光污染，实战优势明显。

目前，采用感知智能技术的多种产品和解决方案已在安防领域成功落地，成熟发展，持续优化。另一方面，在认知智能领域，传统的深度学习模型无法很好的完成感知信息的深度理解和自然语言信息的深度理解两大主要任务，迫切需要新的人工智能范式来引领解题。

着眼于大模型技术与安防行业实际应用场景，科达给出了面向未来的对策——大模型KD-GPT。KD-GPT包含了三类大模型，分别是多模态大模型、行业大模型和AIGC大模型。科达大模型的生成式、多任务、行业化的优点，将给安防行业的认知智能方向上的飞跃提供强有力的武器。

人工智能的时代仍在推进，在大模型的加持下会朝着决策智能的方向继续前进，但另一方面，大模型仍有很多关键技术有待攻克，安防行业进入决策智能的时代任重道远，科达将不断强化自身技术，加速智能创新发展，与行业伙伴携手共同迎接智能新时代的到来。

了解更多干货，详见章勇博士的演讲全文（共3038个字，约需15分钟）

从感知智能到决策智能

AI技术在安防领域的变革

人工智能技术，从上世纪五十年代提出以来，已经经历了七十多年的发展。但人工智能成为全社会各行业进行产业化升级的基础技术，进而成为全球各国极为重视的关键战略发展方向，还是最近这十年的事情。

现代人工智能的出现，从基于深度学习技术的感知智能开始，我们称为AI 1.0时代。所谓感知智能，是让机器真正具备像人一样的视觉、听觉、触觉等感知能力。这也是人工智能在安防领域最为成功的落地应用，比如特定目标的检测与分析。另一方面，人们显然不满足于人工智能只是看到、听到、加工信息，而是希望机器能像人一样进行学习、思考和推理，这就进入了认知智能的领域。近两年来，随着大模型的兴起，人工智能技术迈向认知智能的步伐已大大加快，有了突飞猛进的发展。AI 2.0是一道分界线，2.0以下我们认为传统深度学习模型占据主导地位，而2.0之后的人工智能发展，更多的大模型技术将不断涌现。再往前看，展望未来，我们希望人工智能技术能真正成为人工大脑，代替人类进行决策判断，这是我们称之为AI 3.0的决策智能时代，对人工智能技术来说，还有很长的一段路要走。

现代人工智能的发展，为像科达这样的安防厂商带来了全新的活力和机遇。回望苏州科达的人工智能发展历史，我们从2014年就推出了第一台感知型摄像机，代表着我们从感知智能进入了现代人工智能赛道，这九年人工智能技术的沉淀，为我们公司的安防产品、业务服务，解决方案带来了极大收益，涌现了一个又一个明星产品，比如科达的车辆二次分析系统、大规模的人像分析平台、视综产品、AI超微光摄像机等等，产生了巨大的经济效益和社会效益。

AI 1.0：基于深度学习的感知智能

感知智能是指将物理世界的信号通过摄像头、麦克风或者其他传感器采集设备，借助语音识别、图像识别等前沿技术，映射到数字信息世界，将多元数据结构化，并用人类熟悉的方式去沟通和互动。人们希望机器不是简单的采集信息，而是能够像人一样去感知信息，这一愿望最终成为现实，完全得益于十年前出现的深度学习算法，带来了我们称之为AI 1.0的技术革命。

在安防监控行业，最先得到应用的深度学习算法的就是对人、车、物等感兴趣目标的分析，比如，与人相关的人脸识别、人体识别、衣着检测、手势识别和行为分析等；与车辆相关的车型、车标、车牌、车色识别、车辆坏损分析、以及非机动车的识别和属性分析；以及其它物体，如船舶、动物等等。

当前，这些基于深度学习的感知智能算法已经成为了安防领域各个应用中必不可少的工具，不仅大大减轻了人类的工作量，而且AI也看得更准更清楚，因此成为在各个安防应用中占据主导地位，为用户带来极大价值的功能。有关这些算法的优化工作也一直在持续。

AI 2.0：大模型驱动的认知智能

人们希望AI为我们做更多的事情，不仅仅满足于对一个感兴趣目标进行分析，而是对场景具备一定的理解和学习能力，也就是希望机器能具备初步的认知智能。

认知智能是以人类认知体系为基础，以模仿人类核心能力为目标，以信息的理解、存储、应用为研究方向，以感知信息的深度理解和自然语言信息的深度理解为突破口的新一代理论、技术及应用系统的技术科学。

认知智能的两大方向，感知信息的深度理解和自然语言信息的深度理解，在安防领域都有直接的应用。首先我们来看在安防领域中对感知信息的深度理解，有别于AI 1.0时代对人、车、物等特定目标的分析，在安防领域还有非常多的泛监控应用，比如在交通、政法、城管、校园、工地等场景下的人群态势、安全事件、数据参量甚至卫生环境分析。这些应用，更多的强调了场景中目标与目标，目标与周围环境的相互关系，因此需要人工智能具有一定的理解和辨识能力。我们称之为场景图像理解，一些典型的例子包括交通事件分析（如行人穿越、障碍物检测、非法停车）；道路安全事件分析（如淹水、积雪、大雾、火焰）；人员聚集、市域治理类事件分析（如占道经营、乱丢垃圾、黑烟车）。

用传统深度学习算法来完成这些场景理解任务是非常困难的，由于这些场景的多样性和任务的多变性，带来了数据难以采集、标注困难、标注成本高、算法泛化性能差、鲁棒性不足、算法交付时间长、可扩展性差等诸多问题，这些问题不解决，认知智能的第一个突破口就无法攻克。

另一个在安防领域中的认知智能方向，是基于自然语言信息的行业知识理解，对于安防厂商提供的行业解决方案，就必须要考虑行业知识的应用。传统上，这部分的应用是由知识图谱来完成的，如公安知识图谱，通过数据分析、文本语义分析等手段，抽取出人、物、地、机构、虚拟身份等实体，并根据其中的属性、时空、语义、特征、位置联系等建立相互关联，构建一张多维多层的、实体与实体、实体与事件的关系网络。

如司法的知识图谱，将法律领域中的实体、属性和关系进行体系化梳理，并建立逻辑关联，通过知识图谱技术进行数据挖掘、辅助决策、洞察知识领域动态发展规律。

但是，知识图谱构建与应用，有非常多的挑战，很难推广。首先，构建知识图谱需要大规模自动化知识获取，知识图谱需要大量的知识作为基础。知识来源包括结构化数据、非结构化数据以及半结构化数据，手工从知识来源中提取的方法满足不了大规模的构建需求；其次，需要建立高质量的知识图谱构建模式，需要定义清晰的实体和关系，使用合适的数据源和知识表示方式；此外，需要持续更新迭代知识图谱，知识本身不是封闭的，而是在不断的扩展和变化，知识图谱难以处理不完整或是动态变化的知识。

那么，对于认知智能的这些问题，我们的对策是什么呢？这就是大模型，我们推出了KD-GPT，包含了三类大模型，分别是：多模态大模型、行业大模型，和AIGC大模型。

KD-GPT是生成式的AI模型，有非常多的优点，这里就不一一赘述了。下面说说KD-GPT大模型两个最基本的优点，首先大模型是多任务的，以前的深度学习模型，是一个模型对应一个任务，而现在大模型，则是一个模型可以应对多个下游任务；其次，KD-GPT大模型的网络，初步具备了信息的检索和思考理解能力，当然这是和大模型基于Transformer的结构分不开的。

下面我们就来看看科达的多模态大模型，这个大模型可以解决所有数据难问题，比如我们要检测一幅图片中是否有烟雾出现，我们只要输入提示语：“烟雾”和待检测的图片，大模型就可以直接输出检测结果，无需成千上万张的烟雾图片进行训练。