大华股份：年内将推行业视觉大模型首先应用于城市管理- DoNews

DoNews7月24日消息，近日，媒体专访了大华股份（002236.SZ）先进技术研究院院长殷俊，他带领的团队从2019年开始负责视觉领域大模型的研发。殷俊透露，大华股份有望于年内发布自己的大模型。

财联社报道，据了解，大华没有选择以GPT为代表的生成式语言模型，而是选择面向不同业务场景研发行业专属模型，以精确度为前提，正确、客观地识别和解析，落地行业会优先在城市管理、电力、物流等行业展开。

殷俊认为，应用落地是衡量大模型成功与否的唯一标准。因此，大华专注于在已有的应用场景加速落地，这也是目前急需突破的方向。

殷俊表示，大华从2019年开始做，那时候还不叫大模型，称为Transformer技术。团队用ViT技术做半自动化标注方案，节省很多人力，2020年初就有了检测+分割+分类的自动化标注模型。

2023年年初大模型研讨会之后，公司决策要做行业专属大模型，并额外追投研发预算，也追加了40-50个算法人员的投入。

公司对大模型确立了三个方向：第一，大华不做主流的通用大模型，而是面向业务场景做行业专属大模型；第二，大华不做ChatGPT那样的文本生成式AI，还是围绕视觉方向；第三，大华要重点投入私有化部署，因为大华客户的很多数据是需要做到合规安全，要用到私有云。大华会在不同时间段推出各类行业大模型，2023年就会发布。

大华的大模型不是针对金融领域的数据分析，而是通过数智化手段提升管理质量和效率。以城市管理为例，针对一个路口就有几十条纷繁多样的管理规范要求，包括出摊经营、井盖识别、小广告“牛皮癣”、盲道侵占等等。大华的优势是有丰富的行业客户、行业经验、行业的作业流程经验。

通用大模型对云厂家很友好，但需要非常大体量的算法去跑，采用超大规模参数的算法对用户的使用成本太高，大华会在训练和推理优化技术上做一个平衡，让用户在成本可控的情况下使用大模型。

殷俊表示，大模型研发难点有很多，首先是在视觉领域没有可参照的模型架构，和现在大众认知的AGI、AIGC技术方向存在差异，在CV（Computer Vision计算机视觉)领域完全靠自己搭建。

因为选择路径不同，所以在数据源的处理上，也要靠自己摸索，包括数据对齐、图像描述等。训练框架也是个难点，多模态大模型是由多个大模型组合的，数据输入以视频为主，音频、雷达、激光数据为辅，输出都要以文本为主，视频转换为文本的过程都需要自己摸索。

此外落地的难点还有如何将模型小型化，这也是大华下半年的重点，例如研发出一套100亿参数的大模型，怎么用算法把它小型化，让这个模型可以低成本地运行起来。大算力高成本的大模型很难打动客户，我们一定要先去帮客户考虑使用成本的问题。

之前说到大华的私有云部署，这也涉及到成本控制，公有云用户考虑服务费用，而私有云用户因为要自己搭建云，所以关注服务+建设两部分的成本，对成本控制更在意。

目前大华考虑在城市管理行业优先落地大模型，因为城市管理的需求非常多，环境千差万别，任务需求多但需求明确；其次就是电力行业，仪器仪表操作复杂、设备种类繁多且安全性要求高。此外，像物流行业中的条码扫描，有很多遮挡、破损、污迹、移位各方面的问题，大华也想试试大模型能不能进一步提升类似的识别能力。

殷俊表示，现在大家都在做的通用大模型，很耗算力，大模型又在风口上，算力很难采购，导致了一个争夺算力的局面。他觉得并非算力越大模型就越好，而且大华做行业专属大模型，不需要那么大参数量的算法体系。对大华来说，大模型已经有雏形，重点是如何落地，大华是奔着产业化去的，不能只停留在技术层面，“只能看不能用”是不行的。

殷俊认为，公司选择做大模型，要看是否对主营业务有所升级，比如科大讯飞（002230.SZ）的大模型可以提升NLP业务，百度大模型可以升级搜索引擎，恒生大模型对金融数据分析业务有提升。所以大华也会首选在现有业务的基础上，根据客户需求去研发大模型。

大模型技术能够不断增强智慧视觉等垂直应用领域解决方案的竞争力，解决现在的问题和大量的需求，帮助大华不断完善方案。当然大模型的发展对公司在研发成本控制、资源整合、精细化管理等方面也有很大帮助。

未来行业肯定会洗牌，能快速产业化的公司才能活下来，每个细分领域会出现头部玩家。大模型技术也会对已有的行业格局有所冲击，布局方向对不对，能不能落地，都是很关键的节点。