多模态大模型“卷”向智能文档，合合信息亮相PRCV 2023分享前沿成果

2023-11-14 09:54:20 来源：今报在线

小大

近期，第六届中国模式识别与计算机视觉大会（PRCV 2023）于厦门成功举办。会议汇聚国内国外模式识别和计算机视觉理论与应用研究的广大科研工作者及工业界同行，共同分享我国模式识别与计算机视觉领域的最新理论和技术成果。在《视言碰撞：语言模型与视觉生态协同论坛》上，合合信息图像算法研发总监郭丰俊博士就文档图像前沿技术热点话题进行了分享。

合合信息图像算法研发总监郭丰俊博士

随着AI行业迈入大模型时代，智能文档处理技术领域也迎来了新的机遇。郭丰俊表示，多模态技术可充分利用文档图像的视觉和语言属性，并借助语言大模型已取得的优异性能和技术积累，逐渐成为文档图像处理领域的热门研究方向。合合信息-华南理工大学文档图像分析识别与理解联合实验室对如何让模型更好地支持文档图像识别分析的前沿问题展开了研究，并在数据高效利用及垂直领域识别项目中取得了阶段性成果。

AI技术的兴起在带来机遇的同时，也带来了诸如图像信息造假一类的安全隐患，AI图像内容安全也成为了图像图形领域关注的重点。据郭丰俊介绍，合合信息在AI图像安全方面的工作也取得了较大的进展，其智能文档处理技术已覆盖图像预处理、解析识别到AI安全等文档图像处理全生命周期，图像篡改检测技术不仅能够应用于自然场景，还能应用于资质证书、文档合同、银行保单等截图的鉴别上，在端到端提升文件处理效率、准确率的同时，有效保障用户及企业数据安全。

针对图片生成式造假，合合信息基于空域与频域关系建模，利用多维度特征来分辨真实图片和生成式图片的细微差异，判断图片是否由AI生成。该项技术中多维度特征的分析方法能够更准确地判断图片的真实性，克服了生成式图片与真实图片相似度高的问题，对于保护个人信息安全和打击人脸伪造行为具有重要意义。

今年8月，合合信息技术团队在文档分析与识别国际会议（ICDAR 2023）上展示了上述相关方案。该方案能够在保持低误检率的同时，准确识别并定位图片中文本的篡改行为，从而有效保障文本信息的真实性，并一举夺得“文本篡改检测”赛道冠军，并已在银行、证券、保险多个场景中实现应用。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

关键词：

责任编辑：kj005

文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com

关键词：