【金猿技术展】基于融合视觉信息的文档目录智能生成方法及系统——一种全面的认知的文档理解、文档处理技术
数据猿 | 2024-01-10 22:59
【数据猿导读】 该技术由实在智能投递并参与“数据猿年度金猿策划活动——2023大数据产业年度创新技术突破榜单及奖项”评选。

随着信息技术的迅速发展,每天都会产生大量的不同格式的文档,例如:Word文档、PDF文档、 图片格式的文档, 甚至是纸质文档。在阅读这些文档时, 常常会使用目录来筛选或快速定位所需要的信息。但是实际中大多数的文档没有目录信息, 此时如果依靠人工来手动生成, 会耗费一定的时间成本, 尤其是某一级标题下存在很多子标题的情况下, 时间成本会线性增长。因此, 亟需一种能快速准确的生成文档目录的方法, 在保证准确性的前提下提高目录生成的效率。基于此,实在智能提出了利用人工智能算法来对文档中目录智能识别并结构化的方法。
技术说明
本发明属于数据处理技术领域, 具体涉及基于融合视觉信息的文档目录智能生成方法及系统。本发明涉及基于融合视觉信息的文档目录智能生成方法及系统,包括对上传的文件进行文本视觉识别,得到视觉信息;视觉信息包括文本行信息及坐标;将视觉信息输入第一文本分类模型,输出目标换行标签;根据目标换行标签对文本行信息进行段落版式复原,得到文档段落信息;基于文档段落信息进行文档目录识别并判断是否存在目录;若是,则将文档段落信息中的目录删除得到目标文档;若否,则将文档段落信息作为目标文档;基于目标文档进行目录标题识别,得到初定目录标题信息;将初定标题信息输入第二文本分类模型,以验证初定目录标题信息中的各目录标题是否均为标题标签;若是,则将初定目录标题信息进行目录结构化输出。本发明的目录生成准确度高。
★专利申请号/公开号:CN115995087B
开发团队
·带队负责人姓名:孙林君
孙林君,吉林大学数学系学士,大连理工大学人工神经网络计算方向硕士,历任摩托罗拉、阿里巴巴资深算法专家,深耕大数据智能领域近20年。阿里期间主持开发智能决策维权客服及智能运筹中枢产品,支撑集团核心业务。2018年创立AI科技公司“实在智能”,基于AGI大模型+超自动化技术,领跑人机协同时代 。孙林君坚信用深度技术赋能产品创新,带领公司在科技创新领域深度探索,持续在核心底层人工智能技术及创新成果转化上大力投入,拥有60余项专利和200余项软著,位列行业第一,并于2022年获浙江省科学技术厅认定省级研发中心、2023年获浙江省专精特新中小企业称号,公司是RPA产品能力标准的编写单位,是中国信通院成立的RPA产业推进方阵的副理事长单位,引领包括技术、商业模式在内的行业风向。
团队其他重要成员姓名:马富欣
·隶属机构:实在智能
实在智能是一家基于AGI大模型+超自动化技术,领跑人机协同时代的人工智能科技公司。作为中国AI准独角兽和RPA行业头部企业,超自动化解决方案提供商,实在智能结合国产全自研的AI技术与RPA产品,助力政府企业实现数字化改革和转型升级。
公司总部位于杭州,拥有数百人研发队伍,是国家高新技术企业、浙江省专精特新中小企业。目前已通过全球软件成熟度最高级别认证CMMI-5,拥有近60项发明专利及数百项软件著作权等自主知识产权。在北京、上海、广州、深圳、成都、南京、济南及日本东京等地设有子公司和办事处,为国内外客户提供一站式服务。已服务包含金融、制造、运营商、电商、烟草、能源、交通等领域为代表的2000+客户。
相关评价
“实在IDP智能文档审阅平台拥有上百种开箱即用的审阅模型,能够加速数据在系统与系统之间、系统与组织之间以及组织与组织之间的传递,帮助财务人员从事后财务走向一线业务,帮助企业构建业财深度一体化的数字化财务管理平台。作为全球高端节能机械设备制造商,德耐尔率先在财务领域引用实在RPA数字员工,在提质增效的同时,降低生产环节能耗,既帮助我们实现数字赋能,又和我们节能降碳的理念相契合,走出一条绿色智造的道路,为我们的高品质生产保驾护航。”
——德耐尔财务负责人
张杰
"通过IDP集成进我们的合同处理业务流程,实现业务人员提交合同预审文本与标准合同比对,法务人员终审缩短合同审核时间,实现AI风险审核,提升法务处理效率,同时快速支撑业务开展。”
——菜鸟物流
实在IDP在多个核电站落地,助力核电在项目文档的管理、规范、合规以及非结构化信息抽取的抽取采集上实现智能化,疏通CNG业务受到的堆积如山的限制。
——某核电集团
来源:数据猿
刷新相关文章
我要评论
不容错过的资讯
大家都在搜
