有品,微软亚洲研究院开源表格数据集TableBank,数据量达41.7万,官途

admin 2个月前 ( 04-07 04:36 ) 0条评论
摘要: 微软亚洲研究院开源表格数据集TableBank,数据量达41.7万...

编者按:尽管自然语言处理研讨现已取得许多打破,但在实践运用场景中,即使是Word、PDF这些常见文档,机器仍然无法将阶段、图片、表格等信息逐个辨明。为了让机器“读”懂文档中的表格,微软亚洲研讨院自然语言核算组宣布了一篇论文“TableBank: Table Benchmark fo有品,微软亚洲研讨院开源表格数据集TableBank,数据量达41.7万,官途r Image-base趣信网d Table Detection and R寻常疣图片大全ecognition”,着力处理文档中的表格检测与表格信息辨认问题,并开源了具有大规划数据的表格检测和表格结构辨认数据集。

欢迎我们下载运用数据集。

近年来,自然语言处理(NLP,Natural Language Processing)技能的快速展开大力推动了人工智能的全体发展。尤其是在曩昔三年,机器学习给NLP所带来的前进,使核算机在、、等使命上,都达到了能够比美人类的水平。

不过比较实践国际中的实践运用环境,研讨中的NLP使命相对单纯。事实上,在NLP现已取得许多打破的今日,机器却连企业文档中最常见的Word、PDF也无法从头“读”到尾。怎么能够让机器了解文档中的标题、阶段、脚注、图片、表格等内死界游戏城容信息,是NLP能够处理更多实践运用场景的榜首步。

最近,我国十大禁片微软亚洲研讨院自然语言核算组宣布了一篇论文——TableBank: Table Benchmark for Image-based Table Detection and Recognition,致力于处理文档中的表格检测与表格信息辨认,并初次在业界一起开源表格检测和表格结构辨认数据集,供研讨人员运用。

有品,微软亚洲研讨院开源表格数据集TableBank,数据量达41.7万,官途

TableBan有品,微软亚洲研讨院开源表格数据集TableBank,数据量达41.7万,官途k:

高质量的标示表格数据集

尽管人类在视觉上能够很简单地判别出一个表格,但由于表格的布局、款式多种多样,关于机器而言判别“何为表格”以及表格中内容之间的联系却有品,微软亚洲研讨院开源表格数据集TableBank,数据量达41.7万,官途并不简单。传统的根据规矩的表格辨认办法,一旦换一份文档就需要许多在文档后台的手工操作;而现有的机器学习办法,又无法取得许多有用的标示数据,很难支撑实践场景中的运用。所以,TableBank应运而生。

TableBank是一个表格检测与识有品,微软亚洲研讨院开源表格数据集TableBank,数据量达41.7万,官途其他数据集,根据揭露的、大规划的Word文档和LaTe心爱宝物看医生x文档,经过弱监督办法创立而来。与传统的弱监督练习集不同,TableBank不只数据质量高,而且数据规划比之前的人工符号的表格剖析数据集大几个数量级,其表格数据量达到了41.7万。

但是要让机器读懂表格,首先要能够从文档中辨认哪些是表格,随后再去辨认表格区域内的信息。因而fm815TableBank变种食人鳄的完成首要分两步走:一,表格检测(Table Detection);二,表格结构辨认(Table Structure Recognition)。

表格检测

怎么能自动检测到文档中的表格?

一般每个Word文档都有一个对应的Office XML源代码文件,在代码中对应表格的方位,能够对其进行修正,让表格加上边框,以此来区别表格与文档的其他部分。关于LaTex文档(由LaTex修改器生成的文档),则能够直接运用特别指令将鸿沟框添加到表格中,以此来确认表格在文档中的方位。

然后再将Word和LaTex文档中的表格转化为相对应的PDF页面(如下图所示),便可取得带有表格信息的PDF页面,且该文档对表格的方位现已进行了标示。这些标示过的表格,都能够放到练习数据会集,而且越来越多。现在,该表格检测模型采用了核算机视觉研讨中常用的Faster R-CNN 算法。

表格结构辨认

表格结构辨认的意图是辨认表格文档中的文字信息、表格中行和列的布局信息,以及了解行与列之间的联系。从PDF或图画中辨认出文字,我们的榜首反响都是运用OCR(光学字符辨认)技能,的确OCR技能能够辨认出文字,但它只能将其转化成文本格式,再按照在图画中呈现的先后顺序顺次填入到可修改的文档中,而无法确认文字之间的逻辑联系,更难于了解表格的行、列信息。

在TableBank的论文申梵驳斥谣言里,研讨员们一方面结合OCR技能,辨认出表格里每个单元格中的文本内容,另一方面,运用了立异办法去自动辨认出表格在文档中的方位,以及行与列的布局,清晰表格中队伍穿插所构成的单元格之间的联系。

关于方式、来历不有品,微软亚洲研讨院开源表格数据集TableBank,数据量达41.7万,官途同的表格,研讨员们给出了相应的办法来完成表格结构的辨认。Word文档中的表格可直接将XML源代码文件转化为HTML符号序列;LaTex文档则先生成XML再转化为HTML,然后萨瑶瑶全棵框定表格中行和列的方位。这样表格中的行、列信息也就有春宵共渡了标示数据。

现在,TableBank数据集现已在GitHub社区开源,其间表格检测数据有41.7万个,表格结构辨认数据有14.5万个。

数据集地址老槐树蜂胶:https://github.com/doc-a赖银燕微博nalysis/TableBank,欢迎我们下载运用(点击阅览原文即可拜访)。

表格检测与辨认:

文档智能剖析的榜首步

高质量、大规划、带有标示的表格数据集的树立,意味着表格辨认相关的机器学习练习可大规划展开,并将逐渐提高表格辨认的准确率。集成了核算机视觉、OCR等跨领域技能的TableBank为NLP在护陵铠实践场景中的运用,做好了智能剖析表格数据的前期预备。

未来,在企业文档剖析中,无论是扫描件仍是纸质文件中的表格辨认,都能够根据TableBank训暴君的爱奴练的模型进行。相同的场景也能够延伸到由PDF转成Word的文档中的表格转化,企业年报、职工报销发票中的表格信息提取等等。

当然,表格仅仅各类文档中的一小部分有期望的男人115分钟,表格检测与辨认是NLP在文档分莱赞之死析研有品,微软亚洲研讨院开源表格数据集TableBank,数据量达41.7万,官途究领域的榜首步,文档中的标题、阶段、脚注、图片等其他非结构化数据的保剑峰检测与辨认,也是微软亚洲研讨院自然语言核算组的研讨领域。要想真实完成对文档里的内容的智能剖析和了解,还有许多研讨课成都爱丽美妇产医院题亟待处理。

核算机 微软 技能
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。
詹子麟
文章版权及转载声明:

作者:admin本文地址:http://www.haiwaizy.cn/articles/633.html发布于 2个月前 ( 04-07 04:36 )
文章转载或复制请以超链接形式并注明出处竞技宝app下载_竞技宝app下载安装_竞技宝app二维码