电子发票自动识别

关键词

智能发票扫描识别sdk软件接口发票智能识别 发票扫描识别 自动增票识别 发票识别接口 发票识别录入

一、智能发票扫描识别sdk软件接口应用背景

对于一些大型集团公司来讲,目前主要采用的依旧是分散式财务管理模式,而这就造成了企业财务管理效率不高,管理成本高等问题,同时也制约了集团企业发展战略的进行,所以需要建设FSSC财务共享中心。
而一个企业想建造FSSC财务共享中心,所面临的一大难题就是需要投入大量的人力、物力参与财务数据采集和处理工作,特别是财务票据的信息采集录入工作,更是难之又难、烦之又烦。

二、智能发票扫描识别sdk软件接口方案介绍

针对企业财务部门繁重的原始票据信息采集和管理工作,国内智能识别领域推出了智能发票扫描识别sdk软件接口解决方案-奥普快票通,通过利用发票OCR扫描识别技术,批量采集增值税发票等票据的影像和信息,并输出excel表格和结构化的数据,与传统的人工录入数据相比,大大的减少了财务人员的工作量,提升了其工作效率。

奥普快票通智能发票扫描识别sdk软件接口技术优势:

1、支持多种发票类型:增值税专用发票、增值税普通发票、电子发票PDF版、电子发票打印版。
2、支持多种文件格式:支持PDF、JPG、TIF、BMP等文件格式。
3、支持自定义编辑模板识别,可扩展火车票、财务凭证、银行对账单、定额发票等。
4、智能发票扫描识别sdk软件接口性能
(1)关键字段识别率>98%;
(2)处理速度>40张/分钟;识别时间<3秒;
5、产品形态可提供:发票专用扫描仪 + 快票通发票OCR识别客户端软件;服务器版;webservice私有云;移动端SDK;
6、支持各种识别场景,如扫描的发票、拍照的发票、粘贴在A4纸上的发票、高拍仪的发票等;

三、智能发票扫描识别sdk软件接口应用领域

1、信贷/银行/基金等行业:通过扫描识别增值税发票获取影像和发票数据,对企业的实际经营情况进行评估,减去大量人工整理企业资料的工作量。
2、拥有大量供应商的第三方平台:奥普快票通发票扫描识别解决方案可以缩减发票审核、录入、验证、流转这四个环节,极大地从中节省人力物力。
3、集团企业财务管理:增值税发票扫描识别获取影像和数据,并通过联网批量验真,便于企业财务发票管理、检索、对账、FSSC财务共享中心数据存储等。

More info: more


人工智能简述

发展历史

机器学习是人工智能( artificial intelligence)研究发展到一定阶段的必然产物.二十世纪五十年代到七十年代初,人工智能研究处于“推理期”,那时人们以为只要能赋予机器逻辑推理能力,机器就能具有智能.这一阶段的代表性工作主要有A. Newell和H. Simon的“逻辑理论家”( Logic Theorist)程序以及此后的“通用问题求解”( General Problem Solving)程序等,这些工作在当时取得了令人振奋的结果.例如,“逻辑理论家”程序在1952年证明了著名数学家罗素和怀特海的名著《数学原理》中的38条定理,在1963年证明了全部52 条定理,特别值得一提的是,定理2.85甚至比罗素和怀特海证明得更巧妙,A Newell 7和H. Simon因为这方面的工作获得了1975年图灵奖,然而,随着研究向前发展,人们逐渐认识到,仅具有逻辑推理能力是远远实现不了人工智能的E.A. Feigenbaum等人认为,要使机器具有智能,就必须设法使机器拥有知识在他们的倡导下,从二十世纪七十年代中期开始,人工智能研究进入了“知识期”、在这一时期,大量专家系统问世,在很多应用领域取得了大量成果.E.A Feigenbaum作为“知识工程”之父在1994年获得图灵奖.但是,人们逐渐认识到,专家系统面临“知识工程瓶颈”,简单地说,就是由人来把知识总结出来再教给计算机是相当困难的.于是,一些学者想到,如果机器自己能够学习知识该多好! 事实上,图灵在1950年关于图灵测试的文章中,就曾提到了机器学习的可能;二十世纪五十年代初已有机器学习的相关研究,例如A. Samuel著名的跳棋程序.五十年代中后期,基于神经网络的“连接主义”( connectionism)学习开始出现,代表性工作有F. Rosenblatt的感知机( Perceptron)、B. Widrow的Adaline等、在六七十年代,基于逻辑表示的“符号主义”( symbolism)学习技术蓬勃发展,代表性工作有P. Winston的“结构学习系统”、R.S. Michalski 等人的“基于逻辑的归纳学习系统”、E.B.Hunt等人的“概念学习系统”等;以决策理论为基础的学习技术以及强化学习技术等也得到发展,代表性工作有N.J. Nilson的“学习机器”等;二十多年后红极一时的统计学习理论的一些奠基性结果也是在这个时期取得的。

应用现状

在过去二十年中,人类收集、存储、传输、处理数据的能力取得了飞速提升,人类社会的各个角落都积累了大量数据,亟需能有效地对数据进行分析利用的计算机算法,而机器学习恰顺应了大时代的这个迫切需求,因此该学科领域很自然地取得巨大发展、受到广泛关注.
今天,在计算机科学的诸多分支学科领域中,无论是多媒体、图形学,还是网络通信、软件工程,乃至体系結构、芯片设计,都能找到机器学习技术的身影,尤其是在计算机视觉、自然语言处理等”计算机应用技术”领域.机器学习已成为最重要的技术进步源泉之一.
机器学习还为许多交叉学科提供了重要的技术支撑.例如,”生物信息学”试图利用信息技术来研究生命现象和规律,而基因组计划的实施和基因苗物的美好愿景让人们为之心潮潔屏.生物信息学研究涉及从”生命现象”到”规律发现”的整个过程,其间必然包括数据获取、数据管理、数据分祈、仿真实验等环节,而”数据分析”恰是机器学习技术的舞台,各种机器学习技术已经在这个舞台上大放异彩.

事实上,随着科学研究的基本手段从传统的“理论+实验”走向现在的“理论+实验+计算”,乃至出现“数据科学”这样的提法,机器学习的重要性日趋显著,因为“计算”的目的往往是数据分析,而数据科学的核心也恰是通过分析数据来获得价值.若要列出目前计算机科学技术中最活跃、最受瞩目的研究分支,那么机器学习必居其中.2001年,美国NASA-JPL的科学家在 Science 3杂志上专门撰文 Mjolsness and Decoste,200]指出,机器学习对科学研究的整个过程正起到越来越大的支撑作用,其进展对科技发展意义重大2003年, DARPA启动PAL计划,将机器学习的重要性上升到美国国家安全的高度来考虑众所周知,美国最尖端科技的研究通常是由NASA和 DARPA推进的,而这两大机构不约而同地强调机器学习的重要性,其意义不言而喻2006年,卡耐基梅隆大学宣告成立世界上第一个“机器学习系”,机器学习领域寞基人之一T. Mitchell教授出任首任系主任.2012年3月,美国奥巴马政府启动“大数据研究与发展计划”,美国国家科学基金会旋即在加州大学伯克利分校启动加强计划,强调要深入研究和整合大数据时代的三大关键技术机器学习、云计算、众包( crowdsourcing).显然,机器学习在大数据时代是必不可少的核心技术,道理很简单:收集、存储、传输、管理大数据的目的,是为了“利用”大数据,而如果没有机器学习技术分析数据,则“利用”无从谈起谈到对数据进行分析利用,很多人会想到“数据挖掘”( data mining),这里简单探讨一下数据挖掘与机器学习的联系.数据挖掘领域在二十世纪九十年代形成,它受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大Zhou,2003].数据挖掘是从海量数据中发掘知识,这就必然涉及对“海量数据”的管理和分析.大体来说,数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术.由于统计学界的研究成果通常需要经由机器学习研究来形成有效的学习算法,之后再进入数据挖掘领域,因此从这个意义上说,统计学主要是通过机器学习对数据挖掘发挥影响,而机器学习领域和数据库领域则是数据挖掘的两大支撑

模型评估与选择

经验误差与过拟合

通常我们把分类错误的样本数占样本总数的比例称为”错误率”(error rate),即如果在m个样本中有a个样本分类错误,则错误率E =: a/m;相应的, 1 _ a/m称为”精度”(MC皿My),即”精度=1-错误率”.更一般地,我们把学习器的实际预测输出与样本的真实输出之间的差异称为”误差”(error), 学习器在训练集上的误差称为”训练误差”(training enor)或”经验误差”(empirical error),在新样本上的误差称为”泛化误差”(generalization error).显然,我们希望得到泛化误差小的学习器.然而,我们事先并不知道新样本是计么样,实际能做的是努力使经验误差最小化.在很多情况下,我们可以学得一个经验误差很小、在训练集上表现很好的学习器,例如甚至对所有训练样本都分类正确,即分类错误率为零,分类精度为100%,但这是不是我们想要的学习器呢?遗憾的是,这样的学巧器在多数情况下都不好.
我们实际希望的,是在新样本上能表现得很好的学习器.为了达到这个目的,应该从训练样本中尽可能学出适用于所有潜在样本的”普遍规律”,这样才能在遇到新样本时做出正确的判别.然而,当学习器把训练样本学得”太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降.这种现象在机器学习中称为”过拟合”(overfitting). 与”过拟合”相对的是”欠拟合”(underfitting),这是指对训练样本的一般性质尚未学好.图2.1给出了关于过拟合与欠拟合的一个便于直观理解的类比.

有多种因素可能导致过拟合,其中最常见的情况是由于学习能力过于强大, 以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由于学习能力低下而造成的.欠拟合比较容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等,而过拟合则很麻烦.在后面的学习中我们将看到,过拟合是机器学习面临的关键障碍,各类学习算法都必然带有一些针对过拟合的措施;然而必须认识到,过拟合是无法彻底避免的,我们所能做的只是”缓解”,或者说减小其风险.关于这一点,可大致这样理解: