银行金融行业专栏

分析师和记者会失业吗？——金融自动化报告现状、发展与未来

原创 2016-08-23 _张强_ 文因新三板文因新三板

上周六（2016年8月20日）由文因互联CTO、联合创始人张强主讲智能金融沙龙第10期——“金融自动化报告现状、发展与未来”。

报告自动化是自然语言生成在金融领域的应用，它涉及的底层技术有知识抽取、自动文本摘要、自动可视化摘要、可视化、知识图谱等。想知道机器真的能取代人生成报告吗？分析师和记者会失业吗？以下是沙龙内容，enjoy :)

近年，国内在机器人写作领域出现了一些产品后，引发大家的讨论和关注。诸如“机器人写作会取代人的写作吗？”和“分析师和记者会会因此而失业吗？”的讨论有很多，相信大家都有自己的判断。而我主要是通过本次沙龙给大家梳理一下里面的逻辑和一些坚定的信念，希望大家都能通过这20多分钟的presentation，找到自己满意的答案。

分析师和机器人在做什么？

首先，既然要讨论分析师和记者会失业吗，我们就先来看看分析师和记者在做什么。

我在过去的一段时间通过接触一些新三板行业的分析师，对分析师的日常分析逻辑已经有了一些初步的了解。通常，分析师获得需要分析企业或者是标的后的第一阶段是从各种渠道获得企业信息和公开数据，对企业形成一个基本面的了解。进入第二个阶段就是对标的企业会做一些尽职调查，然后最后一个阶段就是通过收集的所有数据来撰写一个分析报告，其中包括一些公司亮点和投资风险的提示。

这样一份报告的特点就是它在语言层面上语言流流畅。除此之外，报告里会含有一些公开数据和分析师与企业的沟通后得到的一些内部数据，还有分析师的推理和一些背景知识的结合，所以在内容上也非常丰富。这些就是分析师报告的特点，那么接下来我们看看目前市面上的机器人写作产品能达到一个怎样的状态。

搜狐智能报盘

第一个是搜狐最近推出的智能报盘，是根据交易数据来进行一些模板的匹配写作，然后列举一些公开领域上的发布。据说智能报盘要比人工编辑快5分钟，所以特点是速度快、有时间优势。

今日头条机器人

第二个是近期在奥运会的时候今日头条上线的运用人工智能机器人张小明。机器人张小明是今日头条头条实验室的研发成果，其「写稿」模块是由头条实验室与北京大学计算所（万小军团队）联合研发而成。

这是国内第一款可以报道奥运赛事的人工智能机器人，在结合了最新的自然语言处理、机器学习和视觉图像处理的技术之后，通过语法合成与排序学习生成新闻。相比国内第一代写稿机器人——腾讯的「Dreamwriter」和第一财经的「DT 稿王」，张小明的写稿技术已经进入是第二代写稿水平。与第一代机器人相比，第二代张小明有着速度快、样式多、自适应自动配图的特征。

尽管这个张小明机器人的写的稿件仍然具有一些模板的痕迹，但是写稿机器人可以在6天内生成近200多篇的报道，这对于记者来说是目前无法完成的一个任务，同时也是机器人写作在速度与时间上的巨大优势。

Automated Insights的Wordsmith

Automated Insights的主打产品是Wordsmith自动化报告生成平台，主要用户包括美联社，yahoo等公司，为他们提供大量的咨询，报告生成服务。

下面的这个例子我们可以看到，用户用户输入了一个财务数据表格，Wordsmith，根据这段数据生成了财务数据的描述信息，同时还关联到了Zack Investment Research对这个公司的财务报表的分析。这里我们可以看到，Wordsmith可以根据用户输入，找到关联数据，从而进一步丰富报告的内容。所以可以说Wordsmith特点就是基于知识库的数据关联和聚合。

人的写作 vs 机器人写作

人工写作的优点是语言流畅、内容丰富、丰富Insights。而机器人的优点是生成快、内容相对丰富、简单分析罗列。从现有产品的对比来看，人能够写出具有高质量观点的文章，而从机器人写作上看，除了生成速度方面有优势外，并没有什么特别的地方。那我们从技术角度出发，看看短期内机器人写作有没有可能获得巨大发展。

机器人写作背后的技术

机器人写作背后有很多技术在支撑，自然语言处理、机器学习、词法分析、语法分析等等。这里就不一一展开去描述了，我们主要来介绍一下自然语言理解和自然语言生成这样两个技术。

从数据处理流水线我们可以看出，自然语言理解主要的作用是将原各种个样的始数据转换成结构化数据，而自然语言生成的作用是将生成好的结果化数据，最终转换成描述性文章。对于机器人写作，输入数据的不同，会导致处理流程稍有不同，如果说输入已经是结构化数据，那么自然语言理解这个步骤就可以跳过。

自然语言理解(NLU)

自然语言理解（NLU)是将各式各样的原始数据转换成具有一定内部逻辑的结构化数据的这样一个过程。

首先对各种各样格式的原始数据进行清洗，通过去除原始文件格式、除去重复数据，对数据排序等一系列操作获得一个中间版本的干净数据。

接下来对干净数据进行一系列处理，包括命名实体识别（比如说识别文本中的公司），企业名称关系发现（比如说公司A投资了公司B，那么我们就需要在这两个公司实体之间，建立一个有向的投资关系），实体关联等一系列操作。

（注：脏数据是指html数据、图片数据、csv数据等等；干净数据是指经过处理的去除外部结构的文本数据、文本段落数据和必要的meta data 元数据。结构化数据是指进行了NER、词法、语法语义分析后生成的结构化数据，通常以json文件表示）

自然语言生成(NLG)：基于模版

这种基于模版的自然语言生成。相对来说比较直接，因为整个叙述性文档的语法与结构等都是由模版定义好的，然后会根据具体的数据内容再做一些输出的局部调整。

我们在这里举个例子，上面这张图是Automated Insights公司Wordsmith产品的报告生成示意图。在生成的这段话中有4个部分是可以根据具体的数据值来变化的，表达“具备，具有”这个含义可以有3个词来表示，根据屏幕的大小也可以给出不同的形容词等等。

而基本模版的方法再往前走一步就是引入更多的外部资源来辅助文档的生成，这样的话就会演化成为基于知识库或者知识图谱的自然语言生成。

自然语言生成(NLG)：基于知识图谱

关于基于知识图谱的自然语言生成，主要分为两个阶段，数据分析阶段和语言表达阶段。

在数据分析阶段会将结构化数据与领域知识图谱进行匹配和对比、建立关联、对结构化数据进行补充，筛选出真正有价值和值得关注的信息。

而在语言表达阶段，就是需要将信息自然地、流畅地表达出来。所以来说也是一个相对来说比较复杂的过程，因为其中包括：文档规划（决定信息需要以什么样的方式和顺序来表达）；选择什么样的数据可以合并来表示；采用什么样的指示代词来简化表达；通过领域图谱和推理规则，发现结构化数据中不同的数据点比如偏离行业均值比较远的点。

在这里我们举个汽车行业的例子，我们从PDF中解析得出一家公司的主营业务是汽车电泳涂料的生产，联合全网的数据得到汽车行业的销售量在下降，再加上推理可以得到公司的主营收入会下降的这样一个观点。但是这样有一个问题就是领域知识库和推理规则的构建本身是一个非常漫长高成本过程，而且人工智能在构建过程中起到的作用还很有限，机器能自发产生观点但是在很长一段时间内无法超越人的观点。

所以我们回到问题“分析师和记者会失业吗？”，答案是不，因为分析师和记者优点在于探索和发现观点洞察，而机器的长处在于数据收集和整理，目前机器还是无法取代分析师和记者。但是在未来很长的一个时间点，随着人工智能的新发展和新技术的突破，答案或许会有所改变。

文因自动化报告实践

接下来我将介绍一下文因互联在对三板上的从业者进行一轮沟通调研后，在投资研究跟踪的不同阶段自动化报告的实践。

在对投资者调研的时候，我们发现投资者的需求主要集中在投前行业研究、新在审，新挂牌企业的研究、企业持续跟踪需求与投后风险提示需求。而在这些需求的背后主要还是亟需将人力从数据收集、整理的繁杂工作和数据过载中解放出来，让投资者更关注于业务逻辑以及领域模型的构建，在更短的时间内获得必需的数据，从而提升工作效率。

所以我们根据新三板市场企业多、公告多、领域少、研究少的特点推出了行业动态速递、H5可视化年报半年报、挂牌企业分析报告。

行业动态速递

行业动态速递聚合细分行业的变化信息，主要展示新在审的企业、新挂牌企业、新定增企业的投资机会提示。因为三板市场和早期市场比较类似，所以还有补充早期市场数据这样跨市场的数据变化，除此之外还有企业亮点的展现。

H5可视化年报半年报

新三板有8000多家企业，很多企业都是只有在挂牌那一天会有人关注一下，然后就彻底从人们的视线中消失了。再加上三板投研机构人力无法覆盖所有企业，所以需要通过机器来为所有企业生成可视化的报告，这样就可以更为直观的让企业的投资亮点得到展示。让信息在企业和投资人之间更加顺畅的流动起来。

挂牌企业分析报告

文因在对一家新三板上的企业生成了一份这样的挂牌企业分析报告。大家都知道股转说明书通常都有200多页，投资人没有时间去逐一仔细阅读。所以我们通过自然语言提取等人工智能技术从中提取了关键的信息如该公司的核心技术、主要客户变化等。同时再加上投资风险这样知识图谱的推理，将200多页的公开转让说明书变成更为简洁直观的企业分析报告，从而更好的为投资者节省时间、提升工作效率。

银行哪些业务可以用 RPA（机器人流程自动化）替代?

https://www.zhihu.com/question/274963591

作者：梁一纲
链接：https://www.zhihu.com/question/274963591/answer/397230524
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

回答这个问题，首先我认为题主对RPA是有一定的了解的，即RPA是可以把量大、重复、规则清晰的流程自动化的。那到了具体的银行业务流程中，这里我会认为其实所有的银行业务都可以用RPA替代。为什么这么说呢？首先我们先来定义好什么是银行业务。传统来说银行业务无非就是零售银行、商业银行、私人银行、投资银行，再细分的话就是个人/公司的借贷业务，个人/公司的投资理财产品等。每个银行在不同的业务领域都有自己特别擅长的一块，即业务量会比较大，那对于每一笔业务来说，本身的流程是非常固定的，如个人开信用卡，都是要登记信息，然后审核资料，获取征信，计算额度，通过审批后制卡，邮寄，短信/邮箱提醒开通等一系列的流程。其实每一个流程都非常的标准，只不过在不同的步骤可能会有多个分支或类型导致后续步骤会有不同操作而已。总的来说，每一种业务的设计都是规则清晰的。而某一业务当然也会出现特殊情况，但是RPA所负责的并不是全部的个案，RPA也不是为了抢人的饭碗的，特殊的情况当然也就需要人工去具体判断酌情处理。不过落实到具体的业务场景，可能在某一些步骤上并不能够直接地利用RPA去完成，原因可能是由于部分资料是纸质的，如手写的申请表或非标准的说明信等，需要人工录入数据，或者某一些审核点是需要根据政策及具体客户情况通过人的经验（或关系）去处理的，这些时候单纯使用RPA是无法自动化的（因为规则无法清晰梳理好，或者非结构化的数据），可以考虑引入人工智能、文字图像识别（OCR）、自然语言处理（NLP）等去把非结构化的数据变成结构化，再进行RPA处理。但是基本上在每一个流程中，都可以有或多或少的步骤是可以用RPA去替代的。总结来说，只要是产品化了的银行业务，都可以在不同程度上借助不同的其他技术进行RPA转型，关键还是要看投入产出比（ROI）是否值得去做。而RPA可以是全自动地处理业务，也可以是半自动的去辅助业务，需要根据具体的场景来设计方案。而经过RPA转型后的银行运作模式，更多应该会变成人去做监控、管理、培训（开发）机器人，分析数据等非标准化的工作。发布于 2018-05-21

作者：莫英华
链接：https://www.zhihu.com/question/274963591/answer/399522627
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

谢谢邀请。作为银行从业人员，做过柜员、营运风险管理、营运流程设计以及后勤部门，写一下我自己的感受吧。目前开户、现金、转账、更改信息等基础业务技术上已经完全支持自动化。不过由于目前人工识别技术尚处于初级阶段，可靠性有待时间验证，且暂时没有国标。因此监管部门也要求部分业务必须有人工面核环节，例如部分开户、大额存取、转账等，否则这些业务也已经完全上线自动化了。现在国内不少银行已经推出“智能柜台”业务，其核心就是让这些业务尽可能自动化，只保留人工面核的环节，实现“一对多”客户同时服务，提高人力效率。当那天监管部门认为技术已经完全成熟，那面核也可以取消，实现完全自动化。而且在自动化的环境下，营运风险会更低，因为机器不会因为“熟人”而降低交易控制。而一些变量比较多的业务，在目前技术能力之下，其实难以实现自动化的，例如对公贷款业务。尽管银行系统已经尽量对录入、审核流转这些环节进行电子化，但是这些业务的信息不对称问题仍难以通过模式化解决。例如如何确定抵押物状态？经营情况？甚至贷后管理？说实话，这些业务每一笔都不一样，无法重复，而且只看报表不看实物，人跑路了，工厂搬空了，银行都可能还蒙在鼓里。现在有一些网贷公司推出的简单信用贷款产品，通过核实身份、查询征信数据就予以放款。这些业务人工成本很低，息差水平也很高，但是同时不良率也奇高。在目前大数据仍未全面的情况下，只能说这类业务确实是勇敢者的游戏。第三类是高端客户的服务。说实话，现在银行慢慢向保险业靠拢。很多时候客户选择一家银行，并不是因为产品有多大优势，而是服务有多顺心。机器是冰冷的，起码目前技术条件下，仍未能有情感交流。而高端客户的服务更不是丢给他一个牛B的软件让他自己操作，而是提供有温度的人与人交流服务和增值服务。自动化横行的当下，真人服务不是“贱”了，而是更贵了。以上愚见，供参考。编辑于 2018-05-23

Asahi 边走边吃的自由行爱好者伪段子手怕热

很简单，所有。
发布于 2018-05-23

Help