大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

【大数据100分】01-白硕:数据处理 “去贵族化 大数据100分文章

“中关村大数据产业联盟”推出“大数据100分”论坛,每晚9点开始,于“中关村大数据产业联盟”微信群进行时长100分钟的交流、探讨。

[大数据100分]

主讲人:白硕

主持人:赵国栋

承办:中关村大数据产业联盟

[主讲嘉宾介绍]

白硕

上海证交所总工程师,北大计算机博士、数学系博士后。兼任中科院计算所、信息工程研究所、中国科学院大学博士生导师。还担任中国中文信息学会常务理事,全国 金融标准化委员会证券分委员会副主任委员。白老师研究和工作领域横跨学术、产业、资本,对大数据方面的研究既处在实践前沿又具备理论高度。

以下为交流实况全文,中间穿插部分专家与白老师的互动:

很荣幸同大家进行“大数据100分”首场交流。我作为一个曾经的学者和现任的金融机构技术主管,从我们行业的需求角度,结合我个人的专业背景,谈一点个人对大数据的粗浅体会。

一、大数据不等于数据大,谁也没有资格垄断大数据概念的定义权

有的人会说,你有多少数据?如果没有P量级的数据,甭跟我谈大数据。这种观点很有代表性,不仅自己有P量级数据的互联网公司、运营商这样说,一些学者也这样说。

(我们还没混进P阶层)

我的观点是,大数据不等于数据大。数 据大,但没有与这个体量相称的处理手段、应用需求乃至商业模式,数据的价值得不到充分的发挥,那是空有其大。数据大,就算你也有相应的自我实现数据价值的 手段,但这手段如果不能辐射到数据不算太大(比如,规模在1T到1P之间)的领域,那也只是孤芳自赏。我们人类社会在进步中,固然需要不断挑战数据处理极 限,在挑战极限中发展新技术为自己所用,做这些事情的人和机构值得我们敬佩,这是肯定的。但他们的价值远不限于此。他们被挑战极限逼出来的成果,可以辐射 得更远。

如果既能不断冲击极限(“顶天”),也能普遍降低非极限情况下数据处理的性价比(“立地”),这才是真正有价值的大数据技术。所以现在,大数据不仅是P量级的巨头们在谈,更广大的IT应用群体也在谈。谁也没有资格垄断大数据概念的定义权。

二、数据处理领域的“贵族化”与“去贵族化”

 

我在自身工作当中感触最深的,就是数据处理领域的“贵族化”。我从大数据热潮中获益最多的,就是数据处理领域的“去贵族化”。大数据的“普遍降低非极限情况下数据处理的性价比”这一特点,就是我们去贵族化的利器。

什么是“去贵族化”?这是一个笼统的说法。IT圈里很多人指名道姓地去XXX化,这虽然可以理解,但要看到具体的公司也会变化、也会进步。我们扬弃的实际上是一类贵族化的解决方案,所以我比较偏爱“去贵族化”的说法。

那,什么是“贵族化”呢?依我看,贵族化的解决方案有三个最主要的特点:重、滞、贵

先看“重”,这里“重”不是指物理重量,而是指一种笨重的堆砌。 给你10000个功能,你可能用不了100个,但这10000个功能却逼迫你走上一条不归路:你的软件和硬件无法分离;存储功能和计算功能无法分离,实时 处理功能和历史分析功能无法分离,非结构化数据处理功能只能削足适履地转换成结构化数据、再用结构化数据处理引擎处理。

互动:@颜阳:普恵金融,普惠数据。降维处理

再看“滞”,这里主要指这类解决方案在架构上的巨大惰性。面对多变的业务需求和日新月异的服务模式,它难以快速掉头,快速跟进。一方面,用户之间被License彼此隔绝,很多共性的东西无法共同积累和共享;另一方面,由于平台的封闭性,解决平台相关的缺陷和问题的响应速度因缺乏竞争激励而显得缓慢低效。

互动:@赵国栋:就像笨重的word

最后看“贵”,顾名思义,采购成本昂贵、维护成本昂贵、平台迁移成本更加昂贵。这还不算,当解决方案从License模式向云模式演进时,还会遇到既得利益者的顽固抵制。这些昂贵的成本,当然最后都要落在用户身上。但是在过去,用户在安全运行的巨大压力下,只能在“这种”贵族化和“那种”贵族化中间选择,只能用贵族化的解决方案来彰显程序正义。

互动:@颜阳:Ios 榜样,windows另一榜样

一个单个的用户单位,要想做出去贵族化的技术决策,所面临的政治压力可想而知。

现在,大数据来了。在数据体量上冲击极限的先驱者们,首先意识到了“贵族化”解决方案的无法忍受性,开创了去贵族化的数据处理解决方案的先河。

互动: @颜阳:08年我们首尝green plum,走出了数据仓库的低价路,好累

他们用轻型化的通用硬件平台,开源化的操作系统和草根化的平台架构一起,构成了去贵族化解决方案的核心内容,为我们树立了去贵族化的典范。

随之而来的是,对于包括我们在内的更广大的用户来说,多了“去贵族化”这个选项,多了用追随大数据先驱者们的实践来彰显程序正义这个选项。这是一个了不起的进步,这个进步在过去“贵族化”解决方案密集的金融证券行业中引起的变革,意义将是深远的。

提问:刘东华:白老师,交易所对大数据的作用主要有哪些典型案例?

去贵族化的过程,对于很多已经上了贵族化道儿的单位来说,是一个痛苦而漫长的过程。不仅要面对技术上的认识分歧,甚至也要面临组织架构的重新调整。

互动:@志刚:需要名族品牌的兴起,在模仿中创新,在创新中发展

 我们的大数据应用,主要在监管这一块。简单说就是抓坏人。

当然我们当初建设企业级数据仓库和数据挖掘平台的时候,提的是服务监管,服务创新,服务投资者教育,服务信息经营。著名的TopView就是数据仓库的应用成果。

互动:@刘东华:哈哈,给我们讲讲怎么抓坏人

哈 哈,抓老鼠仓肯定是其中很重要的一个应用了。不过我真的不是很了解。也没有被授权讲这一块。可以在一项业务创新推出之前,模拟各种极端场景进行测算。可以 说,把数据仓库这样的数据基础设施用于业务,我们走的还是比较早的,但也是不得不贵族化的。是大数据给了我们去贵族化的希望和信心。

提问:@赵国栋:白老师,跨领域关联如何理解?

我觉得,从技术架构上去贵族化,只是大数据潮流的一个很小的侧面,更大的影响在业务模式上。

以 我们证券行业为例。证券行业是一个密切依赖信息技术和信息服务的行业。行情数据中断几分钟,那是天大的事儿了。卖方和买方信息不对称的消除,主要靠依法进 行强制性信息披露。宏观经济的信息,与资本市场有直接或间接关联的基本面信息,都如空气和水一样,是资本市场的玩家们须臾不能离开的。还有更高级的,信息 本身也成了博弈的道具。

因此,行情和资讯,是证券行业信息服务的两大核心领域。当然,交易所和监管机构还需要从非公开的交易信息中寻找违规线索,这是面向监管的信息服务。总而言之,证券行业对信息技术和信息服务的依赖,比许多其他行业要深得多,也重得多。

我 们使用TD超过10年,目前正面临一个选择点。轻型化是必然的,但如何轻型化有不同的选项。经常有搞数据挖掘、机器学习、商业智能学术研究的朋友问我,你 那能不能弄点数据啊,我这有啥啥啥技术,指标有多么多么牛。我很敬佩能把技术指标搞得很牛的人,但是把一项通用(领域无关)技术引入一个陌生的领域,似乎 不是这个玩法,不是说你有了技术,就万事俱备、只欠数据了。

实 际上,从全球视角看,任何一个成熟的应用领域,作为整体,都不会对通用技术麻木不仁到这个程度,在你提出这个要求之前,人家早就会过不知多少拨提出类似要 求的人了。在人家自己的数据上,能尝试的新鲜花样都不知道尝试过多少遍了。你要证明你的价值,必须建立在这个基础上,才有对话和合作的可能。实际上,不要 说不懂领域只懂技术。如今只懂领域,也已经不够了。在当前形势下,只有跨界,才能走得更远。大数据的价值,很大一部分产生在数据跨界关联所引发的“化学反应”之中。

什 么叫跨界关联呢?我理解,就是人们在两个相对独立的活动空间产生的数据,通过某种媒介,关联在了一起。假如没有这个媒介,两套数据是各自独立的,但是有了 这个媒介,两套数据就形成了新的结构,新的语义,新的价值。比如杀毒。如果仅仅局限于杀毒,这个花样已经被玩得差不多穷尽了,连云查杀都出来了。但是如果 把云查杀的数据当做网络访问日志,和网络流量变现结合起来,就赋予了杀毒以全新的涵义。

互动:@赵国栋:多维!

再比如电子商务,如果仅仅是为电子商务提供支付手段,那还停留在电子商务的附属品阶段。但是如果把电子商务的支付数据转而用作互联网金融的信用手段,这就实现了跨界的质变,不再是拆东墙补西墙,而是东墙西墙全活了,形成了互补、互顶的生态,形成了所谓的“降维攻击”。

所 以,那些寻求资本市场大数据挑战的技术专家们,我们的合作点不在我出数据你出技术,而在你帮我找到让两个领域的数据之间能产生化学反应、产生全新生态的跨 界关联模式。我们翘首以待这样的专家横空出世。当然我说的两个领域,不限于两个传统领域。可以一个是传统领域,另一个是全新打造的新潮领域。

我一直在想,如果有哪一项服务能汇聚全资本市场的流量,如果有哪一项服务能沉淀全资本市场玩家的行为数据,如果有哪一项服务能在传统的行情和资讯服务之外另辟蹊径并且与传统服务产生跨界关联的“化学反应”,我们这个行业的业态将会随之发生颠覆性的变化。

三、“机器可读新闻”

 

在诸多面向资本市场的新兴服务形态中,我最关注的,是糅合了文本挖掘、情感分析技术的“机器可读新闻”。我想就这个问题与大家展开来分享一下。

去年年中,美国股市出现了一个奇葩的事情:当黑客黑掉美联社网站,发布白宫被炸、奥巴马受伤的消息后,美国股市瞬间跳水,反应时间在秒级。

使我感到惊奇的不是黑客的手法有多高明,而是这反应时间怎么会这么短。很难想象人肉对这个消息能有如此迅速的反应。在这个反应链条中起关键作用的就是这个“机器可读新闻”。

所 谓机器可读新闻,其原理是,对原始新闻文本进行自动化的分析,在一定条件满足时,就形成一条携带预先定义好与这种条件相匹配的电子标签数据。自动化程序交 易系统可以自动识别这样的电子标签数据,并在资本市场上做出响应动作。这意味着,机器不仅读得懂行情数据,也在一定程度上读得懂插入了电子标签的(基本 面)文本资讯数据。当然,他们的系统大多是针对英文的,而且判断的逻辑目前还稍嫌简单粗暴,否则也不会有这样的乌龙了。

但是公平地说,这是一个巨大的机会,特别是,针对中文还没有这样的东西,中国的资本市场还处在新兴加转轨的阶段,信息不对称还很普遍地存在,用机器代替人肉来扒皮有很高的价值,所以机器可读新闻这玩意儿,谁先搞出来,谁就彻彻底底占有了先机。

特别是,以互联网金融为代表的普惠金融,必然地会涉及更加草根化的公司的直接融资需求,在这个领域信息不对称十分严重。用机器可读新闻来打破信息不对称,帮助投资者更好地掌握自己所投资的公司的全面信息,那可是如虎添翼了。

提问:@柚子:那和爬虫技术有什么区别?

爬虫不看内容,但属于基础设施。爬回来的东西在瞬间精选,不仅判断跟啥相关,还判断对相关投资决策而言是正面还是负面,这才是机器可读新闻。

其实,标签的潜在启示作用比其字面启示作用更大。今天大家盛传东莞扫黄的信息意味着什么股看多什么股看空,这就是标签沿价值链的传播。有了好的传播模型,标签的价值会更加超出预期。

机 器可读新闻作为信息服务,单独看已经有了这样的机会,与资本市场传统的信息服务结合起来看就更加不同了。谁订阅了什么标签,谁看了哪只股票的行情,谁在什 么产品的什么价位上发表了哪些实质性的评价和建议……如果借助一定的媒介实现了这些跨界数据的集成,这种互联网打法一定会颠覆我们这个行业信息服务的既有 业态。

互动:@赵国栋:爬虫先爬,然后“智虫”解读!标签链!!

我注意到,今天传播的段子中,既有扫黄影响到桑拿,也有桑拿影响到供水。这是典型的标签沿价值链传播。

提问:@雨醉天堂:请问白老师,行为金融学和大数据收集分析算不算这个领域

算,过去量化投资决策的很多事情,不是都由计算机来做了吗?国内已经有一些IT公司试图进入这一领域(画外音:具体是哪家,大家自己发动个人智慧去吧,蕴含了股市中的机会哦)

两个方向:结构化数据->新闻文本 vs. 新闻文本->结构化数据。前者是数据新闻,后者是机器可读新闻。数据新闻是新闻的撰写流程自动化、表现的数据化,机器可读新闻是实现文章这种非结构化数据的结构化。

互动:@徐琪:“机器可读新闻”无疑是人类努力开发的一个方向,但是白老师所提到的股市瞬间下跌还是和这没有关联。

@白硕:

三 种可能的情况:(1)有人值守在美联社的twitter账号上;(2)有自动化的watchdog一头盯在包括美联社twitter账号在内的一批信息源 上,一头连在自动化程序交易软件上;(3)有第三方服务的watchdog一头盯在一批信息源上,一头把转换成的机器可读新闻喂给其客户的自动化程序交易 软件。不排除(1)和(2)同时作出了反应, (3)这种服务形态,搭架子容易,有好的质量难, 但是绝对是方向。

@徐琪

美国的交易系统至今还是有“Specialist”或者“Maket Maker”人为操作,所以瞬间的“Stop”是一切的根源。大数据对于证券市场的核心价值在于瞬间的参与者行为可以瞬间可视化判断

提问:@郝鹏洲:白老师,目前华尔街基于社交网络所做的模型是否属于机器可读新闻?

@白硕:

是这个大范畴里的,文本挖掘、情感分析是技术点,机器可读新闻是服务形态。

四、我对大数据联盟的使命的看法

最 后针对我们大数据产业联盟的mission,谈点个人的想法。数据互通有无,乃至形成公平计价的数据共同市场的基本前提是,数据的使用和传播是受控的,数 据使用和传播的基本环境是可信的。我们也有很多数据,有些数据对市场开展服务很有价值,比如市场回放环境,是验证算法和量化交易策略的试验床。世界上做这 个服务的交易所很多,我们也可以提供。但是,在我们考虑提供这个服务的时候,就遇到一个两难困境。我们不希望我们的专属数据被用户扩散出去,用户也不希望 他们的核心策略留在我们的环境里。

如何提供一个既能照顾到各个参与方之间“合理地互不信任”的关切,又能有效共享数据的可信机制,确实是我们面临的一个共同的挑战。

我没有成熟解决方案,但个人觉得可以做一个不一定恰当的类比:比特币的出发点也是建立在每一个个体都“合理地互不信任”的前提之上,但整体上却能让大多数参与者信任。所以比特币的做法可能是我们放心实现共享的重要借鉴。

原始数据只能加密送入这个P2P网络且只能在这个P2P网络内部流动,流动的痕迹全部可追踪。只有被授权的汇总数据才能以解密方式流出这个P2P网络……等等,这些设想如能实现,可望给数据共享打开一扇大门,当然电子数据防扩散没那么简单,难度肯定不小。

希望有志之士能大力促成这件事情。

收藏 分享 邀请

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-7-21 03:54 , Processed in 0.233080 second(s), 21 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部