下拉查看目录

新闻传播的大数据应用——写在AlphaGo边上的故事

2016-03-27 杜常安 学习学习再学习 学习学习再学习


版权声明

本文首发自微信公共帐号:学习学习再学习(xiaolai-xuexi);

无需授权即可转载,甚至无需保留以上版权声明;

转载时请务必注明作者。



以下是《共同成长社区》第30次分享,分享者是杜常安。


作者简介:

杜常安,跨界学习者,本科学习通信工程,之后攻读了北京大学的传播学硕士和港中大的商科硕士。在北京空中网从事移动互联网工作多年,也有过一段时间的创业经验(爱物网),后到香港的中信国际电讯工作后,又回到深圳的证券时报做舆情技术总监,现在在怀新投资做TMT行业的投资总监。业余时间喜欢运动,跑步、网球、游泳、练习过5年的太极拳。在香港期间是骋志发展慈善基金会的理事。

微信:moonvaly

邮件:duchangan@aliyun.com


《共同成长社区》的分享,并不是“私密”的,我们不在乎分享内容是否流出去,事实上,我们会主动拿出绝大多数的内容分享至社区之外 —— 因为所有的分享,最终传播得越广越有价值。


若要进一步了解《共同成长社区》,请在后台点击“收费社群”的子按钮“共同成长” ……




背景介绍:

 

我之前在证券时报的中国上市公司舆情中心担任技术总监角色,从事财经领域的舆情管理的技术系统研发,现在则转到时报集团下的怀新投资从事股权投资的相关工作,当然也还在兼顾之前的技术团队管理。

 

什么是舆情:


舆情的概念是公众对于社会、企业及行业监管者产生或持有的态度,是对于某一事件的市场看法、意见和情绪的总和。在企业的角度来看,舆情是推进企业治理的决策参考,对于企业形象和品牌、以及声誉风险管理有重要作用,是投资者关系管理的重要组成部分。

 

当今舆情的市场情况:


在早几年的时间里,由于政府和大型国企购买的需求,市场上出现了舆情系统研发的热潮,曾经涌现了很多这方面的公司,但是这几年之后市场竞争整合之后,很多企业对于舆情系统的投资都减少了,有一些上市公司早几年对于这个领域投入了很多,现在都在砍预算、降低成本的阶段。因为企业市场,特别是证券市场的上市公司领域,在市场化竞争的环境下,利润空间已经大为收缩。


目前财经舆情管理这个市场也在持续发展,并且因为注册制的原因,更多的企业需要在几千家的标的中探索出一套能够和投资者进行有效交流的方法,所以舆情管理的实际需求是存在的,而且投资者关系管理的专业水平一定程度上也是体现了该公司的公司管理的专业性。

 

为了控制分享议题,我这次提及的舆情服务定义比较狭小,主要是舆情情报分析系统的服务内容。

 

舆情系统和大数据:

 

在AlphaGo和李世石的世纪大战刚过去的时刻,这次分享也是要扯上这方面的关系。大家似乎都学会了很多的专业名词,比如大数据计算、深度学习、价值网络、蒙特卡洛等等。可以想见在关于人工智能领域的公众讨论中包含着大量混乱的信息,一方面是人工智能,也就是Ai 在这个领域上对于公众的理解都是在类似《终结者》这种仿人智能实现的文化中,这种知识便于知识域的类比和搬迁,所以很自然的可以看到各种公众号上类似盛世危言的各种文字流传和讨论,但是这些其实没有什么营养,因为这就是流行文化,等宋仲基们出来,很快这些议题就被忘却了。另外一方面是 Ai 在科研曾经是困难重重,长时间以来无法形成有效的理论突破,因为智能,或者说和人相关的认知、思维、意识等,是具有高度复杂性的,过去的很长的时间里,人们不断试图构建“思维机器”,希望能够类人话,但是都失败了。所以这条路目前看来其实是个死胡同。而事实上取得了突破的,确实是在某些特定问题的解决上达到甚至超过人类的计算实现。至于什么天网意识复苏的段子,笑笑就好了,当真的话,就是科幻作品看太多了。

 

我今天要介绍的舆情分析系统其实也算是大范畴下的大数据计算的领域,也有一些机器学习相关的内容,只是技术上没有他们的那么复杂。单说舆情,其数据主要来源是通过爬虫抓取网络资讯,主要是以文本数据分析为主,所以数据量并不算大,但是因为是非结构化的数据,主要还是自然语言处理方面的工作,处理计算起来,也并不容易。而在文本数据分析的技术上,通常会有主题聚合、相似新闻判断、事件敏感性或者新闻的情绪分析等内容。

 

日常生活中,大家对于大数据、机器学习都还是基于媒体报道而带来的理解,实际接触并不多。


相对高的门槛,如技术门槛、数据质量、计算能力等特征,使得机器学习并不能像移动App这样,快速地发展起来。在数据分析和产品结合的道路上,有很多东西可以做的,毕竟要让产品有效地服务市场需求是最为重要的。技术的学习和使用并不是最大的问题,我理解上是在自己的领域内,知道如何使用技术来解决问题,这涉及到业务建模的过程。我们在阿里云的平台上构建了很多系统和服务,过去在做技术交流的时候,阿里云的团队都开始推介基于他们的odps平台的机器学习的各种算法,也就说,现在的各种机器算法已经开始模块化,不需要自己写python,写java 坑次坑次地折腾,要躲过无数的坑。所以说现在是最好的时代,也是最坏的时代,现在的技术平台比十几年前要强大得多,做好技术的拼接已经可以解决很多问题。遥想当年自己还在写着服务器缓冲组件和数据库ORMapping 的组件,已经恍如隔世。当然与之相随的坏处就是门槛降低了,竞争更激烈,产品要求更高。所以今天的分享在技术上的应用并不多,主要讲下面的更重要的应用建模逻辑,而这部分的干货往往是产品能否成功适应市场生存的重要因素。

 

传播的理解:


谈到舆情,其实谈的就是舆论的发展建构的过程。早些年我在北大学习传播学的时候,发现课堂上的理论中有一个议题设置的概念。这个大家都很容易理解,其实比如近期开两会等核心报道内容的议题。但是读书的过程中,一则发现传播学不是显学,学院里的显学还是新闻和广告,一定程度上学界离新媒体领域差距还是很远的,作为一种形而上的文科理论其实是很难适应新媒体爆发环境下的数理分析理论的需求。

 

业界对于传播,需要面对的议题有很多,比如如何量化一家企业的舆情热度?目前市场上普遍就认为报道量多了就是舆情热度提升了,然而这样子显然是过于简单的,因为报道不仅有时间周期的特点(周末报道量的变化),另外一篇文章的传播过程中,其效力是不同的,简单做加法显然是不合适的。而一些公司长期占据了报纸的版面,这也并不能够说明它的舆情热度一定很高,比如银行、券商,这些和市场政策和宏观资讯息息相关的,版面报道量一直是很高的。这些都不足以形成市场层面上对于上市公司舆情的宏观展示。

 

我们在日常生活中时常会体会到一种传播内容的同质性,这种同质性的日常体会有:


1.  大众新闻头条的设定

2.  笑话段子的雷同

3.  社区话题的阶段性

 

这些体会的形成,其实是一个舆论环境塑造的过程,也就是说信息流的传递过程,就是瀑布一般从不同的大的流量节点汇聚给公众个体。这其实对于个体而言,是有一种挫败感的,因为这意味着你不具备信息优势,你看到的东西,其实和邻居张阿姨的并不会差太多。当然,在这里,也要特别感谢李笑来老师的成长社群,因为这个社群经验给了这个传播过程另外一个描述环境,就是信息聚集的过程,个体是可以有自主选择的过程,比如选择合适自己的社群,拓展自己关注细分领域,交流并贡献内容,从而消除掉大量一般性的信息,获得适用于自己的独特的信息。这个逻辑过程,我称之为负熵过程。只有这样子,才能够避免随波逐流,而是能够减少自己信息流的熵值。可以这么说,在这个群里的各位朋友,都已经摆脱了天天泡沫剧的沙发土豆的状态,有机会可以获得信息流上的优势,这也是我理解中成长群的伟大之处。

 

传播模型的建构:


回到传播模型的构建上,其实并不需要太复杂的概念,当我们理解了信息传播的过程,就可以知道,除了信息传播量之外,信息的传播节点,还有信息二次传播的系数,就是构建整体传播的主要核心要求,而通过对于这些要素进行相应的标准化处理的之后,就可以建立一套传播指数的体系,来衡量单个新闻、个人、机构的信息传播力,或者称之为影响力。我们成功地在这个体系的基础上构建了产品,有效地达到了很多市场信息盲点区域,比如微观市场细分领域的舆论传播变化,股市异动和传播系数的相关性等。

 

当你把挡在眼前的灌木丛的树叶剥开,你就可以看到前面原来有一个草原或者一片湖水。重要的是我们不能够被眼前的灌木丛挡住,要摆脱传统的视角,站起来多维度的看整个世界。是的,就是这么简单。

 

最后的一段话:

 

在整个社会价值都在“京沪永远涨”的预期下,社会上的每个人似乎都在认为房产是人生最重要的资产,有了房子就高人一等,没有房子就是社会的底层,因为未来能够买得起北上深房子的机会微乎其微。然而,在这种社会阶层固化的舆论意识甚嚣尘上的时候,我们不能够改变目前这种现实,但是可以换一个角度想这个问题,翻看世界五百强这百年来的历史变更,如果房产能够战胜一切的话,那么这500强的王者应该是他们这些拥有着土地豪宅的王者呀。显然,这个世界并不是这样,房产并不能有这样的力量,那么,黄金呢?很遗憾,这个依然不是,即使坐拥万吨黄金,并不能保证未来还是它的天下。那么什么可以呢?我的理解是,资产不是王者,它保护不了你。

 

历史课本上总是说工业革命起源于英国,通常都有个选择题,标志是什么呢?标准答案是:蒸汽机的发明和使用。很遗憾的是,我一直都不认同这个标准答案。因为那时候我们大清朝的GDP世界第一,从宋朝到明朝,历史书都不止一次的说我们出现了资本主义的萌芽,不过一直都是萌芽,好几百年了,GDP世界第一了也一直都是萌芽,我觉得即使我们清朝的时候提前发明了蒸汽机了,也还是萌芽,只是现在的历史书也许会换成纺织机或其他什么机器做一个标准答案。而真正的答案,我认为是《权利法案》。正是这个法案赋予了人民真正的权利,打开了枷锁,释放了无穷的力量。说了这么一段的讨论,回到上面的议题,我认为,任何的资产都无法保护你,坐拥金山银山、良田千顷、盐田专卖、皇亲国戚,都不行,时间都会冲刷掉一些。但是有一样可以,就是创造力,这个是500强变革后面的力量,是它带来了蒸汽机、飞机、互联网和 iphone。一个国家能否兴盛需要看能否有带来创造力的机制,切换到个体也是一样的。

 

今天是媒体分化的转折之年,在微博、微信的媒体平台上,各种自媒体形态已经开始成熟,包括近期火热的网红,社群,带来很多新的媒体生态因素,这些都是非常广大的市场,对于在座的每一个年轻人,当然中年人也是一样。媒体号称是第四公权,它是复杂的,之前也是被垄断的。但是现如今,生态已经变革,曾经高贵的报纸、甚至电视都已经低下了头,去寻找失败的原因,找新的土壤。而这新的土壤其实是在每个个体上面,虽然能够成功的个体也是稀有的,但是这就是现在机制下被释放的空间和机会,与君共勉。




广告




《新生 —— 七年就是一辈子》电子版(初版)已经可以在线阅读:


http://b.xinshengdaxue.com


亦有 epub、mobi、pdf 版本下载。但请注意,本书随时可能更新。《新生 —— 七年就是一辈子》究竟是什么?可以看看这篇文章


长按以上二维码,保存到相册,用支付宝识别,缴费 2777 元人民币后即可入群。目前,依然使用支付宝作“经费群”为报名通道。(尽量不要在群内闲聊……)


直接加入者,第一年的年费是 2777 元人民币,此后为 2555 元/年;由现有会员推荐入群的,入群后自报推荐人,核实后,会返还 222 积分至新会员账户,即,有推荐人的新会员的第一年年费相当于是 2555 元/年(积分将于APP正式上线时统一处理)。


加入前,请慎重考虑,请为自己的决定负责;请慎重考虑、请慎重考虑、请慎重考虑…… 因为入群之后,不再有退费机会。


我们计划将于 2016 年 3 月 1 日开始使用自己开发的 APP。此日期有可能提前,也不排除延后,但最迟在 2016 年 3 月 31 日之前完成第一个正式版的上线。在此之前可能有一两个内测版。开发团队已经进入封闭开发状态。


使用自己的 APP 之后,所有的报名群都将合并。现有的支付宝群,只做报名使用,任何重要通知,都会在公共帐号发布。


  • 群内不鼓励闲聊;

  • 不得发广告;

  • 不得传播盗版书籍;

  • 允许讨论,不允许争论

  • 每天 18:00 - 21:00 期间可聊天;其他时间尽量不要闲聊,大家时间都有限,尽量不要打搅大伙;否则可能会被扣积分。


重要


已报名加入的朋友,请手动复制粘贴到浏览器这个地址查看《七年》读者须知持续更新贴(微信公共帐号文章推送过不能更新,所以,这里用了一个未推送的预览地址……),请务必认真阅读:


http://t.cn/R49x1u2








长按以上二维码关注“学习学习再学习”(xiaolai-xuexi),后台输入关键字有自动回复:


输入“理财”,一篇文章推送:《理财系列文章列表(第一部分15篇);

输入“女生”,三篇文章推送;

输入“社交”,一篇文章推送;

输入“利息”,一篇文章推送;

输入“时间”,获得《把时间当作朋友》(第三版)全文在线阅读链接……

输入“分享”,一篇文章推送:《如何做好一场分享?》

想了解“共同成长”社群、《七年就是一辈子》等等,请在公共帐号后台点击“收费社群”按钮,点击查看“收费社群说明”……




评论