一、我们身处怎样的时代?
智能手机、电脑、VR设备、监控摄像头……随着互联网以及各种数字化终端设备的普及,一个万物互联的世界正在成型。与此同时,呈指数级爆炸增长的大数据也在不断渗透我们的生活,推动着我们走向一个深度变革的时代。那么,在这个数字洪流汹涌澎湃的新时代,“大数据”究竟有多大呢?仅以互联网为例,一组名为“互联网上一天”的数据告诉我们:一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有亿封之多(相当于美国两年的纸质信件量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……据IDC发布《数据时代》的报告显示,全球每年产生的数据将从年的33ZB增长到ZB,相当于每天产生EB的数据。1ZB相当于1.1万亿GB。如果把ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球圈(一圈约为四万公里)。目前美国的平均网速为25Mb/秒,一个人要下载完这ZB的数据,需要18亿年。资料来源:《数据时代》,IDC,年11月二、大数据是什么?年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。大约从年开始,“大数据”成为互联网信息技术行业的流行词汇。对于“大数据”研究机构Gartner给出了定义:Bigdataishigh-volume,high-velocityand/orhigh-varietyinformationassetsthatdemandcost-effective,innovativeformsofinformationprocessingthatenableenhancedinsight,decisionmaking,andprocessautomation.(大数据作为高容量、高速度和/或种类繁多的信息资产,需要低成本、创新的信息处理方式,使其在洞察、决策制定和流程自动化方面得以应用。)SAS也给出了定义:Bigdataisatermthatdescribesthelargevolumeofdata–bothstructuredandunstructured–thatinundatesabusinessonaday-to-daybasis.Butit’snottheamountofdatathat’simportant.It’swhatorganizationsdowiththedatathatmatters.Bigdatacanbeanalyzedforinsightsthatleadtobetterdecisionsandstrategicbusinessmoves.(大数据是指那些我们每天都会遇到的、多到足以淹没日常业务的大量数据(包括结构化和非结构化数据)。但重要的不是数据的量,而是数据的结构。对大数据的科学分析可以给我们一些深刻的洞见,这对明智的决策和战略业务举措大有裨益。)总的来说,今天我们所说的“大数据”则不同于以往所说的“数据”,它不仅包括“数字”,可能还包括“文本、图片、音频、视频等多种格式,用术语来概括,即“数据”是结构化的,而“大数据”则包括了“结构化数据”、“半结构化数据”和“非结构化数据”。目前,业界将大数据的特点归纳为4个“V”——Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(精确)。三、大数据创造大价值哈佛大学社会学教授加里?金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是*府,所有领域都将开始这种进程。”如果说20世纪是石油为王的时代,21世纪就是数据为王的时代。目前大数据正逐步像石油、电力等能源一样,成为最重要的资产,在医疗、交通、金融、零售等各个领域创造极大的价值。金融领域中,大数据技术在银行、证券、保险等细分领域中发挥巨大功效,打破传统金融桎梏。例如,银行业中光大银行建立了社交网络信息数据库、中信银行信用卡中心使用大数据技术实现了实时营销、招商银行则利用大数据发展小微贷款;保险业中“三马卖保险”的故事,平安集团联合腾讯、阿里巴巴组建保险公司,利用其拥有海量客户信息数据的优势突破了国内现有保险营销模式。然而,正如目前有关人工智能的善恶评价可谓此起彼伏,莫衷一是,人们关于大数据的评价也同样是各执一词,“这是一个最好的时代,这是一个最坏的时代”形容得最为贴切。一方面,大数据将为人类社会创造巨大价值,另一方面,可以说我们将无法逃脱一些合法或非法的“偷窥”者,他们正在无时无刻的“窃取”着我们的行为信息,从此将没有真正的“隐私”可言。然而有一点值得肯定的是,金融大数据的发展在很大程度上拓展了学术研究领域的广度与深度,优化甚至颠覆了许多传统学术问题的研究方法,使得许多现实问题得以更直接地进行描述与研究,下面笔者将简要介绍互联网大数据领域中的首个学术研究。四、互联网大数据的首个学术研究PeterD.Wysocki于年发表了一篇workingpaper,名为《CheapTalkontheWeb:TheDeterminantsofPostingsonStockMessageBoards》,虽然这篇文章至今未发表,但作为互联网大数据领域的首个研究,其引用量却非常高。这篇论文以雅虎股票留言板(类似于国内的“东方财富股吧”)上留言量的横截面和时间序列因素为基础,检验了留言板上的留言仅仅是噪声,还是真的与公司的特征和股票市场动态有关。作者通过实证检验,最终得出结论:从截面上来说,平均而言,对于历史收益、会计业绩、市盈率、M/B比率、市值、分析师较高、卖空较多且机构持有量较低的公司的留言较多;从时间序列上来说,在收益公告期间,每日留言量增加,并且与每日的股票交易量、收益以及前一天的收益有关;使用隔夜留言数可以预测第二天股票交易量和收益的变化。此外,本文还尝试了分别用传统理论和行为学理论对这些发帖留言活动的模式进行分析和解释。
其摘要详情具体如下:
Thispaperexaminesthecross-sectionalandtime-seriesdeterminantsofmessage-postingvolumeonstockmessageboardsontheWeb.Itestwhethervariationinmessage-postingvolumeisjustnoiseorisrelatedtounderlyingfirmcharacteristicsandstockmarketactivity.Usingasampleofover3,stockslistedonYahoo!messageboards,Ifindthatcumulativepostingvolumeis,onaverage,highestforfirmswithextremepastreturnsandaccountingperformance,highmarketcapitalization,highprice-earningsandmarket-to-bookratios,highvolatilityandtradingvolume,highanalystfollowingandlowinstitutionalholdings.Changesindailypostingvolumeareassociatedwithearnings-announcementeventsanddailychangesinstocktradingvolumeandreturns.Overnightmessage-postingvolumeisfoundtopredictchangesinnextdaystocktradingvolumeandreturns.Rationalandbehavioralexplanationsfortheobservedpatterninmessage-postingactivityarediscussed.这篇文章作为互联网大数据领域的首篇文章,给了后人诸多启示,在此基础上,许多学者进行了该领域的相关研究,例如投资者情绪方面、投资者