在第一篇文章中介绍了以下术语:算法,分析,描述性分析,规定分析,预测分析,批处理,Cassandra,云计算,集群计算,黑暗数据,数据湖,数据挖掘,数据科学家,分布式文件系统,ETL,Hadoop,内存计算,IOT,机器学习,Mapreduce,NoSQL,R,Spark,流处理,结构化。非结构化数据。
现在我们来看看还有50个更大的数据术语。
Apache软件基金会(ASF)提供了许多BigData开源项目,目前有多个项目。我可以花一整天的时间来解释这些项目,而不是选择几个热门词汇。
ApacheKafka:以着名的捷克作家命名的卡夫卡用于构建实时数据流水线和流媒体应用。为什么这么受欢迎?因为它能够以容错的方式存储,管理和处理数据流,并据称“快速”。鉴于社交网络环境处理数据流,卡夫卡目前非常受欢迎。
ApacheMahout:Mahout提供了一个用于机器学习和数据挖掘的预制算法库,也是创建更多算法的环境。换句话说,机器学习天堂的天堂环境。机器学习和数据挖掘在我之前提到的文章中有介绍。
ApacheOozie:在任何编程环境中,您需要一些工作流系统来以预定义的方式和定义的依赖关系来安排和运行作业。Oozie提供了用于编写猪,MapReduce和Hive等语言的大数据工作。
ApacheDrill,ApacheImpala,ApacheSparkSQL
所有这些都提供快速和交互式的SQL,如与ApacheHadoop数据的交互。如果您已经知道SQL并处理以大数据格式存储的数据(即HBase或HDFS),这些功能非常有用。对不起,在这里好奇怪
ApacheHive:知道SQL?那么你和Hive在很好的手中。Huve有助于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。
ApachePig:Pig是在大型分布式数据集上创建查询执行例程的平台。所使用的脚本语言叫做PigLatin(不,我没有做,相信我)。据说猪很容易理解和学习。但是我的问题是有多少人可以学习?
ApacheSqoop:用于将数据从Hadoop移动到非Hadoop数据存储(如数据仓库和关系数据库)的工具。
ApacheStorm:一个免费的开源实时分布式计算系统。它使得使用Hadoop进行批处理的瞬时处理可以更容易地处理非结构化数据。
人工智能(AI)-为什么AI在这里?这不是一个单独的领域,你可能会问。所有这些趋势技术是如此相关,以便我们更好地保持安静,继续学习,好吗?AI关于开发智能机器和软件,使硬件和软件的这种组合能够感知环境,并在需要时采取必要的措施,并继续学习这些操作。听起来类似于机器学习?加入我的“困惑”俱乐部
行为分析:曾经想过谷歌如何为您看来需要的产品/服务提供广告?行为分析侧重于了解消费者和应用程序的作用以及它们以某种方式行事的方式和原因。这是关于我们的网络冲浪模式,社交媒体互动,我们的电子商务行动(购物车等)的理解,并连接这些无关的数据点,并尝试预测结果。在一个例子中,我在寻找一家酒店后放弃了一个购物车,接到一个度假村假期线路的电话。需要我说更多吗?
Brontobytes-1,其次是27个零,这是明天数字宇宙的大小。当我们在这里的时候,让我谈谈太字节,太字节,Exabyte,Zetabyte,Yottabyte和Brontobyte。您必须阅读本文以了解有关所有这些术语的更多信息。
商业智能(BI):我将重用Gartner对BI的定义,因为它做得很好。商业智能(BI)是一个总括术语,包括应用程序,基础设施和工具以及最佳实践,可以访问和分析信息,以改善和优化决策和绩效。
生物识别技术:这就是JamesBondish技术与分析技术相结合,通过一种或多种身体特征来识别人,如面部识别,虹膜识别,指纹识别等。
点击流分析:用于分析用户在网络上浏览的在线点击。曾经想过,为什么某些Google广告还会继续