[开发必备]史上最全大数据注释表

行云流水2016 · 发表于 2016-10-24 16:46:10

【导读】大数据的出现带来了许多新的术语，但这些术语往往比较难以理解。因此，我们通过本文给出一个常用的大数据术语表，抛砖引玉，供大家深入了解。
A
聚合(Aggregation)–搜索、合并、显示数据的过程
算法(Algorithms)–可以完成某种数据分析的数学公式
分析法(Analytics)–用于发现数据的内在涵义
人工智能(ArtificialIntelligence)–研发智能机器和智能软件，这些智能设备能够感知周遭的环境，并根据要求作出相应的反应，甚至能自我学习
B
行为分析法(BehaviouralAnalytics)–这种分析法是根据用户的行为如“怎么做”，“为什么这么做”，以及“做了什么”来得出结论，而不是仅仅针对人物和时间的一门分析学科，它着眼于数据中的人性化模式
大数据科学家(BigDataScientist)–能够设计大数据算法使得大数据变得有用的人
B字节(BB:Brontobytes)–约等于1000YB(Yottabytes)，相当于未来数字化宇宙的大小。1B字节包含了27个0！
商业智能(BusinessIntelligence)–是一系列理论、方法学和过程，使得数据更容易被理解
C
分类分析(Classificationanalysis)–从数据中获得重要的相关性信息的系统化过程;这类数据也被称为元数据(metadata),是描述数据的数据
云计算(Cloudcomputing)–构建在网络上的分布式计算系统，数据是存储于机房外的（即云端）
客户关系管理(CRM:CustomerRelationshipManagement)–用于管理销售、业务过程的一种技术，大数据将影响公司的客户关系管理的策略
D
仪表板(Dashboard)–使用算法分析数据，并将结果用图表方式显示于仪表板中
数据聚合工具(Dataaggregationtools)–将分散于众多数据源的数据转化成一个全新数据源的过程
数据建模(Datamodelling)–使用数据建模技术来分析数据对象，以此洞悉数据的内在涵义
数据集(Dataset)–大量数据的集合
数据虚拟化(Datavirtualization)–数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等
E
探索性分析(Exploratoryanalysis)–在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法
E字节(EB:Exabytes)–约等于1000PB(petabytes),约等于1百万GB。如今全球每天所制造的新信息量大约为1EB
提取-转换-加载(ETL:Extract,TransformandLoad)–是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据，并转换(T)成能满足业务需要的数据，最后将其加载(L)到数据库
F
故障切换(Failover)–当系统中某个服务器发生故障时，能自动地将运行任务切换到另一个可用服务器或节点上
容错设计(Fault-tolerantdesign)–一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行
G
游戏化(Gamification)–在其他非游戏领域中运用游戏的思维和机制，这种方法可以以一种十分友好的方式进行数据的创建和侦测，非常有效。
图形数据库(GraphDatabases)–运用图形结构(例如，一组有限的有序对，或者某种实体)来存储数据，这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能，也就是说，数据库中每个元素间都与其他相邻元素直接关联。
网格计算(Gridcomputing)–将许多分布在不同地点的计算机连接在一起，用以处理某个特定问题，通常是通过云将计算机相连在一起。
H
hadoop–一个开源的分布式系统基础框架，可用于开发分布式程序，进行大数据的运算与存储。
Hadoop数据库(HBase)–一个开源的、非关系型、分布式数据库，与Hadoop框架共同使用
HDFS–Hadoop分布式文件系统(HadoopDistributedFileSystem)；是一个被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统
高性能计算(HPC:High-Performance-Computing)–使用超级计算机来解决极其复杂的计算问题
I
内存数据库(IMDB:In-memory)–一种数据库管理系统，与普通数据库管理系统不同之处在于，它用主存来存储数据，而非硬盘。其特点在于能高速地进行数据的处理和存取。
物联网(InternetofThings)–在普通的设备中装上传感器，使这些设备能够在任何时间任何地点与网络相连。
J
法律上的数据一致性(Juridicaldatacompliance)–当你使用的云计算解决方案，将你的数据存储于不同的国家或不同的大陆时，就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。
K
键值数据库(KeyValueDatabases)–数据的存储方式是使用一个特定的键，指向一个特定的数据记录，这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。
L
延迟(Latency)–表示系统时间的延迟
遗留系统(Legacysystem)–是一种旧的应用程序，或是旧的技术，或是旧的计算系统，现在已经不再支持了。
负载均衡(Loadbalancing)–将工作量分配到多台电脑或服务器上，以获得最优结果和最大的系统利用率。
位置信息(Locationdata)–GPS信息，即地理位置信息。
日志文件(Logfile)–由计算机系统自动生成的文件，记录系统的运行过程。
M
M2M数据(Machine2Machinedata)–两台或多台机器间交流与传输的内容
多维数据库(Multi-DimensionalDatabases)–用于优化数据联机分析处理(OLAP)程序，优化数据仓库的一种数据库。
多值数据库(MultiValueDatabases)–是一种非关系型数据库(NoSQL),一种特殊的多维数据库：能处理3个维度的数据。主要针对非常长的字符串，能够完美地处理HTML和XML中的字串。
N
自然语言处理(NaturalLanguageProcessing)–是计算机科学的一个分支领域，它研究如何实现计算机与人类语言之间的交互。
网络分析(Networkanalysis)–分析网络或图论中节点间的关系，即分析网络中节点间的连接和强度关系。
NoSQL–顾名思义，就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性，能处理超大规模和高并发的数据。
O
对象数据库(ObjectDatabases)–(也称为面象对象数据库)以对象的形式存储数据，用于面向对象编程。它不同于关系型数据库和图形数据库，大部分对象数据库都提供一种查询语言，允许使用声明式编程(declarativeprogramming)访问对象.
基于对象图像分析(Object-basedImageAnalysis)–数字图像分析方法是对每一个像素的数据进行分析，而基于对象的图像分析方法则只分析相关像素的数据，这些相关像素被称为对象或图像对象。
异常值检测(Outlierdetection)–异常值是指严重偏离一个数据集或一个数据组合总平均值的对象，该对象与数据集中的其他它相去甚远，因此，异常值的出现意味着系统发生问题，需要对此另加分析。
P
·模式识别(PatternRecognition)–通过算法来识别数据中的模式，并对同一数据源中的新数据作出预测
隐私(Privacy)–把具有可识别出个人信息的数据与其他数据分离开，以确保用户隐私。
公共数据(Publicdata)–由公共基金创建的公共信息或公共数据集。
Q
数字化自我(QuantifiedSelf)–使用应用程序跟踪用户一天的一举一动，从而更好地理解其相关的行为
查询(Query)–查找某个问题答案的相关信息
R
再识别(Re-identification)–将多个数据集合并在一起，从匿名化的数据中识别出个人信息
回归分析(Regressionanalysis)–确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注：自变量，因变量，二者不可互换)
S
半结构化数据(Semi-structureddata)–半结构化数据并不具有结构化数据严格的存储结构，但它可以使用标签或其他形式的标记方式以保证数据的层次结构
情感分析(SentimentAnalysis)–通过算法分析出人们是如何看待某些话题
结构化数据(Structureddata)-可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。
T
T字节(TB:Terabytes)–约等于1000GB(gigabytes)。1TB容量可以存储约300小时的高清视频。
时序分析(Timeseriesanalysis)–分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的，并且要取自相同时间间隔的连续时间点。
透明性(Transparency)–消费者想要知道他们的数据有什么作用、被作何处理，而组织机构则把这些信息都透明化了。
U
非结构化数据(Un-structureddata)–非结构化数据一般被认为是大量纯文本数据，其中还可能包含日期，数字和实例。
V
价值(Value)–(译者注：大数据4V特点之一)所有可用的数据，能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。
可变性(Variability)–也就是说，数据的含义总是在（快速）变化的。例如，一个词在相同的推文中可以有完全不同的意思。
大量(Volume)–(译者注：大数据4V特点之一)指数据量，范围从Megabytes至Brontobytes
W
天气数据(Weatherdata)–是一种重要的开放公共数据来源，如果与其他数据来源合成在一起，可以为相关组织机构提供深入分析的依据
X
XML数据库(XMLDatabases)–XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联，开发人员可以对XML数据库的数据进行查询，导出以及按指定的格式序列化
Y
Y字节(Yottabytes)–约等于1000ZB(Zettabytes),约等于250万亿张DVD的数据容量。现今，整个数字化宇宙的数据量为1YB,并且将每18年翻一番。
Z
Z字节(ZB:Zettabytes)–约等于1000EB(Exabytes),约等于1百万TB。据预测，到2016年全球范围内每天网络上通过的信息大约能达到1ZB。
当然，这份术语表并没有100%包含所有的术语，如果你认为有任何遗漏之处，欢迎来继续补充。

由于帖子字数有限，删除了不少内容，完整版可以关注"云途数据"微信公众号（ID:yuntudata）查看

		自动登录	找回密码
密码			注册会员

[开发必备]史上最全大数据注释表

相关帖子

站长推荐 /2