想学习大数据要掌握些什么知识?

2024年11月06日 14:22
有5个网友回答
网友(1):

想学习大数据要掌握些什么知识?,学习大数据具体要学习什么两方面。

在学习大数据中具体学习的大概分为五类:

开发语言、大数据存储、分布式计算、数据仓库技术和机器学习。

学习的开发语言三种:java、python、scala.在大数据中语言重要程度为:java>scala>python.

  1. 大数据的分布式存储有:Hdfs、Hbas、Redis、Mongedb.其中Redis是分布式存储,其他三种是做大数据的分布离线存储,海量数据在Hdfs中存储。

  2. 大数据的分布式计算:Mapreducer、Sparkstreamming、Spark Core、Fink.

  3. 数据仓库技术:Hive、Sqoop、Flime.

  4. 机器学习:Mahout、Scikit leam、MLilb.

学习大数据还要掌握一点是,大数据的分布式计算(一):将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。

离线分布式计算:在计算开始前已知所有输入数据,输入数据不会产生变化,并且计算之后直接产生结果。

特点:

  1. 数据量巨大且保存时间长

  2. 在大量数据上进行复杂的批量运算

  3. 数据在计算之前已经完全到位,不会发生变化

  4. 能够方便地查询批量计算的结果。

大数据的分布式计算(二)

流式分布式计算

对天规模流 动数据在不断变化的运动过程中实时地进行计算,来-条数据就计算一下。

主要技术:

  1. Spark Streamming

  2. Storm

  3. Flink

数据仓库:离线数仓数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、 相对稳定的(Non-Volatile) 、反映历史变化(Time Variant)的数据集合,用于支持管理决策。

数仓理论基础;数仓架构: Lambda架 构和Kappa架构离线数仓技术: Hive,Hbase, Sqoop, Kylin, MR等

实时数仓的概念

实时数仓技术; Flume,Kafka, Flink等。

因此,这就告诉我们,想要学习大数据应该先把基础学习好,把大数据的体系理清楚。才能为更好地学习大数据做铺垫

网友(2):

要学习大数据的话,首先你要有一定的互联网和计算机基础还要对数学有一定的造就。这些都是学习大数据的基础。可以去寻找一些专业的书籍,然后来进行学习。

网友(3):

数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。

网友(4):

大数据基础阶段:Linux;Docker;KVM;Mysql基础;Oracle基础;MongoDB;redis;hadoop mapreduce hdfs yarn;hadoop

网友(5):

大数据前景是很不错的,像大数据这样的专业还是一线城市比较好,师资力量跟得上、就业的薪资也是可观的,学大数据面授班的时间大约半年,学大数据可以按照路线图的顺序,