零基础转行大数据工程师艰辛历程记！看了让我感慨万千

发表时间：2022-03-25来源：网络

我们相信人人都可以成为一个大数据程序员，现在开始，找个师兄，带你入门，学习的路上不再迷茫。

不少想进入大数据行业的零基础学员经常会有这样一些疑问：零基础应该怎么学习？自己适合学习大数据吗？

人生，就是在不断地做选择，然后在这个选择过程中成长，让自己从一棵小树苗变成参天大树。就是我们每个对大数据充满幻想终于下定决心行动的学员的选择，我们给了自己4个月的时间，想要在大数据这个领域汲取养分，让自己壮大成长。分享方向，行动以前先分享下一个大数据交流分享资源群868847735 ，欢迎想学习，想转行的，进阶中你加入，现在分享我自己的经历。

明确方向

通过国家的战略规划，看到BAT的大牛们都在大数据行业布局，新闻媒体追捧这大数据行业的项目和热点，我想如果我还没有能力独立判断的时候，跟着国家政策和互联网大佬们的步调走，这应该是错不了的。

付诸行动

明确了方向之后，我就整装待发，刚开始是在网络上购买了很多的视频教程，也买了很多书籍，但是最大的问题就在于，我不知道怎么入手，没关系，有信心有耐心肯定能战胜困难，我坚持了一个月，学习的节奏越来越乱，陆陆续续出现了很多的问题，没人指导，请教了几个业内的朋友，但对方工作繁忙，问了几次之后就不好意思了，自学陷入了死循环。

意识到我学习效率的低下，以及无人指导的问题想想未来的康庄大道，咬咬牙告诉自己，一定好好好学，不然就浪费太多时间最后还会是一无所获。

找到组织一起学习进步

大数据零基础路线

有信心能坚持学习的话，那就当下开始行动吧！

一、大数据技术基础

1、linux操作基础

linux系统简介与安装linux常用命令–文件操作linux常用命令–用户管理与权限linux常用命令–系统管理linux常用命令–免密登陆配置与网络管理linux上常用软件安装linux本地yum源配置及yum软件安装linux防火墙配置linux高级文本处理命令cut、sed、awklinux定时任务crontab

2、shell编程

shell编程–基本语法shell编程–流程控制shell编程–函数shell编程–综合案例–自动化部署脚本

3、内存数据库redis

redis和nosql简介redis客户端连接redis的string类型数据结构操作及应用-对象缓存redis的list类型数据结构操作及应用案例-任务调度队列redis的hash及set数据结构操作及应用案例-购物车redis的sortedset数据结构操作及应用案例-排行榜

4、布式协调服务zookeeper

zookeeper简介及应用场景zookeeper集群安装部署zookeeper的数据节点与命令行操作zookeeper的java客户端基本操作及事件监听zookeeper核心机制及数据节点zookeeper应用案例–分布式共享资源锁zookeeper应用案例–服务器上下线动态感知zookeeper的数据一致性原理及leader选举机制

5、java高级特性增强

Java多线程基本知识Java同步关键词详解java并发包线程池及在开源软件中的应用Java并发包消息队里及在开源软件中的应用Java JMS技术Java动态代理反射

6、轻量级RPC框架开发

RPC原理学习Nio原理学习Netty常用API学习轻量级RPC框架需求分析及原理分析轻量级RPC框架开发

二、离线计算系统

1、hadoop快速入门

hadoop背景介绍分布式系统概述离线数据分析流程介绍集群搭建集群使用初步

2、HDFS增强

HDFS的概念和特性HDFS的shell(命令行客户端)操作HDFS的工作机制NAMENODE的工作机制java的api操作案例1：开发shell采集脚本

3、MAPREDUCE详解

自定义hadoop的RPC框架Mapreduce编程规范及示例编写Mapreduce程序运行模式及debug方法mapreduce程序运行模式的内在机理mapreduce运算框架的主体工作流程自定义对象的序列化方法MapReduce编程案例

4、MAPREDUCE增强

Mapreduce排序自定义partitionerMapreduce的combinermapreduce工作机制详解

5、MAPREDUCE实战

maptask并行度机制-文件切片maptask并行度设置倒排索引共同好友

6、federation介绍和hive使用

Hadoop的HA机制HA集群的安装部署集群运维测试之Datanode动态上下线集群运维测试之Namenode状态切换管理集群运维测试之数据块的balanceHA下HDFS-API变化hive简介hive架构hive安装部署hvie初使用

7、hive增强和flume介绍

HQL-DDL基本语法HQL-DML基本语法HIVE的joinHIVE 参数配置HIVE 自定义函数和TransformHIVE 执行HQL的实例分析HIVE最佳实践注意点HIVE优化策略HIVE实战案例Flume介绍Flume的安装部署案例：采集目录到HDFS案例：采集文件到HDFS

三、流式计算

1、Storm从入门到精通

Storm是什么Storm架构分析Storm架构分析Storm编程模型、Tuple源码、并发度分析Storm WordCount案例及常用Api分析Storm集群部署实战Storm+Kafka+Redis业务指标计算Storm源码下载编译Strom集群启动及源码分析Storm任务提交及源码分析Storm数据发送流程分析Storm通信机制分析Storm消息容错机制及源码分析Storm多stream项目分析编写自己的流式任务执行框架

2、Storm上下游及架构集成

消息队列是什么Kakfa核心组件Kafka集群部署实战及常用命令Kafka配置文件梳理Kakfa JavaApi学习Kafka文件存储机制分析Redis基础及单机环境部署Redis数据结构及典型案例Flume快速入门Flume+Kafka+Storm+Redis整合

四、内存计算体系Spark

1、scala编程

scala编程介绍scala相关软件安装scala基础语法scala方法和函数scala函数式编程特点scala数组和集合scala编程练习（单机版WordCount）scala面向对象scala模式匹配actor编程介绍option和偏函数实战：actor的并发WordCount柯里化隐式转换

2、AKKA与RPC

Akka并发编程框架实战：RPC编程实战

3、Spark快速入门

spark介绍spark环境搭建RDD简介RDD的转换和动作实战：RDD综合练习RDD高级算子自定义Partitioner实战：网站访问次数广播变量实战：根据IP计算归属地自定义排序利用JDBC RDD实现数据导入导出WorldCount执行流程详解

4、RDD详解

RDD依赖关系RDD缓存机制RDD的Checkpoint检查点机制Spark任务执行过程分析RDD的Stage划分

5、Spark-Sql应用

Spark-S结合HiveDataFrame实战：Spark-SQL和DataFrame案例

6、SparkStreaming应用实战

Spark-Streaming简介Spark-Streaming编程实战：StageFulWordCountFlume结合Spark StreamingKafka结合Spark Streaming窗口函数ELK技术栈介绍ElasticSearch安装和使用Storm架构分析Storm编程模型、Tuple源码、并发度分析Storm WordCount案例及常用Api分析

7、Spark核心源码解析

Spark源码编译Spark远程debugSpark任务提交行流程源码分析Spark通信流程源码分析SparkContext创建过程源码分析DriverActor和ClientActor通信过程源码分析Worker启动Executor过程源码分析Executor向DriverActor注册过程源码分析Executor向Driver注册过程源码分析DAGScheduler和TaskScheduler源码分析Shuffle过程源码分析Task执行过程源码分析

五、机器学习算法

1、python及numpy库

机器学习简介机器学习与pythonpython语言–快速入门python语言–数据类型详解python语言–流程控制语句python语言–函数使用python语言–模块和包phthon语言–面向对象python机器学习算法库–numpy机器学习必备数学知识–概率论

2、常用算法实现

knn分类算法–算法原理knn分类算法–代码实现knn分类算法–手写字识别案例lineage回归分类算法–算法原理lineage回归分类算法–算法实现及demo朴素贝叶斯分类算法–算法原理朴素贝叶斯分类算法–算法实现朴素贝叶斯分类算法–垃圾邮件识别应用案例kmeans聚类算法–算法原理kmeans聚类算法–算法实现kmeans聚类算法–地理位置聚类应用决策树分类算法–算法原理决策树分类算法–算法实现

上一篇：吐血总结：2021 程序员最佳学习方法！适合零基础或转行入门

下一篇：想学程序员又是零基础该怎么学