1.前置准备
上篇文章我讲了安装CDH的一些前置准备,可以参考《CDH安装前置基础准备条件》一文,这里就不再多说。
到此已完成:
- 集群服务器配置,包括安装操作系统、关闭防火墙、同步服务器时钟等;
- 外部数据库安装
- CDH和CM版本均为5.14且已配置本地yum源
2.Cloudera Manager安装
2.1.安装Cloudera Manager Server
1.yum安装Cloudera Manager Server
|
|
上篇文章我讲了安装CDH的一些前置准备,可以参考《CDH安装前置基础准备条件》一文,这里就不再多说。
到此已完成:
1.yum安装Cloudera Manager Server
|
|
测试环境,最小规模,最少4台服务器。一台做管理节点Cloudera Manager和NameNode等,另外三台用作worker,DATANODE节点,这种最小规模一般仅用于开发和测试。
如果是生产环境,最少6台,3台管理节点包括1个Cloudera Manager,2个NameNode做高可用,3个工作节点。
常见的较小规模的生产系统一般为10-20台。
###1.2.操作系统
CDH支持大部分主流的64位操作系统,我这里会以centos 6.9部署CDH 5.14版本为例子。其他CDH版本及其对应的操作系统版本可参考:CDH版本及其支持的操作系统版本
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html
英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html
GitHub: https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)
贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者
内容提要
在本节中,我们介绍一些在使用 scikit-learn 过程中用到的 机器学习 词汇,并且给出一些例子阐释它们。
一般来说,一个学习问题通常会考虑一系列 n 个 样本 数据,然后尝试预测未知数据的属性。 如果每个样本是 多个属性的数据 (比如说是一个多维记录),就说它有许多“属性”,或称 features(特征) 。
我们可以将学习问题分为几大类:
中文文档: http://sklearn.apachecn.org/cn/0.19.0/tutorial/basic/tutorial.html
英文文档: http://sklearn.apachecn.org/en/0.19.0/tutorial/basic/tutorial.html
GitHub: https://github.com/apachecn/scikit-learn-doc-zh(觉得不错麻烦给个 Star,我们一直在努力)
贡献者: https://github.com/apachecn/scikit-learn-doc-zh#贡献者
Note: 如果你想为这个项目做出贡献,建议你安装最新的开发版本.
Scikit-learn 要求:
有将近一周没有写文章了,经历了一场所有IT从业者的梦魇——数据丢失。一块1T的移动硬盘中,约500G的分区数据无故消失,想必挺多人都遇上过这种事,无奈,尽快尝试恢复,能恢复多少是多少了。
由于此块移动硬盘经常要在windows和mac平台来回切换使用,在不纠结单文件4GB的限制的情况下,当时使用的FAT32格式。还好此类格式和NTFS格式较为常见,恢复起来也较为容易。这里要说一下: