kafka中文文档

发表于 2018-10-08 | 分类于 kafka | 阅读次数

pyenv实现多个python版本并存

发表于 2018-09-20 | 分类于 python | 阅读次数

由于python 2和3存在不小的区别，尤其个别第三方库并不是都兼容，所以有时候我们需要在同一台服务器上运行多个不同的python版本

(1)安装到$HOME/.pyenv目录:

1	git clone https://github.com/yyuu/pyenv.git ~/.pyenv

(2)配置环境变量

1 2	echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bash_profile echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bash_profile

(3)添加pyenv初始化到你的shell并生效

1
2
3

echo 'eval "$(pyenv init -)"' >> ~/.bash_profile
echo 'eval "$(pyenv virtualenv-init -)"' >> ~/.bash_profile
source ~/.bash_profile

发表于 2018-09-05 | 分类于 CDH | 阅读次数

上篇文章我讲了安装CDH的一些前置准备，可以参考《CDH安装前置基础准备条件》一文，这里就不再多说。

到此已完成：

1.yum安装Cloudera Manager Server

1	yum -y install cloudera-manager-server

发表于 2018-07-21 | 分类于 CDH | 阅读次数

测试环境，最小规模，最少4台服务器。一台做管理节点Cloudera Manager和NameNode等，另外三台用作worker，DATANODE节点，这种最小规模一般仅用于开发和测试。

如果是生产环境，最少6台，3台管理节点包括1个Cloudera Manager，2个NameNode做高可用，3个工作节点。

常见的较小规模的生产系统一般为10-20台。

###1.2.操作系统
CDH支持大部分主流的64位操作系统，我这里会以centos 6.9部署CDH 5.14版本为例子。其他CDH版本及其对应的操作系统版本可参考：CDH版本及其支持的操作系统版本

发表于 2017-12-07 | 分类于 Scikit-Learn中文文档 | 阅读次数

内容提要
在本节中，我们介绍一些在使用 scikit-learn 过程中用到的机器学习词汇，并且给出一些例子阐释它们。

一般来说，一个学习问题通常会考虑一系列 n 个样本数据，然后尝试预测未知数据的属性。如果每个样本是多个属性的数据（比如说是一个多维记录），就说它有许多“属性”，或称 features(特征) 。
我们可以将学习问题分为几大类: