数据预处理任务主要包括数据清洗数据集成数据转换和数</p>
据脱敏等经过这些步骤Y我们可以从大量的数据属性中提取</p>
出一部分对目标输出有重要影响的属性Y降低源数据的维数Y</p>
去除噪声Y为数据分析算法提供干净准确且有针对性的数据Y</p>
减少数据分析算法的数据处理量Y改进数据质量Y提高分析效</p>
率。</p>
数据采集Y又称 数据获取</p>
Y是数据分析的入口Y也是数据分</p>
析过程中相当重要的一个环节Y它通过各种技术手段把外部各</p>
种数据源产生的数据实时或非实时地采集并加以利用。</p>
传感器是一种检测装置Y能感受到被测量的信息Y并能将感受到的信息Y</p>
按一定规律变换成为电信号或其他所需形式的信息输出Y以满足信息的传</p>
输处理存储显示记录和控制等要求在工作现场Y我们会安装很</p>
多的各种类型的传感器Y如压力传感器温度传感器流量传感器声音</p>
传感器电参数传感器等等</p>
�6�1传感器对环境的适应能力很强Y可以应对各种恶劣的工作环境在日常</p>
生活中Y如温度计麦克风DV录像手机拍照功能等都属于传感器数据</p>
采集的一部分Y支持图片音频视频等文件或附件的采集工作。</p>
互联网数据的采集通常是借助于网络爬虫来完成的所谓 网络爬虫</p>
Y就</p>
是一个在网上到处或定向抓取网页数据的程序抓取网页的一般方法是Y</p>
定义一个入口页面Y然后一般一个页面中会包含指向其他页面的URLY于</p>
是从当前页面获取到这些网址加入到爬虫的抓取队列中Y然后进入到新页</p>
面后再递归地进行上述的操作爬虫数据采集方法可以将非结构化数据从</p>
网页中抽取出来Y将其存储为统一的本地数据文件Y并以结构化的方式存</p>
储它支持图片音频视频等文件或附件的采集Y附件与正文可以自动</p>
关联。</p>
许多公司的业务平台每天都会产生大量的日志文件日志文件数据一般由数</p>
据源系统产生Y用于记录数据源的执行的各种操作活动Y比如网络监控的流</p>
量管理金融应用的股票记账和Web服务器记录的用户访问行为对于这些</p>
日志信息Y我们可以得到出很多有价值的数据通过对这些日志信息进行采</p>
集Y然后进行数据分析Y就可以从公司业务平台日志数据中挖掘得到具有潜</p>
在价值的信息Y为公司决策和公司后台服务器平台性能评估提供可靠的数据</p>
保证系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时</p>
分析使用很多互联网企业都有自己的海量数据采集工具Y多用于系统日志</p>
采集Y如Hadoop的ChukwaYCloudera的FlumeYFacebook的Scribe等Y</p>
这些工具均采用分布式架构Y能满足每秒数百MB的日志数据采集和传输需</p>
求。</p>
一些企业会使用传统的关系型数据库MySQL和Oracle等来存储业务系统数</p>
据Y除此之外YRedis和MongoDB这样的NoSQL数据库也常用于数据的</p>
存储企业每时每刻产生的业务数据Y以数据库一行记录形式被直接写入</p>
到数据库中企业可以借助于ETL�0�5</p>
Extract-Transform-Load�0�6工具Y把</p>
分散在企业不同位置的业务系统的数据Y抽取转换加载到企业数据仓</p>
库中Y以供后续的商务智能分析使用通过采集不同业务系统的数据并统</p>
一保存到一个数据仓库中Y就可以为分散在企业不同地方的商务数据提供</p>
一个统一的视图Y满足企业的各种商务决策分析需求。</p>
数据采集是数据系统必不可少的关键部分Y也是数据</p>
平台的根基根据不同的应用环境及采集对象Y有多</p>
种不同的数据采集方法Y包括X</p>
�6�1系统日志采集</p>
�6�1分布式消息订阅分发</p>
�6�1ETL</p>
�6�1网络数据采集。</p>
Flume是Cloudera提供的一个高可用的Y高可靠的Y分布式的海量日志采集聚合</p>
和传输的系统YFlume支持在日志系统中定制各类数据发送方Y用于收集数据]同</p>
时YFlume提供对数据进行简单处理Y并写到各种数据接受方�0�5可定制�0�6的能力。</p>
www.mbeoge.cc。m.mbeoge.cc</p>