subtitle
11
22
Hadoop 中块大小的设置 Hadoop 中块大小的设置
https://www.cnblogs.com/Dhouse/p/6901028.html 小文件BLOCK占用【小于块大小的小文件不会占用整个HDFS块空间。也就是说,较多的小文件会占用更多的NAMENODE的内存(记录了文件的位置等信息
2018-11-22
03
27
JS分布式爬虫 JS分布式爬虫
数据爬虫概述所谓网页爬虫,就是指把URL地址中指定的网络资源从网络流中读取出来,保存到指定的数据库 爬虫基本原理 爬虫分类批量爬虫增量爬虫 我们的数据爬虫分布式爬虫整体结构 中心服务器 提供为每一台spiser的接口 TASK_
2018-03-27
26
MySql 基础 MySql 基础
概述本篇主要是记录MySql使用中的常见问题和优化 1. MqSql 中的数据类型MySQL支持多种类型,大致可以分为三类:数值、日期/时间和字符串(字符)类型。 。。。。。。。待续 mysql 中的批量更新1234567UPDATE ca
2018-03-26
26
Nodejs 基础(1) Nodejs 基础(1)
概述本篇主要是理解nodejs 学习中的困惑和难点 1. nodejs中的异步node是单线程的,异步是通过一次次的循环事件队列来实现的.同步则是说阻塞式的IO,这在高并发环境会是一个很大的性能问题,所以同步一般只在基础框架的启动时使用,用
2018-03-26
16
尽然还不知道一点儿博弈论知识 ? 尽然还不知道一点儿博弈论知识 ?
对于博弈论(Game Theory)你了解多少?下边我先给大家推荐一部电影。获得了2002年四项奥斯卡金像奖的《美丽心灵》(A Beautiful Mind),依据1994年诺贝尔经济学奖得主纳什(John Nash)传记拍成。纳什年轻时就
2018-03-16
08
数据分析常见问题 数据分析常见问题
随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。 你处理过的最大的
2018-03-08
01
25
使用spark(-) scala 基础 使用spark(-) scala 基础
概述团队大量使用spark操作数据,包括对数据的拉取,清洗,入库,统计等操作,为了更好的使用数据,为了做到不求人,故有这个系列的学习。我本前端出生,对于强类型的语言还是不习惯,那就一点一点的学习。 学习初期的环境搭建是必要的,例如scala
2018-01-25
22
Hadoop的入门 Hadoop的入门
概述Hadoop自推出以后在互联网快速发展的背景下得到了许多公司的认可,已然成为大数据的基础处理平台甚至是行业标准。Facebook,Amazon,Yahoo等等公司都在自己的系统中构建了基于Hadoop的处理平台。除了最基本的数据处理功能
2018-01-22
17
10
1 / 2