7层模型

4月 10 技术评论字数统计: 59(字) 阅读时长: 1(分)

乐府长相思李白

长相思，在长安。

络纬秋啼进井栏，微霜凄凄簟(dian)色寒。

4月 10 诗书评论字数统计: 76(字) 阅读时长: 1(分)

hive初探

hive

数据仓库，OLAP，分析处理，存储和分析，延迟较高，不支持事务，不支持删除更新
数据库，OLTP，在线事物处理，低延迟，事务支持
运行在hadoop之上，类SQL方法方式运行，(HQL)
操纵结构化数据
schema(模式，元信息存放到数据库中)，HDFS文件，默认存储在derby,也支持外置存放mysql
数据库和表都是路径

11月 25 技术大数据评论字数统计: 1.8k(字) 阅读时长: 9(分)

解决编译hadoop源码,集成snappyCodec过程心得

10月 7 技术大数据评论字数统计: 33(字) 阅读时长: 1(分)

hadoop初探

MapReduce：Job

0.术语
    MapTask : map任务
    Reduce  : task
1.编程模型
    map（映射） + reduce （化简）
2.

9月 8 技术大数据评论字数统计: 665(字) 阅读时长: 3(分)

hive_01

RDBMS

Relation Database Management System,关系型数据库管理系统。
简称：数据库
OLTP: online transaction process.[在线事物处理]
要求延迟很小，低延迟
a.原子性
c.一致性
i.隔离性
f.永久性

9月 8 技术大数据评论字数统计: 687(字) 阅读时长: 3(分)

hive_02

hive

数据仓库，OLAP，分析处理，存储和分析，延迟较高，不支持事务，不支持删除更新
数据库，OLTP，在线事物处理，低延迟，事务支持
运行在hadoop之上，类SQL方法方式运行，(HQL)
操纵结构化数据
schema(模式，元信息存放到数据库中)，HDFS文件，默认存储在derby,也支持外置存放mysql
数据库和表都是路径

Hive是类似MYSQL的。
配置HIVE
1. conf/hive-env.sh
HADOOP_HOME= //不配也可以
2. conf/hive-site.xml
${system:java.io.tmpdir} //配置本地临时目录

$>schematool -initSchema -dbType derby //初始化模式

9月 8 技术大数据评论字数统计: 2.4k(字) 阅读时长: 12(分)

hive_03

创建分区表

create external table hive1.test2(id int ,name string , age int)
    partitioned by(province string , city string)  
    row format delimted  
    fields terminated by '\t'  
    lines terminated by '\n'  
    store as textfile ;

9月 8 技术大数据评论字数统计: 2.2k(字) 阅读时长: 11(分)

hive_04

Hive

1. 内部表
  - 数据生命周期
1. 外部表
  - 删除外部表，并没有删除数据，删掉了schema(rdbms)
1. 分区表
  - 表目录的子目录
  - create table xxx(…) partitioned by ()
  - alter table add partitions () ..
  - load data local inpath … into table xxx partition (…)
1. bucket表
  - create table xxx(…) clustered by (fieldName) into n BUCKETS
  - 数据文件.hash

调优

1. explain
- 解释执行计划
  1
  explain select sum(*) from
1. 启用limit调优,避免全表扫描，使用抽样机制
- select * from xxx limit 1,2
- hive.limit.optimize.enable=true

9月 8 技术大数据评论字数统计: 1.8k(字) 阅读时长: 9(分)

电影看单

8月 8 电影 misc 评论字数统计: 1.4k(字) 阅读时长: 4(分)