额前言:

        我是一名正在学习《Hadoop核心技术》的学生,今天跟大家分享一下在虚拟机上在Hadoop集群中用Hbase进行简单的增删查

一.什么是Hbase?

可以进行随机访问的存取和检索数据的存储平台

        HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。与传统的关系型数据库类似,HBase 也以表的形式组织数据,表也由行和列组成;不同的是,HBase 有列族的概念,它将一列或者多列组织在一起,HBase 的每一个列都必须属于某个列族。

        HBase 是一个可以进行随机访问的存取和检索数据的存储平台,存储结构化和半结构化的数据,因此一般的网站可以将网页内容和日志信息都存在 HBase 里。

        如果数据量不是非常庞大,HBase 甚至可以存储非结构化的数据。它不要求数据有预定义的模式,允许动态和灵活的数据模型,也不限制存储数据的类型。

        HBase 是非关系型数据库,它不具备关系型数据库的一些特点,例如,它不支持 SQL 的跨行事务,也不要求数据之间有严格的关系,同时它允许在同一列的不同行中存储不同类型的数据。

        HBase 作为 Hadoop 框架下的数据库,是被设计成在一个服务器集群上运行的

二.Hbase环境部署:

VMware虚拟机

1.集群部署:

看到HMaster为成功

 

2..启动Hbase:

hbase shell

三:Hbase创建表 

        首先先用List命令查看当前表:

list

 可以看到当前是没有表的

创建学生表代码:

create 'student','basic_info','office'

        用create命令创建表,参数之间用逗号隔开。第一个参数是表名,要用单引号括起来,第二个参数及之后的参数,指定列族,如果不修改列族默认属性,那么指定列族名即可,用单引号括起来。 最后用List命令查看表发现已经创建了student表

四.删除表

删除表前,先用disable命令

disable 'student'

然后使用drop命令删除掉

drop 'student'

五.插入数据:

前面删掉了student表,现在重建

create 'student',{NAME=>'basic_info', VERSIONS=>3},'office'

用put插入一条记录

get命令可以查看指定表的某个row key的所有列的单元格最新版本的值

put 'student','student-0001','basic_info:name','ligl1',1

get 'student','student-0001'

 

 

六.数据查询

1.清空表数据

truncate 'student'

2.插入几条数据

put 'student','student-0001','basic_info:name','ligl1'

put 'student','student-0001','basic_info:name','ligl2'

put 'student','student-0001','basic_info:name','ligl3'

put 'student','student-0001','basic_info:age','18'

3.scan查看学生表所有数据

scan 'student'

 

七.问题解决

不能直接使用create + 表命建表,需要在后面加入列族,特别注意! 

六.学习心得

        在学习Hadoop的过程中,我收获了很多宝贵的经验和知识。首先,我了解到Hadoop是一个开源的分布式计算框架,用于处理大规模数据集的存储和分析。通过学习Hadoop,我深入理解了大数据处理的原理和方法。

        其次,我学会了如何搭建和配置Hadoop集群。Hadoop集群由多台服务器组成,每台服务器承担不同的角色,例如NameNode、DataNode、ResourceManager等。通过学习Hadoop的架构和配置文件,我能够搭建一个稳定高效的Hadoop集群,并对其进行灵活调整和优化。

        另外,在使用Hadoop进行数据处理时,我学会了使用MapReduce编程模型。MapReduce是Hadoop提供的一种并行计算模型,通过将问题划分为Map阶段和Reduce阶段用分布式计算资源来加速数据处理过程。通过编写MapReduce程序,我可以灵活地处理各种复杂的数据分析任务。

        此外,在学习Hadoop过程中还接触到了其他相关技术,例如Hive、Pig、Spark等。这些技术都是基于Hadoop生态系统发展起来的工具或框架,可以进一步简化大数据处理流程,并提供更高级别的抽象和功能。

        总结起来,学习Hadoop让我深入了解了大数据处理的原理和方法,掌握了搭建和配置Hadoop集群的技能,以及使用MapReduce程模型进行数据处理的能力。这些收获将对职业发展产生重要的影响,并使我能够更好地应对日益增长的大数据挑战!

好文阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: