大数据存储与计算技术
大数据基本概念
- 什么是大数据 - 是指规模在P级(10^15)-E级(10^18)-Z级(10^21)的极大规模数据处理或或 Extreme-Scale Computing(极限级计算);
- 从IT技术的角度讲,特指传统存储、数据库、并行计算、数据挖掘等技术无法有效处理的极大规模数据计算;
- 如果数据量足够大且完备,凭借强大的计算能力,依靠机器做出的决策完全可能超过人的判断
分析数据特征,确定使用该数据的目的(需求分析)
传统存储技术
信息存储基本概念
- 信息是从数据中派生出来的知识
- 数据被转换为更便捷的形式 − 数字数据
- 数据中心是包含存储、计算、网络和其他 IT 资源以提供集中式数据处理功能的设备,核心元素如下
- 应用程序
- 数据库管理系统 (DBMS)
- 主机或计算
- 网络
- 存储
- 数据中心需要完成监视、报告、资源调配
- 虚拟化和云计算改变了数据中心基础架构资源的调配和管理方式
数据中心环境
- 应用程序
- 为计算操作提供逻辑的软件程序
- 业务应用程序 – 电子邮件、企业资源规划 (ERP)、决策支持系统 (DSS)
- 管理应用程序 – 资源管理、性能调整、虚拟化
- 数据保护应用程序 – 备份、复制
- 安全应用程序 – 身份验证、反病毒
- 应用程序的关键 I/O 特性
- 读取密集型与写入密集型
- 按序与随机
- I/O 大小
- 虚拟化
- DBMS
- 主机
- 连接协议
- 存储选项
根据数据传输速率的需要,选择合适的连接方式和存储选项(硬件)
数据保护RAID
结合 RAID 级别的成本、性能和保护能力和需求选择合适的 RAID
智能存储系统
- 它是功能丰富的 RAID 阵列,提供高度优化的 I/O 处理功能。
- 缓存技术
- 存储资源调配
- LUN 扩展和遮蔽
- 存储阵列
为项目设计智能存储系统
网络存储架构: NAS, DAS, SAN
SAN
SAN 是服务器和共享存储设备的高速、专用网络,支持在数据块级别跨多台服务器共享存储资源。常见的 SAN 部署包括:
- 光纤通道 (FC) SAN:使用 FC 协议进行通信
- IP SAN:使用基于 IP 的协议进行通信
FC SAN
- FC SAN 的组件
- 节点(服务器和存储)端口
- 缆线
- 连接器
- 互连设备,如 FC 交换机和集线器
- SAN 管理软件
- FC 互联选项
- 光纤通道 (FC) 体系结构、拓扑和分区
- FC SAN 虚拟化
IP SAN
- 可以利用现有网络基础架构,与新的 FC SAN 硬件和软件投资相比降低了成本
- 组件、拓扑、连接……
以太网光纤通道 (FCoE)
- FCoE 是通过以太网(聚合增强以太网)传输 FC 数据的协议
- 支持将 FC SAN 通信和以太网通信整合到一个公用以太网基础架构
- 组件、拓扑……
NAS
- NAS 是一个基于 IP 的专用高性能文件共享和存储设备。
- 组件和协议
- 部署和使用情形
基于对象的存储
- 基于对象的存储是一种在单一地址空间上根据文件数据的内容和属性(而不是名称和位置)以对象的形式存储这些数据的方法
- OSD 系统通常包含三个关键组件:
- OSD 节点
- 内部网络
- 存储
- 利用 OSD 结点存储/检索对象的过程
- 基于云的存储/内容寻址存储 (CAS)
- 具体例子:医疗保健解决方案/金融解决方案
- 统一存储
用哪种存储解决方案?具体怎么配置,选择什么组件
业务连续性与存储可靠性
- 业务连续性是一个流程,用于应对、响应和恢复会对企业运营产生负面影响的系统中断情形。
- 信息可用性指的是 IT 基础架构在指定的运行时间内按照企业预期工作的能力
- 衡量信息可用性 MTBF/MTTR
- BC 技术解决方案
- 备份和归档
- 本地复制和远程复制
分析业务影响,制定 BC 的解决方案,确定备份归档方法和恢复流程,以及本地复制和远程复制方法
云存储:云计算与大数据存储
- 云计算:一种支持随时随地对可配置计算资源(如服务器、存储、网络、应用程序和服务)的共享池进行方便的按需网络访问的模型,只需进行最少的管理工作或服务提供商交互,即可快速调配和发布这些资源。
- 部署模式
- 结构框架
- 选择云服务提供商
是否选择云计算,选择哪个供应商?怎么部署
- 存储需求分析
- 存储媒质的选择
- 网络存储架构设计
- RAID级别的选择及解释
-
备份策略的设计
-
答辩
- 报告
计算机科学思想史
- 点名 - 10%
- 课堂报告 - 40%
- 课程论文 - 50%