小程序开发

网页视频与下载保存

  返回  

大数据(一)大数据平台和应用简述

2021/8/20 12:56:44 浏览:

文章目录

  • 说明
  • 分享
  • 什么是大数据?
  • 大数据平台搭建
  • 大数据应用
  • 总结

2021-08-20

说明

本博客每周五更新一次。

本文主介绍大数据是什么,现有软件架构和主流框架有哪些,具体应用是什么,还有个人的一些拙见。

所有内容理论为主,不牵涉太多专业知识,目标是简单易懂。

分享

  • 大数据博客列表

什么是大数据?

我常问自己,可一直没有一个很好的答案,直到一次电视综艺节目中,一个企业老板问询大数据求职者时,他的回答让我豁然开朗。

大概意思:大数据重点是大,T、P级数据超过了普通单台计算机的存储和计算上限,大数据就是存储和计算海量数据的技术。

意思上看这话没毛病,贴合普通人的思维方式,看到的人很快就知道,大数据就是处理海量到无法想象数据的技术。

技术角度有点单薄,大数据技术几十个软件系统,不是简单一句话就能概括,当然日常只会使用其中一部分。

大数据平台搭建

绝大多数大数据平台基于Apache开源基金会发布的hadoop软件为基础搭建,当前市场上有两个版本,Apache 开源版和Apache 二次开发版,市场上流行平台搭建方式如下。

  • 原生apache版本,免费开源,资料丰富,相关功能组件需要版本适配和优化,没有统一平台化管理软件,技术难度高。

  • cdp

    • cloudera manager(CDH)和hortonworks(HDP)两家大数据平台公司2019年合并为一家公司,两家公司原有CDH和HDP产品是在apache软件基础上开发,有收费和免费版本,默认并适配常用组件,提供统一平台化管理软件,安装通过web页面操作,简单易用。合并后新产品收费。
  • MapR

    • 收费软件,与cdp类似,收费软件。
  • DataSphere Studio(简称DSS)

    • 国内微众银行开发并开源的大数据平台,自研很多中间件。

大数据应用

大数据技术普遍应用在传统数据计算和AI网络训练。

传统计算主要存在通信和大型互联网公司,计算分析实时和历史数据,实现用户分析和追踪,日常的广告推送和快递提醒,都是大数据的产物,简单的说,所有需要海量数据计算并汇聚结果的地方,都有大数据的参与。

近年AI技术蓬勃发展,离不开大数据这片土壤,深度器学习效果,依赖于神经网络结构设计和海量数据训练模型,理论上,神经网络结构完美时,数据量越大场景越多,网络能得到充分优化,计算效果越好。

总结

一次偶然机会进入大数据行业,凭着过去自学的零星知识,跌跌撞撞学习成长,几年后,终于有了一些自己的见解,以上内容仅做分享。

具体技术细节详见各组件专题博客。

联系我们

如果您对我们的服务有兴趣,请及时和我们联系!

服务热线:18288888888
座机:18288888888
传真:
邮箱:888888@qq.com
地址:郑州市文化路红专路93号