数据质量管理:数据可靠性与数据质量问题解决之道在线阅读
会员

数据质量管理:数据可靠性与数据质量问题解决之道

(美)巴尔·摩西等
开会员,本书免费读 >

计算机网络数据库17万字

更新时间:2024-08-19 16:21:20 最新章节:封底

立即阅读
加书架
下载
听书

书籍简介

本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。
品牌:机械工业出版社
译者:李晗玥等
上架时间:2024-05-01 00:00:00
出版社:机械工业出版社
本书数字版权由机械工业出版社提供,并由其授权上海阅文信息技术有限公司制作发行

最新章节

(美)巴尔·摩西等
主页

同类热门书

最新上架

  • 会员
    本书本书基于业务问题,就如何搭建分析框架,厘清分析思路,按照标准分析步骤对数据进行怡当的预处理,选择合适的分析方法和分析模型,使用恰当的分析工具对数据进行分析,以及对分析结果进行可视化和符合业务要求的解读等内容展开讲解,帮助业务专家做出合适的业务判断,制定准确的业务策略。
    傅一行计算机13万字
  • 会员
    本书分为6篇,共14章。从OLAP核心概念出发,以Presto为例,从整体执行流程到不同SQL的执行原理,力图把OLAP查询的核心流程以一种系统化的方式来给读者讲清楚。第一篇背景知识(第1章和第2章)介绍OLAP的基础知识和Presto相关的背景知识,并给出了后续贯穿全书的SQL代码;第二篇核心原理(第3章和第4章)非常详细地串讲了SQL执行流程,介绍了执行计划的生成和优化;第三篇经典SQL(第5
    高英举 许一腾计算机19.7万字
  • 会员
    本书内容分3个部分共12章。第1-4章主要介绍什么是数据分析,以及Python的编程环境和基础语法知识。第5-9章主要介绍数据处理和分析的各种方法。第10-12章介绍了如何结合Python与Excel在实际工作中进行数据处理与分析操作。
    袁昕编著计算机8.5万字
  • 会员
    本书分为4篇,第1篇是基础入门篇,主要介绍数据分析与挖掘的基本概念及Python语言的数据分析基础;第2篇是数据分析篇,主要介绍常用的数据分析方法;第3篇是数据挖掘篇,主要介绍常用的数据挖掘方法;第4篇是实战应用篇,介绍两个完整的数据分析与挖掘案例。
    熊熙 张雪莲编著计算机10.9万字
  • 会员
    本书系统介绍了使用Python进行数据分析需要掌握的各项知识,涵盖了Python基础知识、网络爬虫技术、正则表达式、BeautifulSoup和JSON、词语切分、自然语言处理、使用NumPy与Pandas处理数据、数据可视化技术、MySQL、机器学习、朴素贝叶斯模型、支持向量机、随机森林、深度学习以及量化投资。本书通过结合数据分析技术的理论知识与Python的实战应用,帮助读者更好地运用Pyth
    王俊主编计算机12.3万字
  • 会员
    本书以Kettle实现ETL流程为目标,将ETL知识点与任务相结合,配套真实案例,深入浅出地介绍了ETL数据整合与处理的相关内容。全书共8章,第1章介绍了ETL概念和ETL工具,让读者在了解ETL相关的概念后,立刻上手ETL工具Kettle;第2~6章介绍了Kettle工具转换相关的组件,包括源数据获取、记录处理、字段处理、高级转换、迁移和装载等内容,内容与ETL流程匹配,能帮助读者快速掌握ETL
    王雪松 张良均主编计算机8.1万字
  • 会员
    本书围绕新工科背景下大数据人才培养需求编写,既涵盖了大数据的基础知识,又介绍了大数据分析的相关工具与案例。全书共9章,介绍了大数据采集与预处理、大数据存储与管理、大数据处理与分析、大数据可视化处理流程;重点分析了科大讯飞大数据平台在政务、交通、金融和用户画像等实际场景中的应用,还介绍了大数据实验环境的详细搭建步骤,方便读者快速理解和体验大数据应用技术;最后介绍了大数据治理中法律政策、行业标准建设的
    于俊伟 母亚双 闫秋玲编著计算机14.5万字
  • 会员
    本书将从内部组件、外部应用和数据结构3个方面为读者介绍Redis常见、经典的用法与实例,并且所有实例均附有完整的Python代码,方便读者学习和参考。全书分3个部分:第一部分讲内部组件,介绍的实例通常用于系统内部,如缓存、锁、计数器、迭代器、速率限制器等,这些都是很多系统中不可或缺的部分;第二部分讲外部应用,介绍的实例都是一些日常常见的、用户可以直接接触到的应用,如直播弹幕、社交关系、排行榜、分页
    黄健宏计算机7.4万字
  • 会员
    《网络科学与网络大数据结构挖掘》作为网络科学的工具性图书共分两大模块:第一模块是基础理论,包括网络基本概念、网络拓扑性质、复杂网络社团挖掘等内容,旨在让读者熟悉一些基本的建模方法和分析技巧。第二模块为应用模块,包括复杂网络在几个代表性领域中的应用研究分析及案例剖析等。全书没有过多地数学和物理推导,而是更为关注网络科学的思维习惯和研究方式,兼具理论性、资料性和实践性。可用于各学科领域的教学及研究人员
    刘伟计算机0字

同类书籍最近更新

  • 会员
    本书将从内部组件、外部应用和数据结构3个方面为读者介绍Redis常见、经典的用法与实例,并且所有实例均附有完整的Python代码,方便读者学习和参考。全书分3个部分:第一部分讲内部组件,介绍的实例通常用于系统内部,如缓存、锁、计数器、迭代器、速率限制器等,这些都是很多系统中不可或缺的部分;第二部分讲外部应用,介绍的实例都是一些日常常见的、用户可以直接接触到的应用,如直播弹幕、社交关系、排行榜、分页
    黄健宏数据库7.4万字