Deca学习之thesis阅读

Deca学习之thesis阅读

今天花了一上午时间自习阅读了大师兄关于Deca的那篇论文,以此作为setout。我发现阅读论文时同时列出论文的组织结构可以帮助阅读,让思路更清晰。因此,我整理了下,同时翻译(如有不合适的地方,请谅解并联系我)了下其中一部分用以概括整篇论文和Deca,便于以后重温和研习。

Thesis Summaries

      在内存中缓存中间数据和在shuffle buffers中重组数据已经被证实在减少分布式大数据处理系统例如Spark和Flink中的重新计算和I/O花销方面是非常有效的,但是,同时也被指出这些技术将会将会在heap中创建大量的长久存在的数据对象以致于快速占满垃圾回收器(GC),尤其是在处理一个大数据集时,因此会限制系统的扩展性。为了解决这个问题,我们(大师兄他们)提出了一个基于生命周期的内存管理框架,通过自动分析用户定义的函数和数据类型,然后分配和释放内存空间以减小GC的花销。特别地,我们实现了Deca,一个在Spark上实现了我们想法的具体项目,可以透明地分解和组合有着相似生命周期的对象为byte arrays并且在它们的生命周期截止时一起时放它们。不仅利用了人造数据集也利用了真实数据集的广泛实验表明,Deca能够 1)减少GC时间高达99.9%,2)根据执行时间,在无数据spillings时可以达到22.7X倍的速度,在有数据spillings时可以达到41.6X倍的速度 3)少占用达46.6%的内存。

这篇论文的主要贡献如下:

  • 为分布式数据处理系统提出了基于生命周期的内存管理方案,并在Spark实现了能够减小GC花销和消除内存膨胀问题的Deca原型

  • 设计了转换方法,可以通过消除所有指针值改变内存中每个数据单元对象图的表示。原始数据类型的原生数据在对象图中可以以byte序列的形式压缩存储在内存中

  • 提出技术将有着相同生命周期的数据序列组合成byte arrays,因此简化了空间回收。我们的系统,在UDT内存使用权限分析的基础上,可以自动地验证内存的数据存取的安全性。

  • 实现了在Spark上的Deca optimizer的原型,并且使用人造数据和真实数据在几个Spark程序上进行了广泛评估测试。通过与现有方法进行比较,测试结果证实了本方法的优越性。

Thesis Structure

1. Abstract

2. Overview

  • Motivating Example

  • Life-time based Memory Management

3. UDT CLASSIFICATION ANALYSIS

  • Data-size and Size-type of Objects

  • Local Classification Analysis

  • Global Classification Analysis

  • Phased Refinement

4. LIFETIME-BASED MEMORY MANAGE-MENT

  • The Spark Programming Framework

  • Data Containers

    • UDF variables

    • Cache blocks

    • Shuffle buffers

  • Memory Management

    • Fully decomposable

    • Partially decomposable

    • UDF variables

    • Cache blocks

    • Shuffle buffers

    • Memory Pages

    • Primary Container

    • Secondary Container

5. IMPLEMENTATION

6. EVALUATION

  • Configuration

  • Impact of Shuffling

  • Impact of Caching

  • Impact of Mixed Shuffling and Caching

  • GC improvement

  • Comparing with Spark SQL

7. RELATED WORK

  • GC tuning

  • GC algorithms

  • Object serialization

  • Region-based memory management (RBMM)

  • Domain specific systems

8. CONCLUSION

2 thoughts on “Deca学习之thesis阅读

  1. xin.zhao

    这篇 Paper 在哪里看到的说?

    1. dracula

      实验室一个学长的,当时老师发给我的

Leave a Reply

电子邮件地址不会被公开。 必填项已用*标注