研究进展

当前位置:首页 / 研究进展

范一诺/孙大为:面向波动数据流的细粒度任务调度研究【FGCS,2025】

2025-11-04     发布:[人工智能学院]谢卓均    点击:0

在分布式流计算场景中,多源数据流呈现出了鲜明的波动性。当前的任务部署策略在数据流适应性、资源的高效性等方面,主要面临三个方面的挑战:(1)如何优化调度以适应波动的数据流?(2)如何在确保系统性能最优的同时实现资源成本最小化?(3)如何优化计算节点内部的任务部署以最小化通信开销?

针对上述挑战,我院孙大为研究团队提出了一种面向波动数据流的细粒度任务调度策略Ra-Stream。该策略实现了对资源的动态调整以适应波动数据流,通过细粒度的任务部署以最小化通信开销,保障低延迟的系统性能。该研究的主要贡献如下:

(1)     系统建模与问题描述:通过构建流应用程序模型、通信模型与资源模型,建立了逻辑拓扑和任务拓扑之间的联系,并对任务间通信量与计算资源消耗进行定量分析。在此基础上,形式化定义了子图划分、资源伸缩与任务调度三大关键问题,系统阐述了任务-子图、子图-节点之间的两级映射关系,以及任务在计算节点内部的细粒度部署策略对系统性能的影响机制。


(a) 逻辑拓扑


(b) 任务拓扑

1 流应用程序模型

(2)     子图划分与资源伸缩:利用通信密集且均衡的子图划分方法,在最小化流应用程序的通信权重的同时有效避免子图间规模失衡。通过资源自动伸缩方法,并结合欠载-过载双阈值机制微观调整子图划分方案,在高度适配波动数据流同时实现资源负载均衡和高资源能效。

(a) 不平衡的子图划分


(a) 均衡的子图划分

2 流应用程序子图划分示例

3 资源伸缩示例

(3)     细粒度的任务调度:在子图级(粗粒度)调度基础上,通过进程级(细粒度)任务干预来优化部署方案。通过识别并协同定位通信密集型任务对,优先将高通信负载任务对的跨进程的通信转化为进程内通信。从而显著降低通信开销,实现系统整体延迟的优化与处理效率的提升。

(4)     实验评估与性能分析:选取代表性方法作为基线技术与之对比,在波动数据流场景中评估系统延迟、资源利用等性能指标,实验结果验证了Ra-Stream的有效性以及可推广性。 

1 稳定数据流下WordCount(左)和DEBS 2024(右)系统延迟

2 增长数据流下WordCount(左)和DEBS 2024(右)系统延迟实验结果

3 波动数据流下WordCount(左)和DEBS 2024(右)计算节点使用数量 

4 波动数据流下WordCount(左)和DEBS 2024(右)资源利用率

该研究得到了国家自然科学基金(62372419)等项目资助。论文信息:Yinuo Fan, Dawei Sun, Minghui Wu, Shang Gao, Rajkumar Buyya. A fine-grained task scheduling strategy for resource auto-scaling over fluctuating data streams. Future Generation Computer Systems, 175, 2025, 108119.

 

全文链接:https://doi.org/10.1016/j.future.2025.108119