绿色机器学习系统综述:(一)引言与方法论

张开发
2026/4/15 20:22:33 15 分钟阅读

分享文章

绿色机器学习系统综述:(一)引言与方法论
摘要本文是对发表在《Artificial Intelligence Review》期刊上的论文A systematic review of Green Machine Learning: practices and challenges for sustainability的文献精读第一篇。该论文由Samara Santos、André L. C. Ottoni、Rita Borgo、Danton Ferreira和Erivelton Nepomuceno共同撰写于2026年发表。本文献精读系列将分为四篇本篇主要涵盖原文的引言部分和综述方法论部分为读者系统介绍绿色机器学习Green Machine Learning, GML的研究背景、动机、贡献以及系统综述的研究方法。GML作为一个新兴研究领域致力于在机器学习全生命周期中优化能源消耗、降低碳排放同时保持模型的预测性能这对于实现人工智能的可持续发展具有重要的理论意义和实践价值。1 引言1.1 研究背景与动机近年来机器学习Machine Learning, ML技术的快速发展使其在医疗健康、电信通信、智慧城市、结构工程、农业和推荐系统等众多领域取得了显著进展。然而现代机器学习架构日益增长的算力需求也带来了并行增长的环境成本特别是在能源消耗和相关碳排放方面。虽然学术界和工业界一直在庆祝预测能力和部署可扩展性方面的发展成就但大规模机器学习开发和使用所带来的生态后果才刚刚开始受到系统性关注。从历史角度来看机器学习研究一直优先考虑准确性、吞吐量和可扩展性往往忽视了这些计算过程的环境影响。这种发展模式导致了所谓的准确性-能源悖论Accuracy-Energy Paradox即在追求更高模型性能的同时不可避免地产生更大的环境成本。这一悖论揭示了可持续发展中的一个核心张力如何在保持技术进步的同时最小化对环境的负面影响。这种紧迫性因全球温室气体Greenhouse Gas, GHG排放的不均衡分布而进一步加剧。如图1所示各国对气候变化的贡献存在显著差异这些差异凸显了在机器学习系统部署中需要采用能够最小化排放的计算实践同时考虑区域碳强度和环境公平性。绿色机器学习Green Machine Learning, GML正是为应对这些关切而兴起的研究领域旨在减少机器学习系统在整个生命周期中的生态影响涵盖从数据获取和训练到推理、部署和系统维护的各个环节。GML结合了算法优化和能源感知的软件设计并日益关注碳感知设计和生命周期评估方法论。1.2 绿色机器学习的概念内涵绿色机器学习是一个多维度、跨学科的研究领域其核心目标是在整个机器学习流程中优化能源消耗同时保持计算性能。GML的概念内涵可以从以下几个层面进行理解算法层面GML强调设计能够以较低计算成本实现竞争性准确率的模型。这包括模型压缩技术如剪枝、量化、知识蒸馏、高效架构搜索、以及稀疏训练方法等。这些技术的共同特点是在不显著牺牲模型性能的前提下大幅降低计算复杂度和内存访问需求。系统层面GML关注硬件平台的能效优化包括使用低功耗处理器如ARM架构、专用加速器如FPGA、ASIC、以及神经形态计算设备。此外碳感知调度策略根据电网碳强度动态调整计算任务的执行时间也是系统层面优化的重要手段。方法论层面GML倡导建立标准化的能源测量和报告框架使研究人员能够透明地量化和比较不同方法的能源效率。这包括开发能源监控工具、建立基准数据集、以及制定可重复性评估标准。GML的重要性因其与国际可持续发展目标的一致性而得到强化特别是联合国可持续发展目标Sustainable Development Goals, SDGs包括气候行动SDG 13、经济适用的清洁能源SDG 7以及产业、创新和基础设施SDG 9。尽管人们对GML的兴趣日益增长但仍然迫切需要共享基准、一致的评估工具和生命周期感知框架来支持可重复、可扩展的GML研究。1.3 与现有研究的比较本综述与该领域其他六篇重要综述进行了系统比较包括Henderson等人的研究、Yokoyama等人的研究、Scells等人的研究、Liang等人的研究、Garcia-Martin等人的研究以及Tmamna等人的研究。比较采用了八个参数能源感知算法、能源测量指标、与SDGs和全球议程的整合、基准数据集分析、可重复性和监控工具、可重复性标准、机器学习应用领域覆盖范围、以及开放挑战和未来研究议程。表1 与现有研究的比较比较参数本综述IIIIIIIVVVI能源感知算法✓✓✓✓✓✓✓能源测量指标✓✓✓✓✓✓✓与SDGs和全球议程的整合✓------基准数据集分析✓-----✓可重复性和监控工具✓✓-✓-✓-可重复性标准✓------多样化ML应用领域覆盖✓✓✓✓✓✓✓开放挑战和未来研究议程✓✓✓✓✓✓✓注I (Henderson等人)、II (Yokoyama等人)、III (Scells等人)、IV (Liang等人)、V (Garcia-Martin等人)、VI (Tmamna等人)从表1可以看出本综述是唯一一篇同时涵盖所有八个比较参数的研究。特别值得注意的是本综述是唯一将讨论与联合国可持续发展目标特别是SDG 13气候行动和SDG 9产业创新基础设施相结合的研究。此外本综述通过系统组织基准数据集和引入明确的可重复性标准填补了现有文献的重要空白。1.4 本综述的主要贡献本综述的动机源于机器学习应用的扩展以及相应的能源消耗和环境影响的升级。尽管对GML的兴趣日益增长但现有文献缺乏一个统一的综合框架来整合算法、硬件和生命周期层面的可持续性方法。大多数先前的综述要么是特定领域的要么局限于特定的机器学习任务。因此需要一篇新的文献综述来连接这些视角为未来的研究和实践提供支持。本综述的主要贡献包括以下几个方面标准化指标和可重复方法论强调标准化指标和可重复方法论的重要性用于评估机器学习流程中的能源效率和环境影哏。这包括建立统一的能源测量协议、碳排放报告标准以及跨研究比较的基准框架。能源感知算法现状图谱系统梳理了能源感知机器学习算法的最新进展涵盖深度强化学习、神经架构搜索、联邦学习优化、模型压缩技术等多个技术方向为研究人员提供了全面的技术参考。工具和框架综述回顾了用于监控和报告机器学习工作流中能源使用的工具、软件库和碳追踪框架包括Carbontracker、CodeCarbon、Green Algorithms等主流工具的功能特点、适用场景和局限性。基准数据集系统组织系统组织了GML研究中使用的基准数据集涵盖图像、音频、表格和多变量数据类型便于研究人员设计和执行GML实验和仿真。1.5 论文组织结构本综述的结构组织为五个主要部分。第2节概述方法论包括关键词策略、纳入和排除标准以及可重复性和透明性实践。第3节概述GML的基本维度包括其概念基础、问题域、算法策略和与可持续性的一致性。第4节提出讨论识别新兴趋势、当前局限性、实践意义、GML文献中的方法论挑战并概述未来研究方向。最后第5节总结见解并提出GML研究和发展的战略路径。2 综述方法论2.1 方法论概述本节概述了本GML评估中应用的方法论。该方法论确保本综述具有透明性和可重复性。该过程始于识别指导我们调查的关键词并审查纳入和排除标准。然后讨论用于文献搜索的信息来源和研究选择的策略方法。文章的选择和提取由两位作者进行从而确保整个过程的方法论一致性。此外我们概述了提取和管理数据的程序解释了用于组织和综合大量收集数据的方法。然后讨论为确保研究发现可重复性而采取的措施使其他研究人员能够验证或复制我们的结果。筛选和选择过程的完整概述在PRISMA流程图中呈现图2。2.2 关键词策略与搜索本节概述了塑造本综述中包含的GML文献范围的关键词策略和搜索程序。初始阶段始于使用广泛关键词Green Machine Learning在多个数字图书馆进行探索性查询以获得研究景观的概览和最常用的关键词。从结果语料库中我们选择了被引用最多和最具影响力的论文来建立该领域的代表性基础。然后我们检查了这些论文使用的关键词识别重复出现的术语、概念变体和主题集群。只有与本研究所范围一致的关键词被保留。这个过程促进了构建与GML维度相关的词汇并指导了最终搜索字符串的构建。表2 文献搜索中使用的关键词绿色关键词介词AI关键词Carbon footprintinDeep LearningCleanofMachine LearningEco-friendlyforReinforcement LearningEnergy-awareSupervised learningEnergy consumptionEnergy-efficientEnvironmentally friendlyGreenSustainable图3呈现了从本综述所选参考文献的关键词字段生成的词云。每个术语的大小反映了其在论文中出现的频率。词云可视化直观展示了GML研究领域的核心主题分布其中energy efficiency、“carbon footprint”、deep learning等术语占据突出位置反映了当前研究的主要关注点。最终的搜索字符串通过迭代优化过程开发采用试错方法来平衡精确度和召回率。布尔运算符用于整合多个组件同时最大化跨数据库的覆盖范围。这些关键词被组合用于在以下数据库中搜索相关论文IEEE Xplore、ACM Digital Library、Scopus和Web of Science。采用这种方法是为了最小化偏差、确保来源多样化并降低发表偏差的风险。所有分析的研究均来自数据库搜索结果以保持可重复性。图4总结了所选研究按出版商的分布。语料库涵盖机器学习和计算机科学的主要出版渠道包括IEEE、ACM、Springer、Elsevier和arXiv反映了GML研究的跨学科和快速发展特性。图5展示了本综述所包含出版物的年度分布。从2019年开始观察到的上升趋势表明对GML的研究兴趣日益增长2023年后有明显增加。这一趋势为该领域的相关性提供了定量支持并强调了需要结构化综合方法、工具和基准。2.3 纳入与排除标准系统综述需要严格的纳入和排除标准以确保只纳入提供GML见解的研究。以下要求专门设计用于聚焦于解决机器学习中能源效率问题的研究与综述目标保持一致。能源效率相关性只有明确解决机器学习工作流中能源效率或能源消耗的研究才被纳入。未计算或报告能源使用或缺乏任何能源测量证据的文章被排除。观点论文排除被归类为观点论文的文章不呈现实证或方法论贡献被排除在综述之外。在本综述中实证或方法论贡献被定义为引入、测试或定量评估明确设计用于解决机器学习工作流中能源效率的新算法、模型、工具或指标的研究。绿色计算区分主要关注绿色计算但没有明确提及机器学习的研究被排除。这一标准确保综述聚焦于机器学习特定的能源效率问题而非更广泛的绿色计算领域。同行评审要求只纳入同行评审的期刊文章和会议论文以确保学术严谨性和方法论可靠性。预印本和未经同行评审的技术报告被排除在外。语言限制只纳入以英文发表的文章。出版日期搜索覆盖截至2025年4月14日的所有可用出版物不设时间下限以捕捉GML研究的整个历史发展。未应用地理、机构或出版商过滤器。这些标准确保综述专门聚焦于贡献实证发现或方法论创新的研究提高了文献选择过程的透明度和可重复性。2.4 PRISMA流程与筛选过程PRISMAPreferred Reporting Items for Systematic Reviews and Meta-Analyses流程图是系统综述中用于透明展示文献筛选过程的标准工具。本综述严格遵循PRISMA指南确保每个筛选阶段的决策都有据可查。如图2所示文献筛选过程包括以下关键阶段识别阶段从四个数据库Web of Science、IEEE Xplore、ACM Digital Library、Scopus共识别出196条记录。此外通过引文搜索识别出6条额外记录。筛选阶段在移除77条重复记录后对119条记录进行筛选。其中12条记录因不符合基本标准被排除。资格评估阶段107篇报告被寻求检索其中5篇无法获取。对102篇报告进行资格评估后根据以下原因排除部分研究能源效率相关性不足21篇、观点论文1篇、仅关注绿色计算12篇、非同行评审6篇、语言不符1篇。纳入阶段最终61项研究被纳入综述。此外通过引文搜索获得的5篇报告也被纳入总计66篇文献构成最终分析语料库。2.5 可重复性与透明性本综述优先考虑可重复性反映透明性和可靠性在科学研究中的重要性综述过程的每个阶段都有文档记录。为确保方法论完整性、可重复性和选择偏差的缓解搜索相关产物在与此研究相关的开放科学框架Open Science Framework, OSF存储库中公开可用。该存储库包含使用的每个数据库的书目数据、PRISMA 2020图像、搜索查询和用于生成定性图表的Python代码。文档记录始于初步数据库搜索和用于数据分析的方法论。数据管理使用Zotero软件系统进行用于提取、管理和综合数据。使用Notion创建笔记。这些工具有助于数据的结构化组织和编码。数据提取过程遵循标准化协议记录每篇纳入研究的以下信息作者、出版年份、研究类型、机器学习任务、使用的算法、能源测量方法、主要发现和局限性。这种系统化的数据管理确保了后续分析的完整性和可追溯性。2.6 方法论的理论基础系统综述方法论本身具有深厚的理论基础其核心思想源于循证实践Evidence-Based Practice运动。在医学领域率先发展的系统综述方法近年来已广泛应用于计算机科学和人工智能研究领域。可重复性原则科学研究的可重复性是确保研究发现可靠性的基石。在机器学习研究中由于硬件配置、软件版本、随机种子等因素的差异实验结果的可重复性面临特殊挑战。本综述通过详细记录搜索策略、筛选标准和数据提取过程为其他研究人员复制或扩展本综述提供了完整的方法论蓝图。透明性原则透明性要求研究过程的每个决策都有明确记录和正当理由。本综述通过公开搜索产物、使用标准化报告框架PRISMA和明确说明纳入排除标准实现了高度的透明性。偏差控制系统综述面临多种潜在偏差包括发表偏差倾向于发表阳性结果、选择偏差研究选择过程中的主观判断和语言偏差仅纳入特定语言文献。本综述通过多数据库搜索、明确的纳入排除标准和多作者独立筛选等策略有效控制了这些偏差。2.7 文献计量分析方法除传统的系统综述方法外本综述还采用了文献计量分析技术来揭示GML研究领域的结构和趋势。关键词共现分析通过分析关键词在同一论文中的共现模式可以识别研究主题之间的关联关系。高频共现的关键词组合往往代表该领域的核心研究主题。例如energy efficiency与deep learning的高频共现反映了深度学习能效优化是当前研究的重点方向。出版趋势分析年度出版物数量的变化趋势可以反映领域的发展阶段。图5显示的快速增长趋势表明GML正处于快速发展期研究兴趣持续升温。出版商分布分析不同出版商的分布反映了研究的学科归属和传播渠道。IEEE、ACM等工程类出版商占主导地位表明GML研究具有较强的工程技术属性而Springer、Elsevier等综合性出版商的存在则反映了该领域的跨学科特性。前述方法论选择确保了后续章节综合的发现建立在结构化、透明和可重复的基础之上。通过严格遵循系统综述的最佳实践本综述为GML领域提供了可靠的知识综合和研究展望。小结本篇文献精读系统介绍了绿色机器学习系统综述的研究背景、动机、贡献以及方法论基础。GML作为一个新兴且重要的研究领域致力于解决机器学习技术发展带来的环境可持续性问题。通过严格的系统综述方法论包括明确的关键词策略、纳入排除标准和PRISMA流程本综述为GML领域提供了全面、透明、可重复的知识综合。后续篇章将深入探讨GML的核心维度、算法策略、测量工具和未来发展方向。参考文献来源Santos S, Ottoni ALC, Borgo R, Ferreira D, Nepomuceno E. A systematic review of Green Machine Learning: practices and challenges for sustainability. Artificial Intelligence Review (2026) 59:132. https://doi.org/10.1007/s10462-026-11515-8

更多文章