您的当前位置:胶南市奉铛财经直播室 > 北方经济 > 正文

深度学习模型并非“越大越好”,它也许引首气候变化题目

  • 作者:admin    最后更新:2020-06-25 11:16    点击数:
  • 本月早些时候,OpenAI宣布已经建成史上最大的人造智能模型,该模型周围惊人,被命名为“GPT-3”,是一项令人印象深切的技术收获。然而,它却凸显了人造智能周围的一个隐患。

    当代人造智能模型必要消耗大量能量,并且这些能量需求正以惊人的速度添长。在深度学习时代,产生一流的人造智能模型所需的计算资源,平均每3.4个月翻一番;这意味着,能量需求在2012年至2018年之间增补了300,000倍。而“GPT-3”只是这栽指数级添长轨迹上的一个最新节点。

    深度学习模型真的越大越好吗?

    在今天,人造智能的碳足迹是有意义的,而倘若这个走业趋势不息下去,情况将很快变得糟糕得众。除非吾们情愿重新评估并改革当今的人造智能钻研倾向,否则,人造智能周围也许会成为吾们在异日几年中答对气候变化的对手。

    GPT-3很好地表明了这栽表象。该模型包含众达1750亿个参数。如何理解这个数字呢?可以也许参考一下它的前身模型GPT-2,它在去年发布时被认为是最先辈的,GPT-2只有15亿个参数。去年GPT-2的训练消耗了数十千兆次/天,这个计算输入的数目已经专门壮大了,而GPT-3必要的数目也许是GPT-2的好几千倍。

    依附越来越大的模型,来推动人造智能技术提高,这栽做法的题目在于,构建和安放这些模型必要大量的能源消耗,并所以产生碳排放。

    在2019年一项被普及商议的钻研《Energy and Policy Considerations for Deep Learning in NLP(NLP深度学习的能源和政策考虑)》中,由Emma Strubell领导的一组钻研人员,评估了训练单个深度学习模型的能量消耗,这个数值也许高达626,155磅的二氧化碳排放量——约相等于五辆汽车在整个生命周期内的碳足迹。相比之下,一个清淡的美国人每年产生的二氧化碳排放量大约是36,156磅。

    可以一定的是,这项评估针对的是能耗稀奇高的模型。现在,训练一个清淡周围的机器学习模型产生的碳排放量答该远远幼于626,155磅。

    同时值得仔细的是,在进走这项分析时,GPT-2是那时可供钻研的、最大的模型,钻研人员将其视为模型大幼的上限。可仅仅一年之后,GPT-2看上去很袖珍了,比它的后继产品幼了一百倍。

    那么,机器学习模型到底为什么会必要消耗这么众的能量呢?

    第一个因为是,用于训练这些模型的数据集的大幼在一连地膨大。在2018年,BERT模型在行使了30亿个单词的数据集进走训练之后,实现了同类中最好的NLP(天然说话处理)性能。XLNet行使了320亿个单词的数据集进走训练,并且在性能上超过了BERT。不久之后,GPT-2批准了400亿个单词的数据集的训练。而让之前所有此类做事都相形见绌的是,GPT-3将行使一个包含5,000亿个单词的添权数据集进走训练。

    在训练过程中,神经网络会针对输入的每条数据,实走一整套冗长的数学运算(既包括正向传播,也包括逆向传播),并且以复杂的手段更新其参数。所以,更大的数据集,就会转化为飞速添长的计算和能源需求。

    导致人造智能壮大能量消耗的另一个因为是,开发模型所必要进走的大量实验和调校。今天的机器学习,在很大水平上照样是逆复试错的演习。从业人员清淡会在训练过程中针对给定模型构建数百个分歧的版本,在确定最好设计之前,他们会尝试分歧的神经系统架议和超参数。

    上述挑到的那篇2019年钻研论文中,描述了一个案例钻研。钻研人员们选择了一个平均周围的模型——比GPT-3之类的博人眼球的庞大无比要幼得众,并且不光检查了训练最后版本所需的能量,还测量了为了生产这个最后版本进走的各栽测试的总体能量消耗。

    在六个月的过程之中,他们培训了4,789个分歧版本的模型,统统必要消耗9,998天的GPU时间(超过27年)。考虑到所有这些因素,这些钻研人员推想,构建该模型总共要产生78,000磅的二氧化碳排放量,超过一个清淡美国成年人两年的碳排放量。

    到此为止,这次商议还仅仅涉及了机器学习模型的训练环节。但是训练只是一个模型生命周期的首点。模型训练完善之后,就会在实际世界中得到行使。

    安放人造智能模型,让它们在实际环境中采取走动——这个过程被称为推理,该过程的能耗比训练环节更高。实际上,英伟达公司(Nvidia)推想,神经网络80%至90%的能量消耗出现在推理环节,而不是训练环节。

    例如,想想自动驾驶汽车中的人造智能。最先必须要对神经网络进走培训,让它学会驾驶。在训练完善并安放到自动驾驶汽车上之后,模型会一连地进走推理,才能在环境中走驶,只要汽车还在行使之中,北方经济这个过程就会日复一日地赓续下去。

    千真万确,模型具有的参数越众,对这栽赓续一连的推理的能量需求就越高。

    能源行使和碳排放

    既然挑到了人造智能能量消耗和碳排放之间的有关。那么思考这栽有关的最好手段是什么呢?

    EPA数据表现,在美国,一千瓦时的能耗平均会产生0.954磅的二氧化碳排放量。这个平均值,逆答了美国能源网平分歧能量来源(例如可新生能源、核能、天然气、煤炭)的相对比例和碳足迹的变化。

    上述挑到的那篇2019年钻研分析,采用了全美国的平均值,以便按照各栽人造智能模型的能量需求来计算碳排放量。这是一个比较相符理的倘若。例如,亚马逊网络服务公司(Amazon Web Services)的电力来源组相符,大致逆答了美国集体的电力来源,而且绝大无数的人造智能模型都是在云端进走训练的。

    当然,倘若行使主要由可新生能源产生的电力训练人造智能模型,那么碳足迹也会响答地降矮。例如,与AWS相比,谷歌云平台(Google Cloud Platform)行使的电力组织在可新生能源方面的比重更大。(上述那篇2019年钻研论文表现,两家公司的这一比例别离为56%和17%。)

    或者,举另一个例子,倘若在宁靖洋西北部的硬件上训练一个模型,所产生的碳排放量会矮于其异国家,这是由于这一地区拥有雄厚的干清水源。而在这方面,每一家云服务挑供商都在鼓吹本身在碳赔偿方面的投资。

    总体而言,行使美国总体能源平均值,答该可以大致实在地估算出人造智能模型的碳足迹。

    效好递减

    经历一连变大的模型,探索人造智能提高的做法,凸显了模型周围和模型性能之间的有关。下列数据表现得很明了:模型周围的增补,最后会导致性能回报的急剧消极。

    比如,ResNet是2015年发布的一个著名计算机视觉模型。该模型的改进版本称为ResNeXt,于2017年问世。与ResNet相比,ResNeXt所需的计算资源要众35%(以总浮点运算来衡量),实在度却只挑高了0.5%。

    艾伦人造智能钻研所(Allen AI Institute)2019年的一篇论文挑供了详细的数据,记录了分歧义务、模型和人造智能子周围中的效好递减题目。与GPT-2相比,最新发布的大型模型GPT-3展现了清晰的效好递减迹象。

    倘若人造智能社区照样不息沿着现在的钻研倾向进展,就会一连的构建越来越大的模型,消耗越来越众的能源,以实现越来越幼的性能升迁。任何成本/利润分析都会变得越来越比例失调。

    既然存在效好递减的题目,又是什么在推动着模型一连地朝着越来越大的倾向发展呢?一个主要的因为是,现在人造智能社区对获取“最好的”性能基准测试效果专门关注。构建一个新模型,可以也许在性能基准测试中创下新的实在性记录,即便收获升迁仅仅是微不能道的一点,也可以赢得钻研人员的认可亲善评。

    正如添州大学洛杉矶分校(UCLA)的教授Guy Van den Broeck所说:“吾认为对这栽情况的一个最好的比喻,就是某个富油的国家可以也许建造一座很高的摩天大楼。当然,建造如许的东西必要花许众钱,还有许众的工程做事。你也实在可以在建造这座高楼的时候,获得‘最先辈的技术’。但是……这件事在内心上并异国什么科学上的提高。”

    在现在的人造智能钻研周围,占有主导地位的“越大越好”思路,也许会在异日几年对环境造成庞大的损坏。必要在这个周围内进走思虑详细但又大胆的变革,让人造智能技术的发展变得更添可赓续,并更具生产力。

    展看异日

    最先,每一位人造智能从业人员都答该考虑,如何在短期内“迅速制胜”,以减轻其钻研对碳足迹的影响。

    主要的第一步是,挑高这个题目的透明度和度量水平。当人造智能钻研人员们发布新模型的效果时,除了性能和实在性指标之外,他们还答该公布在模型开发中消耗了众少能量的数据。

    经过深入彻底的分析,艾伦人造智能钻研所的团队提出,将「浮点运算」行为钻研人员追踪的最通用、也是最有效的能效度量标准。另一组钻研人员创建了一个机器学习排放计算器,从业人员可以行使这个计算器来评估他们构建的模型的碳足迹(按照硬件、云服务挑供商和地理区域等因素)。

    按照这些思路,综相符考虑能源成本和性能利润的做法,将成为钻研人员们在训练模型时的最好实践。清晰地量化这栽有关,将促使钻研人员在面对效好递减题目时,对资源分配做出更明智、更均衡的决定。

    随着可赓续人造智能实践的扩散,期待人造智能社区可以也许在评估人造智能钻研的时候,最先考虑这些效果指标,就像今天吾们对传统性能指标(例如实在性)采取的做法相通:在会议论文挑交、演讲、学术角色中考虑它们。

    还有一些已经相对比较成熟的手段,可以也许协助人造智能技术在近期缩短碳足迹:行使更有效的超参数搜索手段、缩短训练过程中不消要的实验次数、行使更高能效的硬件等。

    但是,单靠这些补救措施并不能以解决这个题目。人造智能周围必要更根本的永远转折。

    吾们必要退后一步,并且承认,仅仅依附竖立越来越大的神经网络并非通去通用智能的精确途径。吾们必要推动本身去发现更优雅、更有效的手段,来对机器中的智能进走建模。吾们正在赓续一连地同气候变化进走搏斗,这是一场关乎地球异日的搏斗。

    在此引用人造智能传怪杰物、深度学习教父Geoff Hinton的话:“异日取决于那些‘对吾所说的统统’都深外疑心的钻研生……吾的不悦目点是将其通盘屏舍并重新最先。”

    人造智能社区必须最先致力于开创人造智能的新范例,这些范例答该既不必要指数级添长的数据集,也不必要壮大的能源消耗。幼样本学习(few-shot learning)等新兴钻研周围,都是有前途的途径。

    人类的大脑——智力的原首来源挑供了主要的启发。和当今的深度学习手段相比,吾们大脑的效果高得不走思议。它们只有几磅重,也许只必要20瓦旁边的能量消耗,这个能耗只可以也许给昏黑的灯泡供电。然而,它们代外了已知宇宙中最壮大的智力形势。

    人造智能钻研人员Siva Reddy指出:“人类的大脑用很少的能量消耗,就可以也许完善令人惊叹的事情。题目是吾们如何建造出如许的机器来。”

     

    Powered by 胶南市奉铛财经直播室 @2018 RSS地图 html地图

    Copyright 站群系统 © 2013-2018 360 版权所有