青云智算“超进化”,重塑 AI 时代

文章正文
发布时间:2024-10-12 23:18

  在当今 AI 技术快速发展的时代,青云科技一直走在前列,致力于为各行业提供强大的智算产品与服务。近日,在青云科技 AI 算力发布会上,青云智算产品经理苗慧女士以“打破计算边界,重塑 AI 时代”,详细介绍了青云 AI 算力产品与服务的全新升级,展示了青云科技在 AI 领域的深厚积累与卓越创新。

  以下视频为青云科技智算产品经理苗慧的分享,经整理。

  三大核心产品,引领无界算力新时代

  面对各行各业对 AI 的迫切需求,青云更是拿出了看家本领。其快速构建 AI 计算场景的能力,让算法工程师、计算科学家、数据科学家等研究人员能够专注于算法和数学的研发,而无需为底层 AI 基础设施分心。通过屏蔽底层技术的复杂性,青云极大地提高了研发效率,让科研成果能够更快地转化为实际应用。

  新产品,更全面

  青云科技推出的三大核心产品:AI 智算平台、AI 算力云服务和 AI 智算一体机,以强大的技术实力突破传统算力界限,实现无界算力。

   AI 智算平台:大而全的软件平台,从底层设备管理到上层 AI 算法优化,无所不能。它实现了对所有计算卡的高效管理,解决了客户在多区域、多计算卡、多产品形式下的算力管理难题。通过统一算力调度管理集群,青云确保了算力的充分利用和高效调度。

   AI 算力云服务:以 GPU 算力为主的在线服务平台,用户可以随时随地获取所需的算力资源。无论是大型科研机构还是中小型研发团队,都可以通过 AI 算力云服务快速构建 AI 计算环境,推动科研成果的快速转化和 AI 场景快速落地。目前,已经上线了位于西北、华北等地的专区,为用户提供便捷、高效的算力服务。

   AI 智算一体机:专为中小型研发团队和传统企业设计的快速创新工具,开箱即用。一体机内置了常用的模型和算法,用户只需通电即可使用,无需担心底层技术的复杂性。通过 AI 智算一体机,用户可以更快地开展 AI 研发和创新尝试,加速科研成果的落地应用。

  多形式,提升资源利用效率

  值得一提的是,青云在交付形式上也进行了大量创新,不仅能完成私有化交付、提供算力云服务和算力专属云,还能构建分布式云,将多个地区的算力中心统一管理、运营和运维,极大提高了资源利用效率。同时,针对边缘算力的需求,青云也提供边缘计算能力。

  专业技术团队,提供全方位服务

  除了强大的产品能力和交付能力外,青云还拥有专业的技术专家团队,为客户提供咨询服务、规划、可行性分析、架构设计及 7x24 小时的技术支持。无论是在产品更新、计算产品升级、AI 数据平台优化、高性能网络服务提升等方面,青云都能够凭借丰富的经验和先进的技术,为客户提供全方位的服务。

  青云通过三大算力产品、灵活交付和专业服务,实现了云、网、边、端的无缝融合与高效协同。强大的组网与横向扩展能力,不仅覆盖了企业数据中心、边缘节点及跨区域场景,更打破了传统算力的物理与逻辑界限。青云开放的架构,让 AI 能力得以自由流动与深度融合。无论是向上对接多元化的 AI 技术,还是向下兼容多样化的硬件生态,青云智算均能实现无缝集成,构建了一个灵活、可扩展的 AI 无界算力世界。

  AI 智算平台超进化,效率革新

  青云科技于去年 9 月份发布了 AI 智算平台 1.0,以全新容器架构提供了从底层算力基础设施调度管理到业务运营的功能。在过去一年中,又陆续推出多个产品及功能,解决客户实际问题,展现了强大的算力管理和调度能力。从大型的数据中心卡,到消费级 RTX 显卡,再到国产的海光和昇腾系列计算卡,青云都能够进行高效的管理和调度。此外,面对不同网络带宽的需求,青云也能够提供 200M、400M、800M 乃至上 T 的网络带宽性能,确保数据的畅通无阻。

  青云深知,仅有强大的算力是不够的。在 AI 基础设施的建设过程中,计算卡的应用、性能和调优同样至关重要。因此,青云通过统一算力调度管理集群,实现了对所有计算卡的高效管理,解决了客户在多区域、多计算卡、多产品形式下的算力管理难题。

  青云 AI 智算平台通过不断更新功能和优化架构,满足了用户在计算、数据和网络管理等方面的需求。这使得用户能够更加高效地利用计算资源,降低成本,提高生产效率,从而在 AI 领域取得更好的发展。无论是企业还是科研机构,都能从青云 AI 智算平台的优势中受益,加快自身在 AI 领域的创新和进步。

  升级更多计算产品

  AI 智算平台提供多元化的计算形式,从传统物理机到容器,再到裸金属。计算不仅支持国外主流算力,还支持海光、昇腾等国产算力。同时,推出传统 HPC CPU 计算,面向 300 多个传统 HPC 场景提供 HPC 计算。

  苗慧表示,计算产品升级主要体现在 GPU 切分能力的完善和提升上。金融和高校都存在高峰和低谷的业务特点,在高峰时需要大量资源支持,而在低谷时则只需保活即可。青云提供了算力芯片的切分使用,例如,通过将 GPU 切分二分之一,可以提高一倍的效率,同时减少一台机器的投入。客户可以通过这种 GPU 切分方式提高工作效率,降低投入成本,更好地满足业务需求。

  AI 数据平台,便捷高效的数据服务

  青云 AI 数据平台作为统一的数据存储流转管理服务平台,以其完全服务化的特性,为用户提供了便捷、高效的持久化数据服务。平台具有强大的屏蔽功能,能够将底层介质(如硬机械硬盘、NVMe 闪盘)以及不同文件系统等基础设施带来的问题完全屏蔽。这使得用户无需关注底层技术细节,专注于数据的处理和应用。

  平台完全服务化,可视化交互体验,用户可在界面上轻松点击申请配额,随后即可通过界面上传、下载数据。数据与计算环境紧密关联,用户在进入平台后,首先创建存储,上传数据,完成这些操作后即可获得相关计算资源,进行数据处理和管理。这种简洁明了的操作流程,极大提高了用户使用数据的效率。

  高性能网络服务,快速上架稳定运行

  青云科技凭借资深网络团队和专业技术积累,在相同硬件条件下,为用户提供更优质的高性能网络,保障网络稳定。

  青云资深网络团队,根据业务需求进行全面的网络规划与设计。从硬件配置到网络架构,每一个环节都经过精心考量,确保网络服务能够满足不同业务场景的需求。青云在网络服务方面遵循严格的流程,千卡集群 7 天即可完成调试和 15 天上架运营,确保网络服务在投入使用前经过充分的测试和优化,为用户提供稳定可靠的网络环境。

  全功能 AI 开发平台,满足开发训练需求

  青云还推出全功能 AI 开发平台,涵盖开发机服务和分布式训练服务。

   开发机服务:提供秒级创建、镜像加速、自定义镜像等功能,还支持无卡开关机、在线开发 jupyter、vscode,以及定时关机、定时释放等资源回收策略。这些功能使得开发人员能够更加方便快捷地进行开发工作,提高开发效率。

   分布式训练服务:提供秒级调度多机多卡、预训练 DLC、模型精调 SFT,以及优先级与批量调度策略等功能。同时,还内置了评估数据集、效率表现分析等,对模型效果进行评估。这些功能使得分布式训练更加高效,提高了训练效率和模型质量。

  模型服务平台,加速 AI 创新

  青云 AI 智算平台还推出即用即付、开箱即用的模型服务平台,具备多项优势以满足不同需求。

  集成与调度

   具有强大的集成能力,通过模型广场,实现模型和应用无缝集成,提升应用性能。

   采用灵活的潮汐调度策略,结合 GPU 池化,有效提升推理并发效率,同时支持国产卡和边缘设备,扩大适用范围。

  环境适配与管理

   在算法环境方面,通过容器镜像打包环境功能,无论用户所需的 CUDA 版本如何,都能获取相应镜像运行,解决了运维过程中因版本差异导致的问题。

   对于不同算法团队的计算环境准备需求,提供模型服务平台,可快速搭建环境,避免物理问题。

   针对机器利用率低的问题,监控平台可全面监控,不仅能看到机器归属及平均利用率,还能根据纯时间类指标和监控数据实现自动关机、自动释放计算卡,提高资源使用效率,避免算法团队抢卡。

  资源调配与应用

   开发、训练和推理服务通常由不同人员负责,针对模型调用量存在高峰和低谷的情况,将所有模型部署到推理集群上,根据调用和压力进行资源弹性伸缩,合理分配资源。

   通过 GPU 切分形式,如将 80G 显存切成 20G 4 份向外分发,可实现白天推理晚上训练。通过自动资源池调配满足不同时段需求,如金融领域的 “白天推理,晚上训练” 模式,保存模型 CheckPoint,提高资源利用率。

  青云科技借助自身的平台和工具,为企业提供了无门槛构建 AI 模型的服务。在 AI 智算平台上,所有功能都围绕算力应用,使其能落实到具体场景和算法工程师手中。

  企业只需将数据上传到平台,即可启动一键精调。在这个过程中,平台能够对每个保存的模型或 CheckPoint 立即进行模型效果评估。平台内置常用数据集和常用参数,完全屏蔽了对技术人员的底层技术要求。技术人员只需在平台上进行简单操作,就能得到模型与结果评估,判断其是否适用。如果适用,便可进行部署、推理,并预留接口。

  在资源管理方面,对于推理占用资源,既可以独占,也可以共享。青云按照 token 形式进行弹性计费或弹性扩/缩容,满足企业不同的资源需求和成本控制要求。

  故障监控与自愈系统,保障算力稳定

  苗慧在发布会上指出,青云在过去管理了万卡集群、10000P+ 算力,不论是英伟达还是国产 GPU 服务器,损坏率是不可避免的。设备在运行过程中,由于长时间工作和物理特性(如松动、晃动),可能会出现故障。为了确保算力的稳定可靠运行,青云 AI 智算平台还推出了故障监控与自愈系统。该系统拥有 1000+ 故障特征库,能够秒级发现故障并分钟级自愈。

  一旦平台检测到故障,会立即通过多渠道(如企业微信)发出告警。随后,系统会自动启动任务检测和调度禁止机制,防止新任务在故障机器上运行。对于正在运行的任务,系统会检查其健康状态,并根据情况决定是否继续在当前机器上运行或转移到其他正常机器上。在资源充足的情况下,系统会预留部分机器作为备份,以便在故障发生时迅速接管任务,保证任务连续性,从而提高工作效率。

  用户可以放心地使用算力资源开展研发和创新工作,而无需担心故障带来的损失和影响。目前,青云科技的故障自愈率已经达到 99%,为用户提供了更加可靠、高效的算力支持。

  运营计量与计费系统,灵活运营与管理

  为了满足不同用户的需求和预算限制,青云 AI 智算平台还推出了运营计量与计费系统。传统的算力中心在资源购买和配置过程中,涉及到诸多繁琐步骤,如配置资源、网络、公网服务、确定计费模式、签订合同等。青云通过自动化手段将这些步骤大大简化,降低了用户的工作负担。

  该系统提供了全量运营计费计量功能,实现了租户隔离和灵活定价。用户可以根据自己的需求和预算选择合适的算力资源和服务,并按照实际使用情况进行计费。

  系统还充分考虑了用户在使用过程中可能遇到的各种情况,如重建环境、临时停用等。针对这些情况,系统提供了相应的弹性计费策略,确保用户不会因为这些临时变化而承担不必要的费用。

  AI 算力云,低门槛普惠 AI 应用

  青云推出的公有云 AI 算力云服务,目前在西北 1 区、西北 2 区、华北 2 区等区域运行,提供英伟达 H 系列、A 系列、RTX 系列、海光和昇腾相关的算力资源,以及模型服务。用户可以方便地进行在线申请和使用,无论是简单的计算任务还是复杂的在线分布式任务,都能得到满足。资源按需计费,简单明了,用户可以根据自己的任务需求和预算进行合理安排。

  除了算力服务,该产品还提供各种存储的申请和使用,为用户提供便捷、高效的一站式服务,进一步满足了用户在数据存储方面的需求。

  AI 智算一体机,开箱即用

  AI 智算一体机主要面向传统企业和中小型开发团队,旨在帮助他们快速进行创新尝试。对于那些没有时间和精力去深入学习 AI 基础知识的用户来说,这款一体机是一个理想的选择。它无需用户长时间学习相关知识,通电即用。一体机内置了市场上常用的模型、算法和计算库,并不断更新,确保用户能够使用到最新、最实用的工具。用户在使用过程中,随时可以调整,甚至可以将其搬到某个区域继续使用,体现了其高度的灵活性。

  这种开箱即用的特性,使得企业能够在短时间内体验到 AI 技术带来的便利和优势。

  通过不断创新和升级产品以及提升服务质量和技术水平,青云科技将为用户带来更加便捷、高效、可靠的算力支持和服务。未来,随着 AI 技术的不断发展和应用领域的不断拓展,青云科技将继续保持其领先地位,推动 AI 技术的普及发展,为更多行业和领域注入新的活力和动力!