无论是研究奈米尺度的电子行为,还是数百万光年外的星系碰撞,许多科学家都有着一个共同的难题:必须对PB级大的字节的数据进行梳理,以撷取能够推动其钻研领域发展的洞察数据。
研究人员现在可以利用NVIDIA cuPyNumeric 加速运算函式库,将原来用于处理数据的 Python 程序代码,毫不费力地在搭载 CPU 的笔记本电脑、GPU 加速工作站、云端服务器或大型超级计算机上运行。当他们处理数据的速度越快,就能越快针对有发展潜力的数据点、值得研究的趋势做出决定,以调整实验内容和走向。
研究人员无需具备计算机科学方面的专业知识,便能让加速运算技术大幅飞跃。他们只要使用熟悉的 NumPy 接口编写程序代码,或是把 cuPyNumeric 用于现有的程序代码,并且按照最佳做法,就能获得最佳的执行效能与扩充性。
研究人员一旦用上了 cuPyNumeric,无需进行任何更动,便可以在单一个或数千个 GPU 上运行他们的程序代码。
现已在 Conda 和 GitHub 上开放使用最新版本的 cuPyNumeric,支持 NVIDIA GH200 Grace Hopper 超级芯片、运行时自动配置资源,还有更棒的内存扩充功能。它还支持科学领域十分爱用的 HDF5 文件格式,有助于有效管理大型复杂数据。
美国SLAC 国家加速器实验室、美国洛斯阿拉莫斯国家实验室、澳洲国立大学、美国麻州大学波士顿分校、史丹福大学湍流研究中心与印度国家支付公司(National Payments Corporation of India)等机构的研究人员已整合 cuPyNumeric,大幅改善其数据分析工作流程。
少即是多:不用修改程序代码就能无限扩充 GPU
数据科学、机器学习和数值运算等领域最常使用 Python 程序语言,在天文学、药物发现、材料科学和核物理学等科学领域中,有数百万名研究人员使用 Python。GitHub 上有上万个套件依赖 NumPy 数学与矩阵函式库,上个月的下载量已超过三亿次。cuPyNumeric 的加速运算技术可以加惠这些应用。
其中许多科学家所建立的程序都使用 NumPy,且只在单一 CPU 节点上运行。这限制了算法的吞吐量,无法对电子显微镜、粒子对撞机及电波望远镜等仪器所收集日益庞大的数据集进行分析。
cuPyNumeric 提供一个直接取代 NumPy 的组件,可以将运行规模扩大到数千个 GPU,帮助研究人员跟上其数据集不断增加的规模与复杂性。从单一 GPU 扩大到整个超级计算机时,cuPyNumeric 不需要修改程序代码。这让研究人员可以轻松在任何规模的加速运算系统上执行分析作业。
解决大数据问题,加速科学发现
SLAC 国家加速器实验室是美国能源部的实验室,由史丹佛大学负责营运,其研究人员发现 cuPyNumeric 可以帮助他们加快在直线加速器同调光源(Linac Coherent Light Source)上进行的 X 射线实验。
一支专注于半导体材料科学发现的 SLAC 团队,发现 cuPyNumeric 将其资料分析应用加快了六倍,把运行时间从数分钟缩短到数秒。这个加速情况让该团队在这个高度专业的设施进行实验时,可以平行运行重要的分析作业。
研究团队得以更有效率地利用实验时间,预期将能够更快发现新的材料特性、分享结果与发表研究成果。
其他使用 cuPyNumeric 的机构有:
澳洲国立大学,该校的研究人员使用 cuPyNumeric 扩大 Levenberg-Marquardt 优化算法的规模,使其能在澳洲国家运算基础设施的多重 GPU 系统上运作。该算法可用于许多应用程序,研究人员的初步目标却是锁定在大规模的气候与天气模型上。
洛斯阿拉莫斯国家实验室,该机构的研究人员使用 cuPyNumeric 来加快数据科学、运算科学与机器学习算法的运行速度。cuPyNumeric 将为他们提供额外工具,以便有效运用最近推出的 Venado 超级计算机,这台超级计算机搭载超过 2,500 颗 NVIDIA GH200 Grace Hopper 超级芯片。
史丹佛大学湍流研究中心,该中心的研究人员正在开发基于Python 的运算流体动力求解器,这款求解器可利用 cuPyNumeric 在大型加速运算丛集上大规模运行。这些求解器可以将多种液体模拟与PyTorch 等主流机器学习库无缝整合,做到包括在线训练和强化学习在内的复杂应用项目。
麻州大学波士顿分校,该校的研究团队加快线性代数计算的速度,以分析显微镜视讯,并且判断活性材料耗散的能量。研究团队使用 cuPyNumeric 来分解有着 1,600 万列、4,000 行资料的矩阵。
每天约有 2.5 亿印度人使用印度国家支付公司提供的实时数字支付系统,且这个系统正在迈向全球市场。NPCI 使用复杂的矩阵计算技术来追踪付款人与收款人之间的交易路径。使用目前的方法,在 CPU 系统上处理一周交易期间的数据大约需要五小时。而一项试验显示,在多节点 NVIDIA DGX 系统上使用 cuPyNumeric 来加快计算速度,可以将矩阵乘法的速度提高 50 倍,让 NPCI 在一小时内可以处理更大的交易窗口,在接近实时的情况下侦测可疑的洗钱活动。
如要进一步了解 cuPyNumeric,欢迎前往在亚特兰大举行的 SC24 超级运算大会,NVIDIA 展位将有现场展示活动,也欢迎参加展会大厅的剧场讲座和 cuPyNumeric 研讨会 。
欢迎观看NVIDIA在SC24的特别演讲。