openal是什么软件(host openal是什么软件)

InfoWorld的2021年Bossie Awards旨在表彰软件开发、开发和运营、数据分析和机器学习领域的最佳开源软件。

2021 年最佳开源软件(下)InfoWorld 2021 年 Bossie 奖得主信息世界2021年博西奖获得者

钱可能不会长在树上,但它会长在GitHub库中。开源项目产生了这个星球上最有价值和最复杂的软件,这些软件可以免费获得,大大降低了所有公司的IT成本。如果你在寻找软件的前沿,请关注今天的开源项目。

在InfoWorld的2021年最佳开源软件奖中,你会在这里找到最佳开源应用。我们的2021年Bossie奖获得者代表了当今开源必须提供的最好和最具创新性的软件——用于软件开发、开发和运营、云原生计算、机器学习等。

MLflow

当一个技术领域变得足够流行和复杂时——有许多活动的部分和许多人参与其中——它最终会有同样复杂的操作或“操作”对应物。机器学习也不例外,所以我们有“MLOps”。由Databricks创建并由Linux基金会赞助的MLflow是MLOps平台,它允许跟踪器嵌入并维护各种机器学习模型、实验及其部署。它为您提供了记录和查询实验(代码、数据、配置、结果)的工具,将数据科学代码打包到项目中,并将这些项目链接到工作流中。考虑机器学习的DevOps和生命周期管理。

2021 年最佳开源软件(下)

柑橘

Orange承诺让数据挖掘变得“富有成果和有趣”。它的血统可以追溯到湖近四分之一世纪,但它仍然被广泛使用和积极发展的今天。Orange允许用户创建数据分析工作流,并执行各种机器学习和分析功能以及可视化。相比RStudio、Jupyter等编程或文字工具,Orange非常直观。您可以将小部件拖到画布上来加载文件,使用模型分析数据,并可视化结果。有蛇形倾向的用户可以通过使用Python脚本小部件以编程方式操作数据。

2021 年最佳开源软件(下)

摆动

Flutter是Google的U toolkit,用于从单一代码库为移动、web、桌面和嵌入式设备构建本地编译的应用程序。它基于Dart语言和一组丰富的完全可定制的材料设计和Cupertino风格的小部件来构建原生界面。Flutter的小部件集成了所有关键的平台差异,如滚动、导航、图标和对象,以在ios和Android上提供完整的原生性能。

2021 年最佳开源软件(下)

阿帕奇超级

Apache Superse是一个现代化的企业级商业智能Web应用程序。它快速、轻量且易于使用,并允许具有各种技能的用户探索和可视化他们的数据,从简单的饼图到非常详细的deck.g (geography 空图表。超集提供了一个直观的界面,用于可视化数据集和制作交互式仪表板,大量的数据可视化,一个无代码的可视化构建器,以及一个用于准备可视化数据的SQL IDE。在后端,您会发现支持大多数SQL数据库、内存中的异步缓存和查询,以及从头开始设计的云原生架构。

2021 年最佳开源软件(下)

很快

Presto是一个开源的分布式SQL引擎,用于在集群中运行在线分析处理。Presto可以查询各种数据源,从文件到数据库,并将结果返回给许多B1和分析环境。更重要的是,Presto允许您查询数据的位置,包括Hive、Cassandra、关系数据库和专有数据存储。一个Presto查询可以组合来自多个源的数据。使用脸书Presto交互式查询多个内部数据存储,包括他们的300PB数据仓库。Presto基金会是一个监督Presto开源项目开发的组织。脸书、优步、推特和阿里创立了Presto基金会。其他成员现在包括Alluxio。Ahana、Upsolver和Intel。

2021 年最佳开源软件(下)

阿帕奇箭头

Apache Arrow为平面和层次数据定义了一种独立于语言的列内存格式,这种格式是为了在现代CPU和CPU上进行高效的分析操作而组织的。Arrow内存格式还支持零拷贝读取,可以在没有序列化开销的情况下实现闪电般的数据访问。的连续柱状布局支持使用现代处理器中最新的SIMD(单指令多数据)操作进行矢量化。Arrow的库实现了这种格式,并为一系列用例提供了构建模块,包括高性能分析。许多流行的项目使用Arrow来高效地传输列数据或作为分析引擎的基础。箭库可以用在C,C++,C#,Go,Java,JavaScript JuliaMATLAB,Python,R,Ruby,Rust。

2021 年最佳开源软件(下)

解释性语言

解释性人工智能(xAl),也称为可解释人工智能,是指机器学习和深度学习方法,可以用人类能够理解的方式解释人类的决策。希望XA1最终能变得和黑匣子模型一样准确。InterpretML是一个开源的XAI包,它结合了几种最先进的机器学习可解释技术。InterpretML允许你训练可解释的模型和解释黑盒系统。InterpretML可以帮助您理解模型的全局行为以及每个预测背后的原因。在它的众多功能中,InterpretML有一个来自微软研究院的“玻璃盒子”模型,叫做可解释的助推机,它支持Lime通过黑盒模型进行近似的事后解释。

2021 年最佳开源软件(下)

石灰

Lime(局部可解释模型的不可知论解释的缩写)是一种事后技术,通过干扰输入的特征和检查预测来解释任何机器学习分类器的预测。Lime背后的关键直觉是,通过局部(接近我们要解释的预测)简单模型来近似黑盒模型比尝试全局近似模型要容易得多。Lime适用于文本和图形领域。PyP上有Lime Python包,源代码在GitHub上。它也包含在InterpretML中。

2021 年最佳开源软件(下)

飞跑

Dask是一个用于并行计算的开源库,可以将Python包扩展到多台机器上。Dask可以将数据和计算分布在同一系统或多节点集群中的多个CPU上。Dask集成了Rapids CuDF、xGBoost和Rapids cuML,用于GPU加速数据分析和机器学习。它还集成了NumPy、Pandas和Scikit-learn来并行化它们的工作流。

2021 年最佳开源软件(下)

BlazingSQL

BlazingsaL是一个基于Rapids生态系统的GPU加速SQL引擎。BlazingsQL代码是在Apache 2.0许定下发布的开源项目。炽燃笔记本是基于AWS的云服务,结合了BlazingSQL、Rapids和JupyterLab。基本上,BlazingSQL提供了完整GPU数据科学工作流的ETL(提取、转换和加载)部分。通过CPU内存中的GPU数据帧,可以使用Rapids CLML进行机器学习,或者将数据帧转换为DLPack或NVTabular,以使用PyTorch或TensorFlow在CPU中进行深度学习。

2021 年最佳开源软件(下)

湍流

Nvidia的Rapide开源软件库和AP1套件使您能够完全在GPU上执行端到端的数据科学和分析管道。Rapids使用Nvidia CUDA原语进行底层计算优化,并通过用户友好的Python接口暴露GPU并行性和高带宽内存速度。Rapids依赖Apache Arrow列内存格式,包含cuDF,一个类似熊猫的数据帧操作库;Cuml,一组机器学习库,提供Scikit-learn中大多数可用算法的GPU版本;以及类似于Networkx的库cuGraph,用来加速图形分析。

2021 年最佳开源软件(下)

海报

PostHog是一个易于使用的产品分析工具框架,它提供了一种快速的方法来深入了解您的web和移动应用程序的用户行为。只需在代码中添加一小段JavaScript代码,就可以开始运行了。PostHog的white initiative会收集用户会话过程中触发的大量前端交互事件。点击菜单驱动的U!大量的事件数据可以很容易地提炼成有意义的行动指标、趋势图和小仪表盘。漏斗可以帮助您进一步优化复合使用模型,以隔离瓶颈并提高跳出率。PostHog可以用于本地部署,也可以用在Saas产品中,省去了优化软件产品用户体验的三种口味和猜测。

2021 年最佳开源软件(下)

莱克夫斯

LakeFs提供了一种“通过管理代码来管理数据湖”的方法,它给对象存储增加了一层类似Git的版本控制。Git语义对数据的这种应用允许用户为工作、实验和模型分析创建他们自己独立的零拷贝数据分支,而没有破坏共享对象的风险。LakeFS为您的数据带来了有用的提交指令、元数据字段和回滚选项,以及用于维护数据完整性和质量的验证挂钩——在未提交的分支意外合并回生产之前运行格式和模式检查。有了LakeFS,管理和保护代码存储库的熟悉技术可以扩展到现代数据存储库,如亚马逊S3和Azure Blob storage。

2021 年最佳开源软件(下)

梅尔塔诺

Meltano今年从GitLab分离出来,是一个免费开源的“DataOps”替代了传统的ELT(提取、加载、转换)工具链。Meltano的数据仓库框架可以轻松地为您的项目建模、提取和转换数据,并通过内置的分析工具和仪表板补充集成和转换管道,以简化报告。Meltano提供了可靠的提取器和加载器库,支持Singer标准的数据提取tap和数据加载目标。它已经成为数据排列的强大驱动力。

2021 年最佳开源软件(下)

特里诺

Trino,以前称为Prestosql,是一个分布式sql分析引擎,可以对大型分布式数据源运行许多极快的查询。O Trino允许您在数据湖、关系存储或多个不同数据源上同时执行查询,而无需复制或移动数据进行处理。Trino可以很好地与您的数据科学家可能使用的任何BI和分析工具配合使用,无论是交互式的还是临时的,以最大限度地缩短学习曲线。随着数据工程师努力支持越来越多的数据源的日益复杂的分析,Trino提供了一种优化查询执行和加快不同来源的结果的方法。

2021 年最佳开源软件(下)

StreamNative

Native是一个高度可扩展的消息和事件流平台,它大大简化了实时报告和分析工具以及StreamNative企业应用程序的数据管道铺设。将Apache Pulsar强大的分布式流处理架构与Kubernetes和混合云支持等企业附加功能、大型数据连接器库、轻松的身份验证和授权以及用于健康和性能监控的特殊工具相结合,StreamNative all简化了基于Pulsar的实时应用程序的开发,并简化了大规模消息传送背板的部署和管理。

2021 年最佳开源软件(下)

拥抱脸

拥抱脸提供了最重要的开源深度学习知识库,它本身并不是一个深度学习框架。该项目对基于变形金刚的景观的整体控制力继续增强,在论文发表几天后,新模型被加入回购。模型托管正在增长,Accelerate等新工作使得使用分布式GPU训练变得更加容易。现在拥抱脸的目标是扩展到文本范围之外,支持图像、音频和视频对象检测。未来几年,深度学习从业者将会密切关注这个资源库。

2021 年最佳开源软件(下)

EleutherAl

OpenAl的CPT-3模型在文本生成方面实现了惊人的飞跃,具有人类水平的性能。然而,虽然可以通过AP1获得有限的访问权限,但只有OpenAl和微软可以完全访问GPT-3的培训版本。进入EleutherAl,一个分布式机器学习研究小组,致力于将GPT-3带给我们其他人。2021年初,EleutherAl发布了用于训练的825GB的大量不同文本数据集pile,并在6月发布了60亿参数模型GPT-J,大致相当于OpenAl的CFT-3的居里变种。使用GPT-NeoX,EleutherAl计划运行1750亿个参数,以与目前可用的最广泛的CPT模型竞争。黑客攻击世界上最大的公司?这就是开源的力量。

2021 年最佳开源软件(下)

传统上,Bossies的赢家是开源库、框架、平台和操作系统这四大支柱。但是,我认为不仅是这些获奖的开源组件,其他开源组件也值得一些认可,你可以学习和研究它们。