卓越方达logo200*800

KNIME Analytics Platform 5.3 的新功能

更新 2024年8月26日

随着KNIME Analytics Platform 5.3的发布,我们通过提供许多用户请求的功能,继续加强对社区的承诺 – 一个新的工作流监视器,用于更易于调试,一个修订的主页选项卡,用于更快的导航,一个新的表达式节点,用于以类似于电子表格公式的方式处理文本和数字,等等。

我们还知道,实施 GenAI 已成为许多组织的首要任务。然而,在安全控制之间找到适当的平衡并快速捕捉GenAI的价值是一场艰巨的任务。在管理输出质量、数据隐私和合规性等风险方面的持续不确定性使许多公司和个人对扩大 GenAI 的规模持谨慎态度。

此版本通过新功能解决了其中一些问题,这些新功能可帮助数据团队安全地使用最新的 GenAI 技术。这些功能提高了 GenAI 的采用率,同时降低了 GenAI 的风险,因此他们可以更接近将 GenAI 项目从试点推进到生产。这些新功能反映了KNIME致力于帮助组织采用最新技术的承诺,包括GenAI及其他技术。

下面详细介绍了此版本中包含的每个主要更新。

  • 更直观的用户界面,更轻松的导航、更快的调试、键盘快捷键等
  • 使用新的 Expression 节点和可选的 AI 辅助进行数据操作
  • 扩大了对 GenAI 最新进展的访问范围
  • 使用 Microsoft Presidio 与 LLM 提供商共享的数据的匿名化
  • 用于评估模型质量的 Giskard 扩展
  • 其他值得注意的增强功能

更直观的用户界面,更轻松的导航、更快的调试、键盘快捷键等

与每个版本一样,我们将继续根据社区的反馈增强KNIME分析平台的UI。

直接在节点监视器中可视化数据

现在,数据可视化通过节点监视器直接显示在用户界面中。这使您可以在选择节点时可视化数据并立即在底部面板中检查数据,而不是打开新窗口。

使用工作流监视器加快调试速度

拥有一种清晰的方法来调试工作流是社区经常要求的功能。KNIME Analytics Platform 5.3中的新工作流监视器通过在侧面板中显示实时错误和警告,帮助您更快、更轻松地调试工作流。

工作流监视器会突出显示任何带有错误和警告的节点、组件或元节点,并允许您通过单击相应的箭头按钮直接导航到导致错误的节点。

工作流监视器会在任何节点或工作流执行或重置后自动更新其状态,从而为您提供有关是否成功修复工作流或节点配置的实时响应。

使用增强的“主页”选项卡和空间资源管理器更轻松地导航

修改后的“主页”选项卡布局,左侧是导航,右侧是相应的内容,使您可以更轻松地访问最近使用的工作流程、本地空间以及KNIME社区中心和KNIME商业中心。此外,您现在可以直接在KNIME分析平台中创建私人Hub空间。

改进的空间浏览器旨在帮助您更快、更好地使用 KNIME 分析平台。应用程序标题使您能够通过右键单击来显示和选择工作流或组件中的源目标,而新的“+ 创建新工作流”按钮允许您立即创建工作流。通过简单的输入过滤器,您可以轻松地过滤空间浏览器中当前级别显示的项目。

使用热键提高可访问性

新的热键支持使您能够完全通过键盘快捷键操作工作流程。现在,您可以通过使用键盘快速选择和连接节点以及重新定位注释和节点来更快地构建工作流。这些快捷方式的概述可在“帮助”菜单中找到。

此外,您可以通过菜单按钮放大或缩小界面,确保在各种设备和屏幕尺寸上实现最佳可用性,特别是对于那些视力受损的人。
改进了表视图性能

在处理大量数据时,您现在可以流畅地滚动和查看多达 1,000 列,并体验更快的表视图性能。

具有搜索功能的小部件

“列过滤器小部件”、“多选小部件”和“名义行过滤器小部件”等选择小部件现在带有搜索功能,可以更轻松地找到您正在寻找的正确值,而无需手动滚动浏览它们。

具有新式对话框的更多节点

许多节点(如 Row Filter 和 Joiner)现在都具有一个现代化的、支持 Web 的配置对话框。这些对话框现在具有更简洁的外观,并提供其他功能,例如支持“行筛选器”和“拆分器”节点中的多个选择条件。

在此版本中使用新式对话框更新的节点的完整列表包括:

  • Chunk Loop Start
  • Column Resorter
  • Date&Time Part Extractor
  • Group Loop Start
  • Joiner
  • Nominal Value Row Filter
  • Normalizer
  • Row Filter
  • RowID
  • Row Sorter
  • Number Rounder
  • String Splitter (Regex)
  • Value Counter
用于工作流和组件描述的丰富内容编辑器

用户现在可以使用丰富的内容编辑器编辑工作流程和组件描述。这些富文本描述也将显示在KNIME社区中心和KNIME商业中心上。

使用新的 Expression 节点和可选的 AI 辅助进行数据操作

您可以使用新的多用途表达式节点来处理数字和文本,就像处理电子表格公式一样。此节点是将 KNIME 中处理文本和数字(如字符串操作、数学公式、规则引擎、基于规则的行过滤器和列表达式)合并到一个具有多个配置选项的单个节点中的第一步。

新的 Expression 节点提供了 String Manipulation 和 Math Formula 节点的功能,可用于修改文本和执行计算。该节点还配备了一个 AI 助手,可帮助您通过简单的聊天界面执行自定义数据操作。

改进后的表达式编辑体验包括自动完成、拖放式表达式构建和全面的函数文档等功能。此外,它现在支持在计算期间访问前一行和后一行,这一功能以前仅限于列表达式节点。

扩大了对 GenAI 最新进展的访问范围

简化了对大量文本的处理

新的 Text Chunker 节点将长文本拆分为可管理的块。如果您正在处理大量文本数据以进行检索增强生成 (RAG),则现在可以使用 Text Chunker 节点通过一个步骤替换耗时的文档拆分。

这是一个现成的工作流程,用于开始使用 Text Chunker 节点分割文本。

在 Hugging Face 上访问广泛的开源嵌入模型

新的 Hugging Face Text Embedding Inference Connector 节点简化了 KNIME 工作流中高级文本嵌入的使用。使用此节点,您可以连接到本地和远程 Hugging Face Text Embedding Inference 服务器,并访问各种开源嵌入模型,用于语义搜索和特征提取等任务。

现在,您还可以轻松连接到受保护的 Hugging Face Inference Endpoints,通过 Text Embedding Inference 和 Text Generation Inference 节点快速启动许多 GenAI 模型进行实验。

微调 OpenAI 模型以获得更相关的响应

KNIME Analytics Platform 5.3 引入了 OpenAI Chat Model Fine-Tuner 节点,允许您直接在 KNIME 中使用特定于任务的训练数据微调 OpenAI 模型。当提示工程和检索增强生成 (RAG) 方法不足时,您可以通过微调来定制大型语言模型 (LLM),以获得更准确的响应。

对 GPT4All 的更新以支持最新进展

KNIME Analytics Platform 5.3 还包括更新的 GPT4All 节点,支持最新的模型格式,确保与本地 LLM 的最新进展(例如 Llama 3)兼容。这使您可以在本地计算机上使用最新模型。

使用 Microsoft Presidio 与 LLM 提供商共享的数据的匿名化

新的 KNIME Presidio 扩展有助于在与外部 LLM 提供商共享数据时保护个人身份信息 (PII)。该扩展程序可以检测和匿名化文本数据中的敏感信息,例如姓名、电话号码和信用卡号,从而解决 GenAI 使用中对数据隐私和合规性的担忧。

用于评估模型质量的 Giskard 扩展

新的 KNIME Giskard 扩展允许用户使用 Giskard 库检查其端到端机器学习模型的质量。它可以帮助他们发现端到端机器学习工作流中的问题,并帮助他们评估稳健性和偏差,以实现更可靠的部署。

其他值得注意的增强功能

企业集成

Databricks 用户现在可以在 KNIME 中使用 Databricks Unity 文件系统集成来管理 Databricks 目录中的文件。用户可以直接在其 KNIME 工作流程中读取、写入、列出文件等。

用于营销分析的 Google Ads 集成

KNIME Analytics Platform 5.3 还引入了与 Google Ads API 集成的新扩展。此扩展程序允许营销分析师从其 Google Ads 帐户中提取信息,并深入了解最有效的关键字等内容,以改善其效果营销策略。

请查看这些使用 Google Ads 集成的工作流程蓝图。

新的 Variable Filter 节点

应用户的普遍要求引入,新的“变量过滤器”节点可帮助您删除工作流中的变量。该节点可帮助您识别工作流中存在哪些变量,并删除那些不必要的变量。这对于具有许多变量的长工作流特别有用,尤其是当某些变量仅与工作流的特定部分相关,而与后续阶段无关时。使用此节点,您可以更好地组织工作流,并确保在实际需要的地方使用变量。

电子邮件发件人节点

更新的电子邮件发件人 (Labs) 节点允许将报告直接嵌入到电子邮件中,从而加快向同事或最终用户发送见解的过程。此外,它还允许您根据选定的列将文件附加到电子邮件中,从而大大简化了节点的参数化。

工作流执行和运行时改进

工作流将受益于单个节点的运行时间的改进,特别是对于中型到大型数据集。这些节点包括许多预处理节点,例如 Sorter、Row Aggregator 和 Filtering 节点。

当与列式后端结合使用时,并行块节点的运行时间得到了显着改善,因为输入数据的分区现在在单个原子操作中完成,而不是“运行和拆分”。

基础设施更新和升级

底层框架 (Eclipse) 已更新到较新版本,这对于我们的社区贡献者和拥有内部 KNIME 扩展的客户来说尤为重要。许多集成和库已更新到其最新的稳定版本,包括 Apache Spark、Hadoop、各种数据库驱动程序以及用于 Excel 文件处理 (Apache POI) 的库。有关详细列表、弃用通知和其他发行说明,请参阅下面的链接。对选定驱动程序和库的升级包括:

  • 支持 Spark 3.5。
  • 各种更新的数据库驱动程序,例如 Hive 3.x。
  • 大数据扩展现在支持 Hadoop 3.x。根据您的环境,Hadoop库更新可能需要更改KNIME Analytics Platform中的Hadoop设置。
  • MongoDB 库已更新到版本 5.1.1,现在支持最新版本的 MongoDB。

此版本将不再支持以下功能:

  • 不支持使用 Spark 3.4 及更高版本的 H2O 苏打水。如果您安装了新的 Sparkling Water 旧版插件,则在 Spark 3.3 及更早版本上运行的现有工作流将继续工作。
  • 我们将停止支持与 Hive 2 及更早版本的连接。作为一种解决方法,您可以注册自己的 Hive 2 驱动程序。如果您正在使用可能导致安全问题的过时数据库驱动程序,您将在平台内收到通知。