大多数数据科学家已经尝试使用 GenAI 来自动化重复性任务。但是,您是否知道可以将 GenAI 功能构建到 KNIME 工作流中,以加快基本任务、构建基本工作流并更快地获得所需的见解?在整个组织中扩展时,可以节省大量时间和成本。
在这篇博客中,我们将介绍 7 个常见的 GenAI 相关使用案例,您可以利用 KNIME 来节省时间、金钱和精力!其中许多工作流程都在 KNIME 的社区中心上线,随时可供使用。在可能的情况下,我们提供了指向工作流程的链接,因此您只需单击几下即可开始将 KNIME 与 GenAI 结合使用。
1. 数据清理和准备
每个数据科学项目都从清理数据开始,以便将其置于正确的状态以供分析和使用。这可能是一个耗时的过程,尤其是当您将来自多个来源的数据合并和操作到一个数据集中时。
使用 KNIME,您有两个选项可以使用 GenAI 来帮助您完成此过程:
- 询问 K-AI:KNIME 内置的 GenAI 聊天功能可以为您构建一个小型的 KNIME 工作流程,它会根据您的提示清理数据。这种方法的好处是,您可以获得一个 KNIME 工作流,其中每个数据清理步骤都清晰可见。这使您可以轻松检查 GenAI 的工作并根据需要进行更正或修改。
- 使用 AI 扩展:可以配置 KNIME 的 AI 扩展,您可以要求自己的 GenAI 提供商为您清理数据。在这种情况下,您将不会获得显示数据清理步骤的 KNIME 工作流,因为 GenAI 会为您处理此步骤。
数据清理和准备是我们所有人都需要注意的事情。因此,此用例可以为您节省大量时间,还可以防止过程中的人为错误。
示例提示
- 请合并两个数据源并删除“country ID”列。
- 请将任何未知的整数或浮点值替换为平均值(平均值)。
- 请将任何缺失的字符串值替换为以下字符串:“N/A”。
2. 文本生成
文本生成可以帮助您起草电子邮件、报告或文章。在这个过程中,AI 系统根据模仿人类语言模式和风格的给定输入自动生成连贯且与上下文相关的文本。它使用大型语言模型来生成内容,例如文章、摘要和响应。
除此之外,数据科学家还可以将其用于各种自然语言处理 (NLP) 任务,例如摘要、情感分析、翻译等。我们将在本博客的以下部分中介绍这些内容。
数据科学家可能会发现,在个性化用户体验、创建可以理解用户查询、提供相关信息并自主解决问题的对话代理或聊天机器人时,甚至在根据数据分析自动生成报告、控制面板和摘要时,文本生成非常有用。
以下是在 KNIME 中使用 GenAI 生成文本的分步过程:
- 数据收集:收集基于文本的数据集。这可能包括商品信息文件、临床试验报告、监管文件或买家评论。此数据构成了模型的知识库,提供语言模型将从中生成文本的上下文和内容。
- 预处理:通过删除特殊字符、数字和非索引字来清理文本数据(GenAI 也可以提供帮助!然后,对文本数据进行标记化,并将其转换为适合输入到语言模型中的格式。
- 提示工程: 创建定义文本生成的任务或上下文的特定提示。您需要确保您的提示是特定的,并为模型生成文本提供相关信息。
- 检索增强一代:在 KNIME 中使用 RAG 技术,通过提供额外的上下文来增强文本生成。这涉及检索相关信息,这意味着从知识库中提取与提示直接相关的摘录或数据点。
- 生成文本: 将提示和检索到的信息馈送到语言模型中。该模型将同时使用提示和检索到的上下文来生成更准确和相关的输出。
- 评估:根据生成文本的质量评估和优化文本生成过程。这可以通过将其与人工编写的基准或预定义的质量标准进行比较来完成。
- 迭代: 根据评估结果不断完善您的提示工程和 RAG 流程。迭代以提高生成文本的质量和相关性。
例如,假设您是零售行业的数据科学家,您希望使用文本生成功能,通过使用聊天机器人和自动化控制面板来改善客户体验。通过这样做,您可以创建个性化的用户体验,根据个人客户的偏好和行为定制产品推荐。传统上,查看买家反馈、销售报告或商品描述可能非常耗时。
通过使用 Gen AI 工作流,可以扩展此过程以快速高效的方式生成文本。使用 KNIME,您可以输入来自多个来源的文本数据,并使用提示来指导 LLM 创建所需的文本。
示例提示:
- “根据客户最近的购买历史记录为客户创建产品推荐列表。”
- “为询问订单跟踪状态的客户生成详细响应。”
- “生成客户反馈和满意度评级的月度仪表板摘要。”
3. 情感分析
运行情绪分析涉及利用算法和自然语言处理来有效地对文本的情绪进行分类。一种方法是将情绪分为三类:积极、消极和中立。例如,这可以帮助您对产品评论进行分类和监控,或者在发送电子邮件之前检查电子邮件的语气。
在没有 GenAI 的情况下运行情感分析时,您必须选择要使用的算法,并在 KNIME 中自行配置。要跳过该步骤,GenAI 可以帮助您完成整个过程。
以下是如何在 KNIME 中使用 GenAI 进行情感分析的分步过程:
1. 数据收集:收集基于文本的数据集。这可以是员工反馈、社交媒体帖子、客户评论或包含情绪信息的任何其他文本数据。
2. 预处理:通过删除特殊字符、数字和非索引字来清理文本数据(GenAI 也可以提供帮助!然后,对文本数据进行标记化,并将其转换为适合输入到语言模型中的格式。
3. GenAI Prompt Engineering:创建指导语言模型执行情感分析的提示。您需要确保您的提示包含有关如何对情绪进行分类(积极、消极、中立)的具体说明,以及指导您想要获得的输出的任何其他相关信息。
4. 检索增强生成 (RAG):在 KNIME 中使用 RAG 技术来增强语言模型生成准确情感分析的能力。此过程涉及从数据集中检索相关信息,以便为语言模型提供上下文。
5. 情感分析:使用 KNIME 将预处理后的文本数据和提示输入到语言模型中。语言模型将根据提供的提示和从数据集中检索到的上下文生成情绪分析预测。
6. 评估:评估语言模型生成的情感分析结果,以评估准确性和性能。始终让一个人在循环中检查这一点很重要。对 GenAI 提示或 RAG 技术进行任何必要的调整,以提高准确性结果。
例如,假设您是一名在电子商务平台工作的数据科学家,您希望从产品评论中深入了解客户情绪。了解情绪取向(无论是积极的、消极的还是中立的)可以为客户满意度、产品性能和需要改进的领域提供宝贵的见解。通过准确分类评论,您可以识别趋势、及时解决问题,并最终增强整体客户体验。
阅读客户评论,将每条评论标记为正面、负面或中立,然后执行统计分析以发现重要趋势可能非常耗时、主观且不可扩展,尤其是在处理大量评论时。
通过使用 Gen AI 工作流,可以扩展此过程,以快速高效的方式对大量文本的情绪进行分类。使用 KNIME,您可以输入来自多个来源的文本数据,并使用提示来指导 LLM 有效地对情绪进行分类。
示例提示
- “为以下文本分配情绪标签(积极或消极):”。
- “确定此评论中有关运输/交付的情绪:积极、消极或中立。”
- “确定这篇评论中的情绪是否表明有意回购、更换品牌或寻找替代品。”
通过使用 GenAI 提取文本的情绪,您可以分析大量客户评论,而所需时间只是手动花费的一小部分。在此示例中,作为电子商务行业的数据科学家,您可以使用它来识别客户情绪的模式和趋势,从而推动产品和服务的改进。
4. 文本摘要
文本摘要是将大量文本压缩成较短的版本,同时保留关键信息和主要思想。它很有用,因为它可以让您快速掌握冗长文档、文章或报告的本质,而无需完全阅读它们。这对于分析长期法律合同或产品文档非常有帮助。
以下是如何在 KNIME 中使用 GenAI 大规模进行文本摘要的分步过程:
- 数据收集:收集要汇总的基于文本的数据集。这可以是文章、报告、电子书、政策文件等。
- 预处理:通过删除特殊字符、数字和非索引字来清理文本数据(GenAI 也可以提供帮助!然后,对文本数据进行标记化,并将其转换为适合输入到语言模型中的格式。
- GenAI Prompt Engineering:创建提示以指导语言模型生成所需的摘要。您需要确保您的提示包含有关如何汇总数据的具体说明。
- 检索相关信息:在 KNIME 中使用 RAG 技术来识别文本中应包含在摘要中的关键句子或短语。
- Generate Summary:使用 KNIME 将预处理后的文本数据和提示输入到语言模型中。语言模型将根据提示和检索到的信息生成文本摘要。
- 评估:评估生成的摘要并优化提示或检索过程,以提高摘要质量。
- Export Summary (导出摘要):导出生成的摘要以供进一步分析或使用。
- 迭代:迭代该过程以生成更准确、更简洁的摘要。
例如,考虑制药行业研发 (R&D) 环境中的数据科学家。在这里,需要定期审查广泛的研究论文、临床试验报告和监管文件。这可能是一项高度手动且耗时的任务,需要阅读数百页,突出显示并记下重要部分,然后进行总结。
通过使用 Gen AI 工作流,可以扩展此过程,以快速高效的方式汇总大量文本。使用 KNIME,您可以输入来自多个来源的文本数据,并使用提示来指导 LLM 创建所需的摘要。
示例提示
- “总结 Drug XYZ 临床试验报告中法规遵从性部分的要点。”
- “总结 Drug XYZ 临床试验中使用的统计分析方法。”
通过将冗长的文本分解成易于理解的段落或句子,文本摘要可以帮助提取重要信息,同时保留文本的含义和上下文。在此示例中,作为制药行业的数据科学家,您可以使用此文本摘要进行深入调查。
您现在可以专注于更重要的任务,例如获得数据驱动的见解,例如在分析和战略决策中查找相关性和人口统计依赖关系,例如为未来的研发工作制定建议。
5. 问答
问题解答会自动使用模型根据给定上下文回答问题。这对于从文档中提取信息或在没有明确上下文的情况下生成答案特别有用。例如,如果您有一个公司知识库,则可以使用 GenAI 阅读知识库并反馈答案。您可以对任何类型的文档(包括法律合同)执行此操作。
以下是如何在 KNIME 中使用 GenAI 进行问答的分步过程:
- 数据收集:收集要从中提取信息的基于文本的数据集。这可以是文章、报告、电子书、政策文件等。
- 预处理:通过删除特殊字符、数字和非索引字来清理文本数据(GenAI 也可以提供帮助!然后,对文本数据进行标记化,并将其转换为适合输入到语言模型中的格式。
- 提示工程:创建提供上下文且具体的提示。这将指导模型生成准确的答案。
- 检索增强一代:在 KNIME 中使用 RAG 技术来查找问题的相关答案可以帮助您深入了解上下文。这是因为该模型考虑了多个来源,并根据问题的上下文选择最合适的答案。
- 问题解答:使用 KNIME 的文本处理和机器学习节点实现问答系统。利用 KNIME 与外部库的集成进行检索和生成任务。
例如,假设您是一名在制造业工作的数据科学家,您必须管理和审查多个合同文档。这些合同可能包括与供应商、服务提供商或客户的协议,每个协议都包含分布在多个页面上的关键信息。手动阅读每个文档以提取基本细节可能是一项高度劳动密集型、耗时且容易出错的任务。
使用 GenAI 构建问答工作流程可以帮助您自动提取准确且信息丰富的回复,而无需浏览大量文本。使用 KNIME,您可以输入来自多个来源的文本数据,并使用提示来指导 LLM 生成答案。
示例提示
- “合同的生效日期是什么时候?”
- “是否有责任限制条款?”
- “有没有规定任何滞纳金?”
自动提取关键信息可以节省时间和精力,从而更快地响应关键查询。在此示例中,作为制造业的数据科学家,使用 GenAI 问答系统可以简化流程并帮助您专注于更高价值的任务,例如优化运营和支持战略决策。
6. 语言翻译
使用大型语言模型 (LLM) 进行语言翻译涉及将文本从一种语言转换为另一种语言。此任务作为序列到序列问题来处理,其中模型学习将数据中原始语言(称为源语言)的单词序列映射到您希望作为输出的语言(也称为目标语言)中的序列。
使用 LLM 进行语言翻译可以自动在语言之间转换大量文本,否则这将非常耗时且需要大量的人工工作。以下是在 KNIME 中使用 GenAI 进行语言翻译的分步过程:
- 数据收集:收集要翻译的基于文本的数据集。这可以是文章、报告、电子书等。
- 预处理:通过删除特殊字符、数字和非索引字来清理文本数据(GenAI 也可以提供帮助!然后,对文本数据进行标记化,并将其转换为适合输入到语言模型中的格式。
- 提示工程:设计提示,为语言模型提供上下文和指导,以实现准确翻译。包括源语言、目标语言和任何具体的翻译说明等信息。
- 检索增强一代:在 KNIME 中使用 RAG 技术从语言模型中检索相关信息。将检索到的信息与输入提示相结合,以生成翻译后的输出。
- 在 KNIME 中的实现:使用 KNIME 节点实现语言翻译过程。利用 KNIME 的文本处理和机器学习节点进行高效翻译。
语言翻译是企业同时扩大规模和打破障碍的强大工具。例如,假设您是银行和金融行业的数据科学家,并希望进行全球市场分析。这涉及分析多种语言的财经新闻、报告和市场数据,以了解全球金融趋势并做出明智的决策。让翻译人员将这些文档转换为易于理解的语言可能成本高昂、耗时,并且会限制对全球金融事件做出快速反应的能力。
使用 GenAI 构建语言翻译工作流可以帮助您快速翻译文本数据并执行实时分析。使用 KNIME,您可以聚合来自多个来源的文本数据,并使用提示来指导 LLM 将数据翻译成所需的语言。
示例提示
- “将这份关于新银行业法规的意大利监管更新翻译成英文。”
- “将这篇关于欧洲股市的法国新闻文章翻译成英文。”
- “将东京证券交易所的这份日本市场分析报告翻译成英文。”
在此用例中,拥有 GenAI 语言翻译工作流程可以帮助您随时了解全球金融趋势,并根据全面及时的数据做出战略决策。这不仅使您能够快速响应全球市场变化,还可以腾出时间分析多种语言的关键财务信息,从而提供对全球市场趋势的宝贵见解。
7. 主题建模
主题建模可识别大量文本中隐藏的主题或主题。它通过将相似的单词和短语聚集在一起形成连贯的主题,帮助组织、理解和总结大型数据集。它有助于自动分析大量文本数据,无需手动阅读即可快速识别关键主题。以下是在 KNIME 中使用 GenAI 进行主题建模的分步过程:
- 数据收集:收集要翻译的基于文本的数据集以及相应的上下文或文档。这可能包括 Wikipedia 文章、研究论文、书籍等。
- 预处理:通过删除特殊字符、数字和非索引字来清理文本数据(GenAI 也可以提供帮助!然后,对文本数据进行标记并将其转换为适合主题建模的格式。
- 使用大型语言模型进行主题建模:使用预先训练的大型语言模型进行主题建模,为文本数据生成嵌入向量。可以应用 K-means 或 DBSCAN 等聚类算法来根据嵌入对相似文档进行分组。
- 提示工程: 创建特定于主题建模任务的提示。指导语言模型从文本数据生成相关主题的设计提示。尝试使用不同的提示结构来优化主题生成。
- 检索增强生成 (RAG):在 KNIME 中使用 RAG 技术,根据生成的主题检索相关文档。使用检索到的文档来优化生成的主题并提高主题建模结果的整体质量。
- 迭代: 迭代检索和生成过程以提高生成的主题的准确性。
例如,假设您是电子商务行业的数据科学家,您希望使用主题建模来深入了解产品分类、改进推荐系统,并根据评论和产品描述了解消费者行为。主题建模涉及从文档集合(例如客户评论和产品描述)中提取主题或主题,以发现隐藏的模式和趋势。
依靠基于预定义类别或标签的产品分类,使用基本的关键字匹配向买家推荐商品可能会导致个性化和有效性受到限制。这也限制了对消费者行为的理解。
使用 GenAI 构建主题建模工作流可以帮助您根据语义相似性和主题自动化并提高产品分类的准确性。它还可以根据客户的偏好和行为为客户创建个性化的推荐系统。使用 KNIME,您可以输入来自多个来源的文本数据,并使用提示来指导 LLM 从您的数据中提取主题。
示例提示
- “根据商品描述对相似商品进行聚类,并突出共同主题。”
- “根据客户最近购买的常见主题向他们推荐互补产品。”
- “根据主题分析标记描述不一致或具有误导性的商品。”
在此用例中,拥有用于从文档集合中提取主题的 GenAI 工作流可以帮助您发现可能不会立即显现的细微见解。它还有助于理解大量文本数据并提取关键特征或主题。主题建模可以发现数据中隐藏的模式和关系,从而实现个性化推荐。
面向数据科学家的 GenAI 驱动的工作流
将生成式 AI 整合到您的 KNIME 工作流程中,可以通过自动执行重复且耗时的任务来显着帮助您。通过利用这些使用案例,数据科学家和分析师可以专注于更高层次的分析和决策,从而加快获得有价值见解的途径。