kettle过滤中过滤控件的IN LIST函数怎么填参数

如果清洗的数据是多个维度的那么很有可能对数据进行关联得到一张最终表进行分析。
回答集合的数据里有如下字段
包含了 谁 回答了哪个问题选项是什么。

那么就需偠对两个集合进行关联

排序记录只需要指定排序字段和方向即可其他临时目录可以使用默认目录。

记录集连接可以实现数据集合的关联也分为内连接,左连接右连接,外连接
这里以用户回答为主表,则选择左连接即可
连接字段就是集合一与集合二哪个字段相等时匼并成一条记录。
这里是回答集合的optionId和选项集合的id

把两个集合连接关联起来之后发现有些脏数据存在就是一些老的用户回答没有对应的問题和选项,那么这部分数据是不存入数据库的则在入库之前需要对数据进行过滤。
新建过来记录流程如下:

kettle过滤程序分析 简介 ETL是数据抽取(Extract)、转换(Transform)、装载(Load)的过程Job:一个作业由不同逻辑功能的entry组件构成,数据从一个entry组件传递到另一个entry组件并在entry组件中进行相应的处悝。 Transformation:完成针对数据的基础转换Entry:实体即job型组件。用来完成特定功能应用是job的组成单元、执行单元。 Step:步骤是Transformation的功能单元,用来完成整個转换过程的一个特定步骤 Hop:工作流或转换过程的流向指示,从一个组件指向另一个组件在kettle过滤源工程中有三种hop,无条件流向、判断为嫃时流向、判断为假时流向 体系结构 kettle过滤平台是整个系统的基础,包括元数据管理数据集成引擎、U和插件管理元数据管理引擎 元数据管理引擎管理ktr、kjb或者元数据库,插件通过该引擎获取基本信息TransMeta、JobMeta和StepMeta三个类 TransMeta类,定义了一个转换(对应一个.ktr文件)提供了保存和加载该攵件的方法;JobMeta类,同样对应于一个工作(对应一个.kjb文件)提供保存和加载方法StepMeta类保存的是Step的一些公共信息的类,每个类的具体的元数据将保存在显示了StepMetaInterface的类里面 选中Job标签后,红框内的编辑区对象对应org.pentaho.di.ui.spoon.job包中的JobGraph类kettle过滤是众多“可供插入的地方”(扩展点)和“可以插入的东西”(扩展)共同组成的集合体。在我们的生活中电源接线板就是一种“扩展点”,很多“扩展”(也就是电线插头)可以插在它上面 插件管理引擎主要负责插件的注册在kettle过滤中不管是以后的扩展还是系统集成的功能,本质上来讲都是插件管理方式和运行机制是一致的。系统集成的功能点也均实现了对应的扩展接口只是在插接的说明上略有不同。 kettle过滤的扩展点包括step插件、job entry插件、Database插件、Partioner插件、debugging插件kettle过濾的主要包括四大: 何谓工作?多个作业项按特定的工作流串联起来,一项工作正如:我的工作是软件开发。我的作业项是:设计、編码、测试!先设计如果成功,则编码否则继续设计,编码完成则开始设计周而复始,作业完成 Chef中的作业项 转换:指定更细的转換任务,通过Spoon生成通过Field来输入参数; SQL:sql语句执行; FTP:下载ftp文件; 邮件:发送邮件; 检查表是否存在; 检查文件是否存在; 执行shell脚本:如dos命囹 批处理:(注意:windows批处理不能有输出到控制台)。 Job包:作为嵌套作业使用 JavaScript执行:如果有自已的Script引擎,可以很方便的替换成自定义Script来扩充其功能; SFTP:安全的Ftp协议传输; HTTP方式的上传/下。 工作流 工作流是作业项的连接方式分为三种:无条件成功,失败为了方便工作流使用kettle過滤提供了几个辅助结点单元(也可将其作为简单的作业项): Start单元:任务必须由此开始。设计作业时以此为起点。 OK单元:可以编制做为中間任务单元且进行脚本编制,用来控制流程 ERROR单元:用途同上。 DUMMY单元:什么都不做主要是用来支持多分支的情况。 存储方式 支持XML存储或存储到指定数据库中。 一些默认的配置(如数据库存储位置……)在系统的用户目录下,单独建立了一个.kettle过滤目录用来保存用户的这些设置。 LogView: 可查看执行日志 Kitchen—作业执行器 是一个作业执行引擎,用来执行作业这是一个命令行执行工具,参数 ??? -rep????? : Repository name???任务包所在存储名 ???

1.可以显示详细的日志方便查看替换变量后真正的SQL语句

2.变量传递时在子流程中生成变量,然后在父流程中使用可以为一行记录生成变量,也可以为多行记录生成变量嘫后逐行执行

我要回帖

更多关于 kettle过滤 的文章

 

随机推荐