万4wp 1707上车。电池1708。宇扬戏曲教育基地36御马400TT 全车红改

SNP LOCI SET AND USAGE METHOD AND APPLICATION THEREOF
WIPO Patent Application WO/
The present invention discloses a chip for detecting rice genome SNP loci sets, wherein SNP loci are chosen from a nucleotide sequence as represented by SEQ ID NO:1-9000. Said chip can be applied to the analysis of rice germplasm resource genetic fingerprinting, to the identification of genotypes of the offspring of rice hybrids, to the identification of rice varieties and to the selection of rice breeding materials.
Inventors:
DENG, Xingwang (14/F, Block B Techart Plaza, No. 30 Xue Yuan Road, Haidian, Beijing 3, 100083, CN)
ZHOU, Xiangyang (No. 213 Tairan 9 Street, Chegongmiao Futia, Shenzhen Guangdong 4, 518034, CN)
TANG, Xiaoyan (Xinjianxing Industrial Park, Building A6West 2nd Floor, Fengxin Street, Guangming New Distric, Shenzhen Guangdong 4, 518034, CN)
CHEN, Haodong (14/F, Block B Techart Plaza, No. 30 Xue Yuan Road, Haidian, Beijing 3, 100083, CN)
HE, Hang (14/F, Block B Techart Plaza, No. 30 Xue Yuan Road, Haidian, Beijing 3, 100083, CN)
CHEN, Wei (14/F, Block B Techart Plaza, No. 30 Xue Yuan Road, Haidian, Beijing 3, 100083, CN)
WANG, Xuelin (No. 213 Tairan 9 Street, Chegongmiao Futia, Shenzhen Guangdong 4, 518034, CN)
CHEN, Zhufeng (Xinjianxing Industrial Park, Building A6West 2nd Floor, Fengxin Street Guangming New Distric, Shenzhen Guangdong 4, 518034, CN)
LI, Yonghong (No. 213 Tairan 9 Street, Chegongmiao Futia, Shenzhen Guangdong 4, 518034, CN)
ZHANG, Wenhui (No. 213 Tairan 9 Street, Chegongmiao Futia, Shenzhen Guangdong 4, 518034, CN)
HOU, Hongli (No. 213 Tairan 9 Street, Chegongmiao Futia, Shenzhen Guangdong 4, 518034, CN)
Application Number:
Publication Date:
04/03/2014
Filing Date:
09/23/2013
Export Citation:
FRONTIER LABORATORIES OF SYSTEMS CROP DESIGN CO., LTD. (LI Zaoxia, Intellectual Property Department14/F, Block B, Techart Plaza, No. 30 Xue Yuan Road, Haidian, Beijing 3, 100083, CN)
SHENZHEN AGRICULTURAL TECHNOLOGY PROMOTION CENTER (Keyuan Hotel, No. 8061 Hong Li West Rd., Futian Distric, Shenzhen Guangdong 4, 518034, CN)
SHENZHEN INSTITUTE OF MOLECULAR CROP DESIGN (Xinjianxing Industrial Park, Building A6West 2nd Floor, Fengxin Street, Guangming New Distric, Shenzhen Guangdong 7, 518107, CN)
SHENZHEN XINGWANG BIOSEED CO., LTD. (Xinjianxing Industrial Park, Building A6West 2nd Floor, Fengxin Street,Guangming New Distric, Shenzhen Guangdong 7, 518107, CN)
XINGWANG INVESTMENT CO., LTD (Room 1403, 14/F Block B, Techart Plaza,No.30 Xue Yuan Road, Haidian, Beijing 3, 100083, CN)
International Classes:
View Patent Images:
&&&&&&PDF help
Foreign References:
CN1675373ACN1448515A
1. 一种 SNP位点集合,包括至少两个不同的 SNP位点,并能对相应的水稻基因组 DNA 多态性进行分型, 其特征在于所述 SNP位点选自如 SEQ ID NO :广 9000所示的核 苷酸序列。
2. 一种用于检测权利要求 1所述的 SNP位点集合的芯片, 其特征在于: 所述的芯 片可以用于相应 SNP位点的基因分型。
3. 权利要求 2所述的芯片, 其特征在于所述芯片还含有一套检测相应 SNP位点的核 苷酸探针, 所述核苷酸探针固定在至少一个固体载体上或至少一个微量滴定板 上。
4. 权利要求 2所述的芯片, 其特征在于所述芯片还含有一套检测相应 SNP位点的核 苷酸探针, 所述核苷酸探针位于微量滴定板的单独的或不同的孔中。
5. 权利要求 2所述的芯片, 其特征在于所述芯片还含有一套检测相应 SNP位点的核 苷酸探针, 所述核苷酸探针位于所述固体载体上的不同的探询位置处。
6. 权利要求 2-5 之任一所述的芯片, 其中所述的核苷酸探针为 SNP 位点的上下游 50bp左右的核苷酸序列, 可用于检测相应的 SNP位点。
7. 权利要求 2所述的芯片, 其中所述的基因分型, 其实验步骤包括: a)制作基因分 型用核苷酸探针和试剂; b )在基因分型系统上把探针和样本杂交并扫描, 获得所 分析样本在所述 SNP位点处的基因型。
8. 权利要求 2 或 7 所述的芯片, 其中所述的基因分型系统为 I l lumina 公司的 Inf inium芯片平台。
9. 权利要求 8所述的芯片, 其特征在于: 所述的芯片是指根据 SEQ ID NO: l至 SEQ ID NO:9000条 DNA序列利用 Infmium专利设计制造技术制作的芯片。
10. 权利要求 2-9之任一所述的芯片在水稻种质资源基因指纹分析中的应用。
11. 权利要求 2-9之任一所述的芯片在水稻杂交后代基因型鉴定中的应用。
12. 权利要求 2-9之任一所述的芯片在水稻品种鉴定中的应用。
13. 权利要求 2-9之任一所述的芯片在检测水稻育种材料中的应用。
经修改的权利要求
国际局收到日 : 06.2月 2014
1. 一种 SNP位点集合, 能对相应的水稻基因组 DNA多态性进行分型, 其特征在于所 述 SNP位点包含如 SEQ ID NO :广 9000所示的核苷酸序列。
2. 一种用于检测权利要求 1所述的 SNP位点集合的芯片, 其特征在于: 所述的芯 片可以用于相应 SNP位点的基因分型。
3. 权利要求 2所述的芯片, 其特征在于所述芯片还含有一套检测相应 SNP位点的核 苷酸探针, 所述核苷酸探针固定在至少一个固体载体上或至少一个微量滴定板 上。
4. 权利要求 所述的芯片, 其特征在于所述芯片还含有一套检测相应 SNP位点的核 苷酸探针, 所述核苷酸探针位于微量滴定板的单独的或不同的孔中。
5. 权利要求 2所述的芯片, 其特征在于所述芯片还含有一套检测相应 SNP位点的核 苷酸探针, 所述核苷酸探针位于所述固体载体上的不同的探询位置处。
6. 权利要求 2-5 之任一所述的芯片, 其中所述的核苷酸探针为 SNP位点的上下游 50bp左右的核苷酸序列, 可用于检测相应的 SNP位点。
7. 权利要求 2所述的芯片, 其中所述的基因分型, 其实验步骤包括: a)制作基因分 型用核苷酸探针和试剂; b )在基因分型系统上把探针和样本杂交并扫描, 获得所 分析样本在所述 SNP位点处的基因型。
8. 权利要求 2 或 7 所述的芯片, 其中所述的基因分型系统为 I l lumina 公司的 Inf inium芯片平台。
9. 权利要求 8所述的芯片, 其特征在于: 所述的芯片是指根据 SEQ ID NO: l至 SEQ ID NO.9000条 DNA序列利用 Infinium专利设计制造技术制作的芯片。
10. 权利要求 2-9之任一所述的芯片在水稻种质资源基因指纹分析中的应用。
11. 权利要求 2-9之任一所述的芯片在水稻杂交后代基因型鉴定中的应用。
12. 权利要求 2-9之任一所述的芯片在水稻品种鉴定中的应用。
13. 权利要求 2-9之任一所述的芯片在检测水稻育种材料中的应用。
修改页 (条约第 19条)
Description:
SNP位点集合及其使用旅与应用 技术领域
本发明涉及一种高密度的 SNP位点的集合及其使用方法与应用,具体涉及一种水稻高密 度的 SNP位点集合及其使用方法与应用, 属于水稻分子标记育种、 水稻品种指纹鉴定及功 能基因研究领域。
在育种实践及相关生物学研究的过程中, 分子标记起着极其重要的作用。 其重要性体 现在: (1 ) 定位或克隆调控特定农艺性状的基因; (2) 将新的目的性状整合到已有优良水 稻品种中, 同时保留该品种的其他理想性状, 比如难以观察的常规性状和转基因性状等; ( 3 ) 利用 DNA指纹准确鉴定不同水稻品种, 调查水稻品种的遗传学亲缘关系。
当前, 在国内外的育种中, 分子标记的使用越来越广泛。 分子标记有很多不同的种类, 包括 RFLP标记(Restriction Fragment Length Polymorphism,限制性片段长度多态性), RAPD 标记( Random Amplified Polymorphic DNA, DNA 随机扩增多态性), SSR 标记 (Simple Sequence Repeat, 微卫星标记 AFLP标记 (Amplified Fragment Length Polymorphism, 扩 增片段长度多态性), SNP分子标记 (Single Nucleotide Polymorphism, 单核苷酸多态性)
SNP 是最近发展起来的新一代分子标记, 具有丰度高、 检测易实现自动化等特点。 不 同水稻品种全基因组的序列测定及比较表明, SNP在水稻基因组上的分布极其丰富, 相比 于目前水稻育种中常用的 SSR标记要广泛得多。 目前 SSR在分子标记辅助育种及基因定位等 研究中的应用较多, 但由于基因组中 SSR存在不稳定性, 分布的密度相对较低, 基因分型较 难实现自动化等问题, 其应用有着很大的局限性。 SNP的突变率低, 尤其处于编码区的 SNP 是高度稳定的,其遗传稳定性要比 SSR等遗传标记高得多,遗传分析或基因诊断时的重现性、 准确性都优于 SSR。 绝大部分 SNP具有二态性, 非此即彼, 不像 SSR标记经常具有多种 DNA 片段的长度可能性, 有利于自动化的检测。尽管 SNP只有两种等位基因型, 单个位点上的多 态性信息量比 SSR等多等位基因型的信息量少, 但 SNP高频率的特性使其提供的总信息量很 高。 SNP易于开展高通量检测的特性, 注定了它更适于复杂性状的遗传分析。
检测 SNP的技术包括: 测序, PCR-RFLP, 不同等位的特异性杂交, Ligase chain reaction, TapMan, 单碱基延伸等。 基因分型公司 (如 Illumina Affimetrix等公司) 已 经开发了可以快速高效地进行 SNP基因分型的技术, 目前人类 (Murray SS, et al. A highly informative SNP linkage panel for human genetic studies. Nat Methods (-117)、 玉米 ( Mammadov JA, et al. Development of highly polymorphic SNP markers from the complexity reduced portion of maize [Zea mays L.] genome for use in marker-assisted breeding. Theor Appl Genet (7-588)等物种的高密度水稻 SNP芯片已经有广泛的应用。 但适用于育种 实践的高密度水稻 SNP芯片有待开发。
由于目前常规育种方法依赖于植株表型的选择, 很大程度上依赖于育种经验和机遇, 存在很大的盲目性和不可预测性, 分子标记辅助选择育种近年来越来越广泛的应用于育种 上( Wang C, Chen S, Yu S. Functional markers developed from multiple loci in GS3 for fine marker-assisted selection of grain length in rice. Theor Appl Genet (5-913)。 分子标 i己辅助选择 (marker assisted selection, MAS) 就是在基因或者 QTL ( quantitative trait locus, 数量性状位点) 定位的基础上, 利用目标基因或者 QTL与分子标记之间的紧密连锁关系进 行选择, 从而实现育种目标。 分子标记辅助选择育种能够提高选择的准确率与育种效率。 然而分子标记辅助选择依赖于与基因或者 QTL位点紧密连锁的分子标记, 高密度的分子标 记能够提高分子标记辅助选择育种的准确率。 因而高密度的 SNP芯片在水稻分子标记辅助 选择育种应用中有重要意义。
全基因组关联分析 (genome wide association study, GWAS ) , 是一种以连锁不平衡 (linkage disequilibrium, LD) 为基础, 鉴定某一群体内目标性状与基因组位点或候选基因关 系的分析方法。 植物全基因组关联分析是目前国际植物基因组学研究的热点之一, 在玉米 等物禾中中有着广泛的应用 ( Kump KL, et al. Genome-wide association study of quantitative resistance to southern leaf blight in the maize nested association mapping population. Nat Genet (-168; Riedelsheimer C, et al. Genome-wide association mapping of leaf metabolic profiles for dissecting complex traits in maize. Proc Natl Acad Sci U S A (72-8877; Tian F, et al. Genome-wide association study of leaf architecture in the maize nested association mapping population. Nat Genet (-162), 是对分子育种中 QTL分析的补充和提高。 然而在水稻的研究中, 由于没有有效的高密度 SNP位点集合, 使水稻关联分析变得经济可 行的一个有效的 SNP位点集合亟待开发。
作物中分子标记的另一个重要作用在于对不同品种的指纹鉴定。 随着中国作物育种研 究的不断进步和种子产业的快速发展, 品种数量显著增加。 水稻品种中就存在不同程度的 品种相同、 相似现象, 如果不能很好的对品种进行鉴定, 将会在品种的区域试验、 审定, 种子的生产、 销售等重要环节产生严重的问题, 并最终影响农业生产的稳定。 近年来, 随 着分子生物学的发展, 利用作物的分子标记来进行 DNA指纹鉴定已经成熟, 并逐步发展, 成为一种快速、 准确、 高效的鉴定方法。 以水稻中为例, 近几年中, 以 SSR为分子标记的 指纹鉴定技术已经被广泛推广使用,2007年 9月 14日中国农业部发布的农业行业标准《NYT
水稻品种鉴定 DNA指纹方法》 中即采用了此种技术, 并推荐了 12个 I类首选 SSR标记及另 12个 II类候补 SSR标记, 共 24个 SSR标记。 具体而言, 这 24个 SSR平均 分布在水稻 12个染色体上, 每条染色体两个, 除 6号染色体短臂 2个标记, 3、 7、 10和 12号染色体长臂各 2个标记外, 其余 7条染色体长短臂各 1个标记 (程本义等, 2008)。此套 SSR标记技术的准确性和可靠性较高, 实践中也具有良好的操作性和可重复性, 在对水稻 区域试验品种的鉴定中已作为标准方法使用。
但目前的 SSR分子标记作为水稻品种鉴定的 DNA指纹仍有明显的不足及缺陷。 由于 SSR标记数量较少, 即使取全部 24个 SSR作为品种的 DNA指纹, 每条染色体也仅有 2个 SSR标记, 而在 520个品种水稻的大规模测序数据中可以发现, 水稻每条染色体上都有 10 万位点以上的 DNA序列变异(Huang et, al, 2009), 仅取两个 SSR标记是无法代表 DNA序 列如此多的差异情况, 即使两个水稻品种在同一条染色体上检测出两个相同 SSR基因型, 因为不了解除此 2个 SSR之外大部分区域的基因型, 也完全无法判断两个水稻品种是否共 有相同的染色体。 如果要增加 SSR的数目来获取更多基因型信息, 则工作量会急剧增加。 同时 SSR的检测过程容易产生误差。
高通量的 SNP芯片可以很好地解决这些问题, 大大提高 DNA指纹鉴定技术的准确性 和检测效率。 第一, 高通量的 SNP芯片包含水稻染色体上平均分布的大量 SNP位点, 同时 检测水稻品种的近万个 SNP基因型, 获得品种充足的 "指纹"信息; 第二, 高通量的 SNP 芯片中, SNP之间染色体距离间隔小, 在 lOOkb 以内, 因此水稻品种中微小的变化也均能 被检测出; 第三, 利用高通量的 SNP芯片, 在对水稻进行品种鉴定时, 我们可以获得更多 有价值的信息, 如新品种与原有水稻品种的亲缘关系等, 这对农作物生产的品种安全有重 要意义。
为了更好地促进育种实践的进行和植物基因组学研究, 并提高 DNA指纹鉴定技术手 段, 本发明收集了包含所有当前已知水稻功能基因内部 SNP位点及全基因组均匀分布 SNP 位点的集合, 设计制备了高通量芯片, 并将其广泛应用于水稻 DNA指纹鉴定、 分子设计育 种及相关的应用和研究。
本发明的优点是 :1、 发明人所选择的 SNP位点基于大规模测序结果, 在基因组上均匀 分布, 不同水稻品种间均具有较好的多态性; 2、 在所有已知功能基因内部均挑选了 SNP 位点; 3、 Illumina的 Infmium技术平台本身具有通量高、 准确性好、 检测简便等特点, 我 们挑选的位点均非常适合在此平台上使用。
本发明旨在提供一种水稻高密度的 SNP集合, 该集合包含 9000个 SNP位点, 这些位 点在水稻基因组上呈现高密度均匀分布态势, 高度适用于水稻分子标记育种、 功能基因研 究及水稻 DNA指纹图谱鉴定的研究和开发, 所述 9000个 SNP位点如序列表中的 SEQ ID NO :1~9000所示。
本发明为了提供一种均匀分布于不同水稻品种间的 SNP位点集合, 选择了 590份水稻 种质进行重测序, 这 590份水稻材料中包含 420份籼稻和 170份粳稻, 具体所选材料的名 称如说明书中的附表 1所示, 通过测序分析, 本发明从不同水稻材料中获得了大量的水稻 品种之间的 SNP标记位点, 共 8,944,748个 SNP位点。 从这些位点中进一步挑选出高密度 的覆盖全基因组并且均匀分布的 SNP位点 7490个,具体所选位点及其在染色体上的位置如 说明书附表 2所示; 再挑选已知功能基因内部的 SNP位点 1510个, 具体所选位点及其在染 色体上的位置如说明书附表 2所示; 形成了共计 9000 个 SNP标记位点的集合。
为了使获得的 SNP位点集合适用于水稻多品种间的分析, 本发明在挑选 SNP标记集合 时, 采用了多种指标和算法对这些 SNP标记位点进行筛选。 包括基因组上均匀分布、 弱势 等位基因频率 (Minor Allele Frequency, MAF)、 连锁不平衡 (linkage disequilibrium, LD)、 非重复区域、 基因功能区等指标。
具体挑选流程如下:
(一) 本发明首先从 590份水稻种质的 SNP中, 选择了在大于等于 3份种质中可检测 到的高可靠性的 SNP位点, 共 5,680,149个。
(二) 从上述位点中筛选出在其上游或下游 55bp基因组序列范围内未检测到其余 SNP 或 InDel位点 (Insertion-deletion, 插入缺失标记) 的 SNP位点, 这样可以排除侧翼序列的 变异所造成的 SNP检测困难。
(三) 在此基础上, 进一步选择基因组非重复区域内的 SNP位点, 通过使用 blast软件 将 SNP位点的上游或下游 55bp序列与基因组比对, 确定大于 0.7—致性的为基因组重复区 域, 将其剔除, 最终获得 1,376,113个 SNP。
(四)为了评估所选 1,376,113个 SNP位点的探针工作效率,提高 SNP位点的分型实验 的成功率,本发明通过 Illumina infmium iSelect软件对所有 SNP位点进行打分,并选取了打 分 & 0.6的 740,786个 SNP。
(五)将水稻基因组平均分为 50kb的区间, 在每个区间内通过以下步骤和条件进一步 筛选合适的 SNP位点:
a) 选取同时符合下列条件的 SNP位点, 若有多个, 只保留一个满足条件的 SNP: 籼 稻中 MAF&0.2, 粳稻中 MAF &0.2, 籼稻粳稻合并统计 MAF &0.2;
b ) 若上一条标准未选到合适的 SNP位点, 则按照如下标准在每个区间选取 2个满足 条件的 SNP: 籼稻中 MAF最大值的 SNP, 及粳稻中 MAF最大值的 SNP。
通过上述选择流程,共获得在水稻基因组上平均分布的 7490个 SNP位点。这些水稻基 因组上平均分布的 7490 个 SNP 位点在水稻参考基因组日本晴 (MSU6.1 版本, http://rice.plantbiology.msu.edu/)上的位置列于附表 2中。在附表 2中, SNP名称前两个字母 " Os"表示水稻, SNP名称中所列的紧跟字母 osbwk或 osbwkg的两个数字表示染色体编号, 后面的 8 位数字为在该染色体上的具体位置, 最后三个字母中的前两个字母表示水稻中该 SNP位点上的两种核苷酸可能性, 最后一个表示探针设计在染色体正链还是负链。
(六) 根据已报道的 879个功能基因, 具体所选如表 2所示, 收集位于这些基因外显 子序列上的 SNP位点, 并去除不适合芯片探针设计的位点, 得到 8737个 SNP位点。
(七) 通过以下步骤在此 8737个 SNP中, 每个基因上挑选 2个 SNP:
a) 筛选符合 879个基因上的非同义突变位点, 在这些位点上选取 MAF值最大的 2个 SNP;
b ) 如果基因上 SNP无非同义突变位点, 选取 MAF值最大的 2个 SNP。
这样共获得位于功能基因中的 1510个 SNP位点。 这些功能基因中的 SNP位点在水稻 参考基因组日本晴 (MSU6.1版本) 上的位置及其两侧各 60bp的序列如附表 2所示, 该表 中 SNP名称的含义同上述第 (五) 条。
(八) 按上述流程所述, 最终一共获得含有 9000 个 SNP位点的高密度的 SNP标记集 合, 包括基因组上均匀分布的 SNP位点 7490个, 功能基因内部的 SNP位点 1510个。
本发明的所公开的 9000个 SNP位点集合列于附表 2中, 相邻位点之间的平均距离约 为 50Kb, 其在基因组上的分布情况如图 1所示。 图 2显示的是选取的 SNP集合在任意两个 代表性籼稻粳稻核心种质之间有效的 SNP位点数的分布情况 (任意挑选两个水稻品种, 分 析它们之间的有效 SNP数目)。 结果表明, 这套 SNP位点集合, 对于任意两个籼稻之间有 效 SNP的数目为 2000个左右, 任意两个粳稻之间的 SNP为 1500个左右, 任意一个籼稻和 一个粳稻之间的 SNP为 5000个左右。 本领域技术人员应该知晓, 在上述 SNP位点的选择方法及其在染色体上的物理位置公 开后, 任何人通过增加或减少部分不同水稻材料的测序结果分析, 从而获得的包含本发明 所公开的所有 SNP位点集合或其子集的集合, 都在本发明保护范围之内。
通过不同水稻材料测序结果, 使用相同或类似 SNP选择流程, 获得其他 SNP集合, 在 本发明保护范围之内。
在获得本发明所公开的 SNP位点后,通过确定该具体 SNP位点所在的基因或与该基因 连锁的 SNP位点后, 通过 PCR检测、 探针杂交、 芯片检测和试剂盒等设计和应用检测的方 法, 都在本发明保护范围之内。
通过对本发明所公开的 SNP位点集合进行深度挖掘, 挑出与一类农艺性状, 如株高、 株型、 抗逆性等相关的一组 SNP位点, 并应用于 PCR检测、 探针杂交、 芯片和试剂盒等设 计和应用检测的方法, 都在本发明保护范围之内。
本发明所获得的 SNP位点, 可以应用于任何能够检测出 SNP基因型的实验平台, 例如 Illumina、 Affimetrix、 Sequenom等公司的基因分型平台。 这些公司的分型平台的技术手段 各不同, 但原理是类似的。 通过合成检测 SNP标记的寡核苷酸探针的芯片或试剂盒, 然后 在相应的基因分型设备上用相应的 SNP分型技术进行基因分型。
通过上述平台所开发的包含本发明 SEQ ID NO: 1 -9000个 SNP检测位点的芯片在本发明 中又称为 Rice9K芯片, 或称 Rice9K, 或称 9K芯片。
在本发明公开了所有 SNP位点在染色体上的物理位置后, 可以通过公共渠道获得该位 点两侧的侧翼序列, 并通过相关软件进行探针设计, 从而获得可以检测该 SNP位点的有效 探针。
在本发明的实施例中, 发明人具体选择了 IUumina公司的 Infmium技术平台进行 SNP 芯片合成。 IUumina Infmium基因分型的探针设计及检测原理为: (1 )对 A/G、 A/C、 T/G和 T/C四种 SNP多态性, 只需要设计一个探针终止在 SNP位点的相邻位点, 检测过程中完成 一个双脱氧核糖核苷酸(ddNTP) 的延伸, 碱基 A和 T染色为一种颜色, 而碱基 C和 G染 色为另一种颜色, 由此可以区分 SNP的两种等位性; (2)对 A/T和 C/G两种多态性, 需要 设计两个探针,终止在 SNP位点处,差别仅在于最后一个核苷酸,对应 SNP的两种可能性。 通过检测这两个探针是否能够延伸来区分 SNP的两种等位可能性。
根据上述探针设计的原则, 经过实验验证, 我们获得了用于 IUumina Infmium平台的最 优探针, 检测每个 SNP位点的探针序列为紧邻 SNP位点的上游 50bp的核苷酸序列。
本发明的有益效果是构建了水稻的高密度的 SNP位点标记集合,这些 SNP位点具有很 高的多态性并且均匀的分布在整个基因组上 (高多态性保证了应用过程中 SNP位点的有效 性, 全基因组的均匀分布确保了分析结果的全面性和可靠性)。 另外, 功能基因上的 SNP位 点满足了功能基因相关的育种或研究的需求。
本发明的重要的意义是提供了高效和覆盖水稻全基因组的高密度 SNP标记位点集合,适 用于水稻的品种鉴定、 混杂分析、 分子标记辅助育种以及分子遗传学研究。 如背景技术中 所述, 在作物遗传育种中, 利用分子标记进行辅助选择可以提高选择的准确率与育种效率, 然而在我国开展得很不充分。 同样, 植物基因组关联分析是目前国际流行的研究方法, 然 而没有有效的水稻的 SNP位点集合,目前仅有一个实验室通过高通量测序进行水稻的关联分 析, 数据分析需要较高技巧, 大部分实验室没有办法实现。本发明提供这样一个有效的 SNP 位点集合使水稻关联分析变得经济可行。 同时, 在基因定位、 QTL分析等研究中, 该 SNP 集合可以大大提高基因分型的效率和通量。
另外, 在水稻育种过程中, 在田间的实验经常出现不可控制的品种的混杂, 这给育种的 实验设计时亲本的选择带来混乱从而导致育种的失败,本发明的 SNP集合为品种鉴定和混杂 分析提供了经济可行和高效的工具。 核心水稻亲本的谱系分析能够探明水稻的重要农艺性 状 (包括产量、 品质、 抗性等) 演变与单倍体型或基因传递的关系, 从而指导水稻亲本的 改良, 因而本发明的 SNP集合提供了研究谱系的变化的高解析度的标记位点。
在杂交育种工作中, 亲本的选择至关重要, 通常亲缘关系较远的亲本能够较大地改良 性状, 亲缘关系较近的亲本能够快速改良个别性状。 然而仅从表型很难准确判断亲本的亲 缘关系, 因而需要对水稻的亲本做基因型的鉴定从而分析它们的亲缘关系, 本发明的 SNP 集合提供亲本亲缘关系分析有效的手段。 数量性状位点定位 (QTL mapping)广泛地应用于 水稻的育种过程中,越高密度的位点标记能够得到越精确的定位, 本发明的 SNP集合提供全 基因组均匀分布高密度的标记集合, 可以使水稻 QTL定位得更精确, 进一步可以提高利用 QTL位点进行水稻育种的效率。
总之, 本发明构建的高密度 SNP位点集合不但使大规模的水稻分子标记辅助育种和全 基因组关联分析成为可能, 并且为品种鉴定、 混杂分析、 谱系分析以及 QTL定位分析等提 供经济可行、 高效并且高解析度的工具。 本发明的 SNP位点在水稻育种领域诸多的应用, 能够促进水稻育种的发展, 有望在数年内使我国的分子设计育种领域有重要突破。
通过本发明获得的 SNP位点集合, 其具体实施方式通过以下步骤进行:
a)探针制备, 在 Illumina、 Af ymerix Sequenom或其他可以进行寡聚核苷酸合成的基 因分型公司定制含有检测 9000 个 SNP标记的寡聚核苷酸探针的芯片或试剂盒, 本发明针 对 Illumina芯片技术平台所开发的寡聚核苷酸探针为序列表 SEQ ID NO:1?9000所列核苷 酸序列的第 11位至第 60位的核苷酸,即紧挨每个 SNP多态性位点的上游 50bp为本发明所 提供的针对 IUumina芯片技术平台的探针序列。
b) 样本 DNA提取, 按照所设计的水稻育种或者其他生物学研究相关实验收集所需要 的样本。 根据所定制的基因分型芯片或试剂盒的要求, 提取并获得特定浓度的样本基因组 DNA, 并以适当条件保存。
c) SNP标记位点的基因分型, 按照定制的芯片或试剂盒的要求, 在相应的基因分型系 统中通过样本基因组 DNA和 SNP标记的寡聚核苷酸探针的杂交等反应得到 SNP标记位点 的基因型。
d) 基因分型数据分析, 对基因分型的初步结果进行质量控制, 选择高可靠性的位点。 然后将 SNP 标记位点的基因型和关于水稻育种或者其他生物学研究相关的实验设计相结 合, 选择相应的数据分析方法, 得到相应的结果。 实验设计以及数据分析方法参见具体的 实施例。
本发明与现有技术相比, 具有以下优点和效果:
1、 与传统分子标记如 SSR相比, 具有通量高、 单个标记数据成本低等优势。利用传统方法 在水稻基因组开发 200个多态性 SSR标记已经很困难, 而 Rice9K育种芯片在检测任意 两个品种、 两个籼稻品种、 两个粳稻品种或一个籼稻品种和一个粳稻品种, 分别平均可 以获得约 3,100、 2,400、 1,800、 4,400个高质量的多态性 SNP位点。
2、 与其他基于基因芯片平台的基因分型系统相比, 具有重复性好、 通量高、 数据分析简单 等优势。 Rice9K育种芯片检测水稻样品的技术重复性能够达到 99.99%以上, 这是目前 其他基因分型平台很难达到的。
3、 与基于第二代测序平台的基因分型系统相比, 具有数据分析简单和不同实验室数据之间 具有可比性等优势。 随着测序技术的发展, 测序成本不断降低、 测序通量也不断提高。 但是, 测序数据分析的要求也越来越高, 需要专业的分析软件和生物信息学专业人士才 能分析, 而 Rice9K育种芯片平台的数据分析非常简单; 测序具有随机性, 不同批次的 低覆盖度测序数据很难进行直接比较, 深度测序成本目前仍然很高, 而 Rice9K育种芯 片上的大部分标记都是固定的, 不同批次数据比较起来非常方便。 然而, 第二代测序系 统产生的大量测序数据为基因芯片的设计提供了重要的基础数据。 所以, 第二代测序和 基因芯片系统具有互补性。 4、 本发明的 Rice9K芯片与已公开的中国发明专利 .X相比具有更广泛的适 用性。 中国发明专利 . X 的芯片设计主要针对籼稻和粳稻两个亚种间杂交 群体的鉴定和分型, 因此设计时选取每 lOOkb内两个籼粳水稻亚种间基本固定的 SNP。 这一选择方案局限了芯片的使用范围, 对于实际育种工作中主要面对的同一亚种内的杂 交群体以及相近的品种难以起到良好的分型效果, 实际测试籼稻内部以及粳稻内部平均 两两品种检测到得多态性位点仅有 1046和 813个。 而本发明的 Rice9k芯片设计目标为 水稻中广泛适用的基因型鉴定和分型芯片, 优先选取在籼稻与粳稻中 MAF均大于 0. 2的 SNP, 辅助以在一个亚种中 MAF大于 0. 2的 SNP, 这样选取的 SNP就有良好的适用性, 在 籼稻内部以及粳稻内部平均两两品种检测到得多态性位点平均达到 2400和 1800个, 对 两个亚种间的多态性位点更是达到 4400个。 另外, 本发明对于收集的 879个水稻已知 基因设计了 1510个 SNP, 可以直接应用于育种中, 而中国发明专利 . X中 仅包含 40个这样的探针。 综上, 中国发明专利 . X是一款应用范围很局限 的芯片, 本发明的 Rice9k芯片具有广泛普适性, 可应用于各种水稻品种和群体的实际 育种工作。 附图说明
图 1是 9000 个 SNP位点在水稻全基因组的分布情况。
图 2是利用 38个具有遗传多样性代表性的水稻核心种质来检测任意两个籼稻、 两个粳 稻、 一个籼稻一个粳稻之间有效的 SNP位点数的分布情况。 横坐标是有效 SNP数, 纵坐标 是出现相应 SNP位点数目的水稻配对组数。
图 3是在 Illumina GenomeStudio 中使用两种方法对 SNP位点聚类的结果。黄色的位点 为一组亲本及其杂合子 (Pl, P2, Fl ), AA、 AB、 BB为聚类的三种基因型的结果, 分别 为纯合、 杂合、 纯合。
图 4是 4份黄华占样品的 SNP位点分型比较示意图。 图中灰色标志为与标准黄华占一 致的 SNP位点, 而红色标志为与标准黄华占不一致的 SNP位点。
图 5是黄华占及其 EMS诱变突变体的 SNP位点分型示意图。图中灰色标志为与野生型 黄华占一致的 SNP位点, 而红色标志为与野生型黄华占不一致的 SNP位点。
图 6是基于 SNP位点分析的 65个水稻核心种质的聚类图。图中绿色标志为与日本晴一 致的 SNP位点, 红色标志为与日本晴不一致的 SNP位点, 黄色为杂合位点, 白色为缺失位 点。 图 7是黄华占谱系的单倍体型分析图。左边是黄华占的谱系;右边图中的灰色表示单倍 型可能从任一亲本中获得, 其他颜色表示单倍体型来源的品种, 从下往上第一个出现某种 颜色的品种即是黄华占中相应单倍体型来源的品种。
图 8是黄华占及其衍生品种的 SNP位点分型示意图。 图中灰色标志为与黄华占一致的 SNP位点, 而红色标志为与黄华占不一致的 SNP位点。
图 9是谷梅 4号、 R608及其它们杂交产生的 6株 BC5F1的 SNP位点分型示意图。 图 中灰色标志为与 R608—致的 SNP位点, 红色标志为与 R608不一致的位点, 黄色标志为杂 合 SNP位点, 谷梅 4号中黑色标志为稻瘟病抗性基因的位置。
图 10是黄华占谱系的直链淀粉性状关联分析的曼哈顿图。
图 11是 9311与日本晴重组自交系基因分型示意图。 图中绿色标志为与日本晴一致的 SNP位点, 红色标志为与日本晴不一致的 SNP位点, 黄色为杂合位点, 白色为缺失位点。 发明详述
本发明提供了一组覆盖水稻全基因组的 SNP位点, 共包含 9, 000个标记位点, 与这些 标记位点相关的分离的核酸分子具有如序列表中 SEQ ID NO : 1?9000所示的核苷酸序列和 特征。 这些 SNP位点是通过对水稻基因组 DNA进行测序并通过计算机分析确定多态性而发 现的。 这些 SNP标记可用于多种基因分型的应用。 本发明的多态性水稻基因座包括至少 12 个连续的核苷酸, 该核苷酸序列包括或邻近于本发明中确定的多态性位点 (即 SNP位点), 所述 SNP位点对应的基因编码号、 及其单核苷酸多态性、 及与该 SNP位点相邻的核苷酸序 列如表 2和序列表中的核苷酸序列 SEQ ID NO : 1-9000所示。 从表 2可以看出, 本发明所确 定的单核苷酸多态性也已具体定位到水稻染色体上。
下面将详细说明基于上述 SNP位点在水稻植物基因分型中的应用。 分离的核酸分 ? ~~
3/4 因座、 引物和探针
本发明的水稻基因座包括一系列分子标记, 其包括至少 20个连续核苷酸, 并包括或邻 近于表 2中确定的一种或多种多态性。 这些水稻基因座的核酸序列与包括或邻近多态性的水 稻 DNA片段任一链中相同核苷酸数的序列有至少 90%的序列同一性, 更优选至少 95%, 或甚至 更优选对于某些等位基因至少为 98%, 在许多情况下至少为 99%的序列同一性。 可以在序列 表 SEQ ID NO : 1?9000的序列中找到这样的水稻 DNA片段的一条链的核苷酸序列。 根据多态 性的性质可以理解, 对于至少某些等位基因, 与公开的多态性本身没有同一性。 因此, 对 于除公开的多态性序列外的序列, 可以确定序列同一性。 换句话说, 预计对于本发明公开 的多态性的其它等位基因可能存在, 可以容易地通过测序方法表征, 且可以用于基因分型。 例如, 本领域的技术人员可以理解, 对于其中仅仅公开了两个多态性残基 (例如, "A', 或 "G")的单核苷酸多态性也可以包括其它多态性残基 (例如, 〃T', 和 /或 " G")。
本发明中每个基因座中的多态性更具体地列在表 2中。 SNP尤其可以用作遗传标记, 因 为它们比其它种类的多态性更稳定, 且在水稻基因组中是丰富的。 SNP可以由插入、 缺失和 点突变产生。 在本发明中, SNP可以代表一个可能由一个或多个碱基对组成的插入与缺失 (indel )事件, 或单核苷酸多态性。 两个或多个个体共有的多态性可能产生于源自共同祖 先的个体。 这种 "来源同一性' ' ( IBD )表征由两个或多个个体携带且全部来自同一祖先 的两个 DNA基因座 /片段。 "状态同一性" ( IBS)表征由两个或多个个体携带并且在那些基因 座处具有可检测到的相同等位基因的两个 DNA基因座 /片段。 当考虑一大组作物系, 并且多 个系在标记基因座处具有相同的等位基因时, 有必要确定标记基因座处的 IBS是否是标记基 因座周围的染色体区域处的 IBD的可靠预测。 一个片段中的大量标记基因座足以表征该片段 的 IBD的一个指示是, 它们能够预测该片段内其它标记基因座处存在的等位基因。 除了它们 很少独立出现这一事实外, SNP的稳定性和丰富性使它们可以用于确定 IBD。
对于许多基因分型应用, 采用来自一个以上的基因座的多态性作为标记是有用的。 因 此, 本发明的一方面提供了核酸分子的集合, 其允许对不同基因座的多态性进行分型。 在 这样的集合中的基因座的数目可以不同, 但将是有限的数值, 例如, 少至 2或 5或 10或 25个 基因座或更多, 例如最多达 40或 75或 100个或更多的基因座。
本发明的另一方面提供能够与本发明的多态性水稻基因座杂交的分离的核酸分子。 在 本发明的某些实施方案中, 例如, 提供 PCR引物的实施方案中, 这样的分子包括至少 15个核 苷酸碱基。 可用作引物的分子可以在高严格条件下与本发明的多态性基因座中的 DNA片段的 一条链杂交。 用于扩增 DNA的引物成对提供, 即正向引物和反向引物。 一条引物与基因座中 的 DNA的一条链互补, 而另一条引物与基因座中的 DNA的另一条链互补, 即引物序列与一条 链中相同核苷酸数目的序列优选地至少 90%相同, 更优选地至少 95%相同。 可以理解, 这样 的引物可以与远离多态性(例如, 距多态性至少 5、 10、 20、 50、 100、 200、 500或最多 大约 1000个核苷酸碱基)的基因座中的序列杂交。 本发明的引物的设计取决于本领域内熟知 的因素, 例如, 避免或重复序列。
本发明的分离的核酸分子的另一方面是用于多态性试验的杂交探针设计。 在本发明的 一方面, 这样的探针是包含至少 12个核苷酸碱基或可检测的标记的寡核苷酸序列。 所述探 针序列在高严谨条件下, 可与包括或邻近于多态性基因座扩增部分中的目标多态性的核苷 酸碱基片段中的 DNA的一条链杂交。 这样的寡核苷酸序列与多态性基因座中水稻 DNA—条链 中相同核苷酸数目的片段的序列优选具有至少 90%的相似性, 更优选地至少 95%的相似性。 该可检测的标记可以是放射性元素或染料。 更优选地, 杂交探针可进一步包括荧光标记和 猝灭剂, 例如, 可用于可从 AB Biosystems获得的被称为 Taqman试验的类型的杂交探针试验。
本发明的分离的核酸分子在一定条件下能够与包括但不限于水稻基因组 DNA、 克隆的 水稻基因组 DNA和扩增的水稻基因组 DNA的其它核酸分子杂交。 在本发明中, 如果两个核酸 分子能够形成反平行双链核酸结构, 那么这两个分子被称为能够彼此杂交。 如果两个核酸 分子表现出 "完全的互补性", 即, 一个序列中的每个核苷酸都与另一序列中的碱基配对核 苷酸互补, 则称一个核酸分子与另一核酸分子 "互补"。 如果两个分子在至少常规的 "低严 谨" 的条件下能互相杂交, 并且具有足够的稳定性, 从而允许它们保持彼此退火, 则称这 两个分子是 "最低限度互补的"。 类似地, 如果两个分子在常规的 "高严谨" 的条件下能互 相杂交, 并且具有足够的稳定性, 从而允许它们保持彼此退火, 则称这两个分子是 "互补 的"。 例如至少在低严格条件下与其它核酸分子杂交的核酸分子被称为该其它核酸分子的 "可杂交同族物,,。 Sambrook等人, Molecular Cloning, A Laboratory Manual, 2nd Ed. , Cold Spring Harbor Press, Cold Spring Harbor, New York (1989)禾口 Haymes等人, Nucleic Acid Hybridization, A Practical Approach, IRL Press, Washington, DC (1985)描述 了常规的严谨条件, 本发明引入以上文献作为参考。 因而偏离完全互补性是允许的, 只要 这种偏离没有完全消除该分子形成双链结构的能力。 因此, 为了使核酸分子用作引物或探 针, 只需要在序列上充分互补, 以在所采用的特定的溶剂和盐浓度下能够形成稳定的双链 结构。
鉴定多态性
SNP是序列变异的结果, 新的多态性可以通过对随机基因组或 cDNA分子进行测序而检 测。 在一方面, 可以通过比较不同系的 cDNA序列来确定基因组中的多态性。 尽管通过比较 cDNA序列检测多态性相对方便, 但是 cDNA序列的评估无法获得关于相应基因组 DNA中的内含 子位置的信息。 此外, 不能从 cDNA确定非编码序列中的多态性。 这是一个缺点, 例如, 当 使用源自 cDNA的多态性作为对基因组 DNA进行基因分型的标记时。 如果多态性的范围内包括 那些存在于非编码独特序列中的多态性, 则可以设计更有效的基因分型试验。
基因组 DNA序列在鉴定和检测多态性方面比 cDNA更有用。 可以通过比较不同系的基因组 DNA序列来确定基因组中的多态性。 然而, 高等真核生物的基因组 DNA—般包含高比例的重 复序列和转座子。 如果通过减去或消除重复序列来富集编码 /独特部分, 则可以更有效地对 基因组 DNA测序。
对水稻基因组 DNA样品中的多态性的分型
通过本领域熟知的多种有效方法可以检测 DNA序列中的多态性或对其进行分型, 这些方 法包括但不限于那些在美国专利 5, 468 613和 5, 217, 863、 5, 210, 015、 5, 876, 930、 6, 030, 787、 6, 004, 744、 6, 013, 431、 5, 595, 890、 5, 762, 876、 5, 945, 283、 5, 468, 613、 6, 090, 558、 5, 800, 944和 5, 616, 464中公开的方法, 本发明完整引入这些专利作为参考。 然而, 本发明的 SNP标记可以与任一种多态性分型方法结合使用, 以对水稻基因组 DNA样品中的多态性进行 分型。 所用的这些水稻基因组 DNA样品包括但不限于直接从水稻植株中分离出的水稻基因组 DNA、 克隆的水稻基因组 DNA或扩增的水稻基因组 DNA。
例如, 如美国专利 5, 468, 613和 5, 217, 863所公开的, 通过与等位基因特异性的寡核苷 酸 (AS0)探针杂交可以检测 DNA序列中的多态性。 美国专利 5, 468, 613公开了等位基因特异性 的寡核苷酸的杂交, 其中, 通过以下程序可以对核酸检测核酸序列中的一个或多个核苷酸 变异, 在该程序中, 扩增含有核苷酸变异的序列, 点样到膜上, 并用标记的序列特异性寡 核苷酸探针进行处理。
也可以通过美国专利 5, 800, 944公开的探针连接方法检测靶核苷酸序列, 其中, 扩增目 标序列, 并将其与探针杂交, 接着进行连接以检测该探针的标记的部分。
微阵列也可用于多态性检测, 其中, 以重叠的方式组装寡核苷酸探针组以代表一种序 列, 这样, 靶序列在一个点的差异会导致部分探针杂交(Borevitz等人, Genome Res. 13 : 513-523 (2003); Cui等人, Bioinformatics 21 :
(2005) )。 在任何一个微阵 列上, 预计会有多个靶序列。 它们可以代表基因和 /或非编码区, 其中每个靶序列由一系列 重叠的寡核苷酸, 而不是由一个探针所代表。 该平台允许高通量筛选多种多态性。 单特征 多态性 (SFP)是通过寡核苷酸阵列中的单探针检测的多态性, 其中, 特征是阵列中的探针。 美国专利 6, 799, 122、 6, 913, 879和 6, 996, 476公开了通过基于微阵列的方法对靶序列的分 型。
也可以通过美国专利 5, 616, 464公开的探针连接方法检测靶核酸序列, 该方法采用至 少一对探针, 该探针具有与靶核苷酸序列的相邻部分同源的序列且具有侧链, 所述侧链在 所述探针与所述靶核酸序列碱基配对时非共价结合以形成茎。 至少一个侧链具有光可活化 的基团, 该基团可以与茎的其它侧链成员形成共价交联。
检测 SNP的其它方法包括单碱基延伸(SBE)方法。 在一种优选的检测多态性的方法中, 可以通过美国专利 5, 210, 015、 5, 876, 930和 6, 030, 787中公开的方法检测 SNP和 Indel。 一种 有用的试验是可从 AB Biosystems获得的 Taqman试验。
应用多态性建立^ B/性状关联
本发明的基因座中的多态性可用于标记 /性状关联的鉴定, 这种关联是从群体成员的基 因型和表型的统计分析推断出的。 这些成员可以是单个生物体, 例如水稻, 密切相关的个 体的家族、 近交系、 密切相关的个体的加倍的单倍体或其它群体。 这样的水稻群体被称为 "系", 表示起源系。 群体可以起源于两个个体或两个系 (例如, 定位的群体)之间的单个杂 交, 或者, 它可以由具有多个起源系的个体组成。 每个个体或系的特征在于单个或平均的 性状表型和在一个或多个标记基因座处的基因型。
可以利用几种类型的统计学分析从表型 /基因型数据推断标记 /性状的关联, 但一个基 本的目的是检测分子标记, 即多态性, 对于多态性, 可替代的基因型具有显著不同的平均 表型。 例如, 如果给定的标记基因座 A具有 3个可替代的基因型 (AA, Aa和 aa ), 且如果那 3 类个体具有显著不同的表型, 那么可以推断基因座 A与该性状相关。 可以通过几种类型的标 准统计学检验测试表型的差异的显著性, 如分子标记基因型对表型的线性回归或方差分析 (ANOVA) 通常用来进行这种类型的分析的市售统计软件包括 SAS Enterprise Miner (SAS Institute Inc. , Cary, NC)禾口 Splus (Insightful Corporation. Cambridge, MA)。 当同 时测试许多分子标记时, 在宣布关联所需的显著性水平上进行如 Bonferonni修正的调整。
为了 QTL作图, 包括的标记应当是来源特征性的, 以对随后的群体作出推断。 基于 SNP 的分子标记对于作图是理想的, 因为特定的 SNP等位基因源自特定物种的现存群体中的独立 来源的可能性极低。 因此, SNP标记可用于示踪和协助 QTL的渗入, 特别是在单元型的情况 下。
通常, 关联研究的目标不只是检测标记 /性状关联, 还可评估直接影响性状的基因(即, QTL)相对于标记位置的位置。 在实现该目标的一个简单的方法中, 在标记基因座之间比较 替代基因型之间的差异大小或差异显著性的水平。 推断性状基因位于最接近具有最大相关 的基因型差异的标记处。 可以通过基因作图模型建立另外的标记分子的遗传连锁, 所述基 因作图模型例如, 但不限于, Lander等人(Lander等人, Genetics, 121 : 185-199 (1989) ) 报道的侧翼标记模型, 和区间作图(interval mapping ), 其基于其中所述的最大似然法, 并用软件包 MAPMAKER/QTL执行。另外的软件包括 Qgene, Version 2. 23 (1996) , Department of Plant Breeding and Biometry, 266 Emerson Hal l, Cornel l University, Ithaca, NY。 使用 Qgene软件是一种特别优选的方法。 遗传图谱的构建
在本发明的另一方面, 本发明的基因座中的多态性定位于水稻基因组上, 例如, 作为 水稻基因组的遗传图谱, 其包括如表 2所示的两种或多种多态性的图谱位置。 这种遗传图谱 如图 1所示。 遗传图谱数据也可以记录在计算机可读介质上。 本发明的优选实施方案可提供 高密度的多态性遗传图谱 (例如在水稻基因组图谱上有至少 5000种多态性存在于同一亚种 内, 至少 20000种多态性存在于不同亚种之间)。 特别有用的遗传图谱包括在连锁群上的平 均距离不超过 0. 02厘摩(cM)的多态性。
连锁不平衡作图和关联研究
另一种确定性状基因位置的方法是分析其中个体的性状和标记基因座都不同的群体中 的标记 /性状关联。 在该群体中, 由于群体的遗传过程, 如突变的独特起源、 建立者事件 (founder events )、 随机漂变和群体结构, 某些标记等位基因可能与某些性状基因座等位 基因相关联。 这种关联被称为连锁不平衡。
在植物育种群体中, 连锁不平衡 (LD)是离开群体中两个或多个基因座之间的随机关联 的水平, 且 LD往往存在于大的染色体片段上。 虽然有可能关注该片段中每个基因的单独效 应, 但是对于实际的植物育种来说, 一般强调当区域存在于系、 杂种或变种中时对目标性 状的平均影响。 在连锁不平衡作图中, 比较在标记基因座处具有不同基因型的个体的性状 值。 通常, 显著的性状差别表明标记基因座与一个或多个性状基因座之间非常接近。 如果 标记密度适当地高, 且连锁不平衡只在染色体上非常紧密连锁的位点之间发生, 那么性状 基因座的位置可以非常精确。
辅助的育种和 辅助的选择
当数量性状基因座 (QTL)已被定位于分子标记的附近时, 这些标记可以用来针对提高的 性状值进行选择, 而无需在每个选择循环时进行表型分析。 在标记辅助的育种和标记辅助 的选择中, 首先通过遗传作图分析建立 QTL与标记之间的关联。 在同样的过程中, 确定哪些 分子标记等位基因与有利的 QTL等位基因连锁。 随后, 在群体中选择与有利的 QTL等位基因 相关联的标记等位基因。 如果在标记与 QTL之间有足够紧密的连锁, 此过程将提高性状值。 所需的连锁程度取决于选择的代数, 因为在每一代, 有机会通过重组打破关联。
特定标记等位基因与有利的 QTL等位基因之间的关联还可以用于预测哪些类型的后代 可以从给定的杂交中分离。 这种预测可以允许选择适合于产生群体的亲本, 从该群体中装 配有利的 QTL等位基因的新组合以产生新的近交系。 例如, 如果系 A在基因座 1、 20和 31处 具有以前已知与有利的 QTL等位基因相关联的标记等位基因, 而系 B在基因座 15、 27和 29处 具有与有利的效应相关联的标记等位基因, 那么可以通过杂交 A X B并选择在全部 6个 QTL处 具有有利的等位基因的后代来开发新系。
本发明所提供的 SNP分子标记还可用于加速转基因向新的遗传背景中的渗入(SP, 进入 不同范围的种质中)。 简单的基因渗入包括使转基因系与优良近交系杂交, 然后使该杂种与 优良 (轮回)亲本反复回交, 同时针对转基因的保持进行选择。 经过多代回交, 通过重组和 分离, 初始转基因系的遗传背景逐渐被优良近交系的遗传背景所取代。 通过根据源自回交 亲本的分子标记等位基因进行选择, 可以加速这个过程。
此外, 近交系的指纹是在一组两个或多个标记基因座处等位基因的组合。 高密度指纹 可以用来建立和追踪种质的身份, 种质身份可用于建立标记-性状关联的数据库, 以益于整 个作物育种程序, 以及种质所有权的保护。
选择用于植物育种的亲本、后代或测鄉物的旅
本发明所提供的 SNP多态性集合还可以用于为植物育种选择亲本、 后代或测试植物。 从 表型上无法区分的植物群体中选择这些植物的能力可以加速植物育种并减少因进行表型性 状分析而导致的费用。 选择用于育种的植物的方法包括以下步骤: a)确定表 2中确定的多种 多态性与至少第一和第二水稻近交系中的多种性状之间的关联; b)确定亲本、 后代或测试植 物中的一种或多种多态性的等位基因状态;和 c)选择具有更有利的相关性状组合的亲本、 后 代或测试植物。 在某些应用中, 通过这种方法选择的亲本、 后代或测试植物是水稻近交系。 在其它实施方案中, 相关性状的有利组合提供了改善的杂种优势。
在一个实施方案中, 确定至少两种多态性的基因型有助于选择用于育种杂交的亲本。 这种确定给育种者提供了产生杂交的优势, 其中针对至少两个优选的基因组区域, 以产生 具有至少两个优选的基因组区域的后代。 在另一方面, 确定至少两种多态性的基因型可以 为在后代中作出选择决定提供基础, 其中, 那些包含优选的基因组区域的后代在育种计划 中被选出。 在另外一方面, 可以选择用于评估近交系在杂种组合中的组合能力的测试系, 纳入基于存在或不存在至少两个基因组区域的近交测试计划中, 以确保在不同的种质库(即 不同的杂种优势群)之间进行杂交。
通过在两个属于不同的 "杂种优势群" 的优良近交系之间进行杂交而产生商品玉术种 子。 这些群在遗传学上足够不同, 使得它们之间的杂种显示高水平的杂种优势(即, 相对于 亲本系性能提高)。 通过分析优良杂种的标记组成, 可以鉴定在良好组合产生杂种优势的父 本和母本中的不同基因座处的等位基因组。 认识这些模式并了解不同近交系的标记组成。 可以预测不同对品系之间的杂种优势的水平。 这些预测可以减少应使用相反杂种优势群的 哪些品系测试新近交系的性能的可能性。
本发明提供了用于提高杂交水稻的杂种优势的方法。 在这些方法中, 在与本发明多态 性基因座连锁的多种多态性与两个以上的水稻近交系中的性状之间建立关联。 选择两个这 样的具有预测可提高杂种优势的互补性杂种优势群的近交系用于育种。 提高杂种优势的方 法包括以下步骤:(a)确定表 2中确定的多种多态性与两个以上的水稻近交系中的多种性状 之间的关联;(b)将选自步骤 (a)的近交系的两个近交系分配至杂种优势群;(c)在步骤 (b)的 至少两个近交系之间进行至少一次杂交, 其中, 每个近交系来自不同的和互补的杂种优势 群, 并且其中, 对于提高杂种优势的遗传特征优化互补杂种优势群;和((d)通过步骤 (c)的 所述杂交获得杂种后代植物, 其中, 相对于与未经选择的近交系杂交产生的后代, 所述杂 种后代植物显示提高的杂种优势。 这些方法还可以在步骤 (c)中包括传统的单杂交 (即, 两个近交系之间, 理想地来自不同的杂种优势群)、 三元杂交(单杂交后, 与第三近交系杂 交)和双杂交 (也称为四元杂交, 即两个单杂交的后代杂交)。 可以通过在选择的雄性能育亲 本之间进行手工杂交或通过使用雄性不育杂交系统实现杂交。 在 Bernardo, Breeding for Quantitative Traits in Plants, Stemma Press, Woodbury, MN, 2002中描述了优良近交 系的开发和选择、 这些系的杂交和选择优良杂种杂交鉴定新的优良水稻杂种。
遗传来源同一性
杂种优势的一种理论预测, 产生杂种的父本和母本之间的遗传来源同一性(IBD)区域会 降低杂种优势。 可以从不同系中的标记等位基因的模式推断遗传来源同一性。 如果在一系 列邻近的基因座处的一串相同标记不可能偶然地独立发生, 则可以认为它们是遗传来源同 一的。 父本和母本中的标记指纹分析可以鉴定 IBD区域。 对这些区域的知识有助于选择杂种 亲本, 因为在杂种中避免 IBD可能提高杂交优势。 这些信息也有助于制定育种计划, 以设计 杂交产生很少或没有 IBD的父本和母本组合。
用于基因分型的 SNP集合
本发明提供的 SNP位点集合可用于与水稻种质改良相关的实验, 包括但不限于使用植物 进行杂交育种, 对植物的进一步的遗传或表型测试, 植物通过自体受精的改进, 使用植物 或其部分进行转化, 以及使用植物或其部分进行诱变。 可以对 SNP位点集合中的不同组核酸 进行采样, 检测, 或者对其任何组、 亚组或组合单独进行检测, 以对本发明表 2中提供的任 何水稻基因组 DNA进行分型。 一般来说, SNP位点集合包括至少两组不同的核酸分子, 其中 所述不同核酸分子组中的每一个允许对表 2中确定的相应的水稻基因组 DNA多态性进行分 型。
在一个实施方案中, 允许对表 2中确定的相应的水稻基因组 DNA多态性进行分型的不同 组核酸分子分布于微量滴定板的各个孔中。 在某些实施方案中, 微量滴定板的每个孔中包 含一种或多种可以对表 2中确定的仅一种水稻多态性进行分型的核酸分子。 但是, 也涉及其 它实施方案, 其中, 微量滴定板的每个孔中包含一种或多种可以对表 2中确定的一种以上的 水稻多态性进行分型的核酸分子。 微量滴定板可以具有少至 8个孔, 或多达 24、 96、 384、 1536或 3456个孔。 微量滴定板可以由以下材料制造, 包括但不限于, 聚苯乙烯、 聚丙烯或 环 -烯烃塑料。 每个孔中的核酸分子可以在溶液中或是干燥的(即, 冻干形式)。 通常, 核酸 分配到微量滴定板的孔中, 使得微量滴定板每孔中的核酸是已知的。 但是, 在核酸分子与 独特的标识物 (如独特的染料或其它独特的识别标记)相关联的其它实施方案中, 核酸可以 随机地分配到微量滴定板的孔中。 从本说明书中可以清楚地看出, 也涉及包括分配在微量 滴定板孔中的、 固定于固体载体 (如珠子)上的核酸的集合。
在其它实施方案中, 允许对表 2中确定的水稻基因组多态性进行分型的核酸固定(S卩, 共价连接)于固体载体上。 固体载体包括但不限于珠子、 芯片、 阵列或过滤器。
用作固体载体的珠子可以是磁珠, 以帮助杂交复合物的纯化。 或者, 珠子可以包含独 特的识别标记。 特别地, 用可以根据其分光光度或荧光性质进行区分的荧光染料染色的珠 子, 可以偶联到用于对多态性进行分型的核酸分子上。 这些用于对多态性进行分型的基于 珠子的系统已有描述 (美国专利 5, 736, 330)。 染料标记的珠子、 分析试剂和用于对多态性进 行分型的装置也已有描述(美国专利 6, 649, 414、 6, 599, 331和 6, 592, 822),并且可从 Luminex Corporation (Austin, Texas, USA)获得。 如上所述, 与珠子连接的 SNP核酸分子结合也可 以是 芯片、 阵列或过滤器还可以用于固定对表 2的多态性进行分型的核酸分子。 在某些 实施方案中, 用于对给定的多态性进行分型的核酸标记将固定于阵列上规定的物理位置, 使得可以产生并记录来自对应于给定多态性的位置的分型数据, 用于随后的分析。 制造及 使用用于对多态性进行分型的阵列的方法包括但不限于在美国专利 5, 858, 659 (基于杂交的 方法)和美国专利 6, 294, 3 3 6 (单碱基延伸方法)中所描述的方法。
应用多态性分析对 DNA克隆文库迸行作图
由本发明的分子标记代表的多态性和基因座可用于鉴定和定位与分子标记连锁的 QTL 和基因的 DNA序列。 例如, 可以使用与性状连锁的分子标记查询 BAC或 YAC克隆库, 以找到包 含与性状相关的特定 QTL和基因的克隆。 例如, 多种 (如数百种或数千种)大的多基因序列中 的 QTL和基因可以通过与寡核苷酸探针杂交来鉴定, 所述寡核苷酸探针能够与定位的和 /或 连锁的分子标记杂交, 其中, 可以检测一个或多个分子标记。 通过在高密度阵列中提供克 隆序列可以改进这种杂交筛选。 该筛选方法更优选地通过采用汇集策略来改进, 以明显减 少鉴别包含分子标记的克隆所需要的杂交数。 当对分子标记作图时, 筛选能够有效地将克 隆作图。
例如, 在数千个克隆排列于规定的阵列中例如在 96孔板中的情况下, 这些板可以任意 地排列, 形成三维排列的孔的堆叠, 每个孔包括独特的 DNA克隆。 每个堆叠中的孔可以表示 为行、 列和板的三维阵列中的独立要素。 在发明的一方面, 堆叠数目和每个堆叠中板的数 目大致相等, 以使试验次数减至最少。 板的堆叠允许构建克隆 DNA池。
对于三维排列的堆叠, 可以为以下要素创建克隆 DNA池:(a)每一行的所有要素, (b)每 一列的所有要素, 和 (c)每块板的所有要素。 用可与针对一个克隆独特的分子标记杂交的寡 核苷酸探针杂交筛选该池将为一个列的池、 一个行的池和一块板的池提供阳性指示, 从而 指示包含目标克隆的孔单元 (要素)。
在多堆叠的情况下, 每个堆叠中所有克隆 DNA的其它池允许指示具有目标克隆的行一列 一板坐标的堆叠。 例如, 4608个克隆的组可以排列于 48块 96孔板中。 48块板可以安排在 8组 各 6块板的堆叠中, 提供 6x12x8三维阵列的要素, 即每个堆叠包括 8行和 12列的 6个堆叠。 对 于整个克隆组, 有 36个池, SP6个堆叠的池、 8个行的池、 12个列的池和 8个堆叠的池。 因此, 需要最多 36个杂交反应以找到包含与每个作图分子标记相关或连锁的 QTL或基因的克隆。
一旦鉴定了克隆, 从分子标记的基因座设计的寡核苷酸引物就可以用于连锁 QTL和 /或 基因的定位克隆。
3/4 迸行基因分型的方法
用单分子标记 (例如, 水稻基因组多态性)进行基因分型的方法也可以用于将水稻植物 的表型性状与基因型相关联。 检测来自至少两个具有等位基因 DNA的水稻植物的组织中的 DNA或 mRNA以确定是否存在本发明提供的作为分子标记的多态性。 鉴定分子标记与表型性状 之间的关联, 其中所述标记是在表 2中确定的。 在另一方面, 在染色体的特定基因座中具有 等位基因 DNA的水稻植物分离群体中, 将性状与基因型相关联, 所述基因座对目标性状具有 表型效应, 并且其中分子标记定位于该基因座之中或附近。
用单分子标记 (例如, 水稻基因组多态性)进行基因分型的方法也可以用来选择用于育 种的亲本植物、 后代植物或测试植物。 在这种情况下, 多态性与赋予一种或多种理想的表 型特状的染色体区域遗传连锁。 选择包含与表型性状相关联的特定等位基因状态的亲本、 后代或测试水稻植物提供了加速的和较低成本的育种。 预期本发明在表 2中公开的某些水稻基因组多态性可以与给定的表型性状直接相关, 因 为它们包括某些改变赋子性状或有助于性状表达的基因的调控或编码序列的等位基因状 态。 这些性状包括产量、 倒伏、 成熟、 株高、 抗病性和抗逆性, 如耐旱性、 耐寒性、 耐热 性、 营养缺乏等, 和质量性状。 当水稻基因组多态性以这种方式与性状直接关联时, 它在 旨在将该性状引入许多不同的水稻遗传背景内的水稻育种计划中是非常有用的。
可以通过使用多个标记以使与可能不提供农艺学优良性质的基因组区域相关的连锁阻 力减至最小, 来加速与此单标记相关的基因组区域的渗入。 可以通过使用多个直接位于单 标记侧冀的标记, 以使可能与密切相关的基因组区域相关的连锁阻力减至最小, 来加速与 此单标记密切关联的基因组区域的渗入。 因此, 使用聚类的一组 2、 5、 10或 20个位于单标 记近端和远端 10、 5、 2或 1 cm的标记, 可以提供所需要的与单标记相关的基因组区域的渗 入, 同时不需要的直接侧翼区域的渗入减至最少。 也可以通过使用分布于基因组中的多个 标记以使可能与位于同一染色体远端区域上和其它染色体上的基因组区域密切关联的任何 连锁阻力减至最小, 来加速与此单标记密切相关的基因组区域的渗入。 这组多个标记可以 包括另外 10个标记, 每个染色体臂有至少一个标记。 然而, 在优选的实施方案中, 标记密 度是每个染色体臂至少大约 10个标记, 更优选地每个染色体臂至少大约 100个标记, 以有效 地区分来自供体和受体亲本的基因组区域。 因而, 使用与单标记直接连锁或分布于基因组 上的多个侧翼标记可以提供在选择的杂交后代中最大回收受体亲本。
用水稻基因组■多态性组迸行基因分型的雄
本发明尤其涉及采用可以对多种不同的多态性进行分型的核酸分子组的基因分型方 法。 在这样的方法中, 对有限数量的至少两种水稻基因组多态性进行分型。 查询的这种有 限数量的水稻基因组多态性可以包含至少 2、 5、 10或 20种不同的基因型, 它们在表 2中表示 为 2、 5、 10或 20种不同的核苷酸序列。 这些基因分型方法必然需要使用可以对水稻基因组 多态性组进行分型的核酸分子组。
在某些应用中, 这些基因分型方法使用在给定染色体区间集中的多个分子标记(即水稻 基因组多态性)。 用于建立和追踪种质身份的高密度指纹可以通过进行基因分型方法来获 得, 所述方法利用在特定染色体区间和 /或赋予某些性状的某些基因座周围集中或群集的多 个分子标记。 高密度指纹信息可以用于评估种质多样性, 行使遗传质量保证功能, 开发罕 见的等位基因, 评估外来种质库和评估遗传纯度。 这些高密度指纹可以用来建立标记 -性状 关联数据库, 有益于整个作物育种计划。 高密度指纹也可以用来建立和保护种质所有权。 可以从表 2提供的定位的水稻多态性中选择聚集在需要的染色体区间或遗传性状周围的标 记组。
这些用多个分子标记进行基因分型的方法也可用于将水稻植物的表型性状与基因型相 关联。 检测来自至少两个具有等位基因 DNA的水稻植物的组织中的 DNA或 mRNA, 以确定是否 存在本发明提供的作为分子标记的一组有限系列的多态性。 确定这组分子标记与这组表型 性状之间的关联, 其中, 这组分子标记至少包括 2种、 至少 5种、 或至少 10种与本发明的多 态性基因座连锁的分子标记, 例如至少 10种与定位的多态性连锁的分子标记, 例如, 如表 2 中确定的那些。 在一个更优选的方面, 在对目标性状赋予表型效应的染色体基因座中具有 等位基因 DNA的水稻植物分离群体中, 性状与基因型相关联, 其中分子标记之间和多态性与 性状之间的关联程度允许确定多态性和性状基因座的线性次序。 在这样的方法中, 至少 5个 分子标记与允许基因座不平衡作图的基因座连锁。
在一个具体的实施方案中, 在使用多个标记的基因分型方法中使用的至少 1种分子标记 定位于所有 12条水稻染色体的每个染色体臂上, 因此必须对至少 24种水稻基因组 DNA多态性 进行分型。 但是, 也涉及该方法的其它实施方案, 其中至少 24种水稻基因组 DNA多态性定位 于每个染色体臂上, 因此必须对至少 288种水稻基因组 DNA多态性进行分型。 同样, 也涉及 其它实施方案, 必须对每个染色体臂上的至少 24种水稻基因组 DNA多态性进行分型(必须对 至少 576种多态性进行分型), 或对每个染色体臂上的至少 50种水稻基因组 DNA多态性进行分 型(必须对至少 1200种多态性进行分型)。 分布于水稻基因组上的标记组可以选自用于这些 方法的表 2提供的定位的水稻多态性。
使用分布于水稻基因组上的分子标记的基因分型方法可以用于多种应用。 在一种应用 中, 基因分型方法用于选择用于育种的亲本植物、 后代植物或测试植物。 涉及这些基因分 型方法在水稻育种计划中的多种应用。 这些基因分型方法可用于促进一种或多种性状、 基 因组基因座的渗入和 /或转基因从一个遗传背景向不同的遗传背景中的插入。 一般来说, 查 询来自远交(out-crossed)群体的后代植物中选择的标记组, 以鉴定并选择包含所需的性 状、 基因组基因座和 /或转基因插入、 而仍包含尽可能多的来自远交的不同遗传背景的等位 基因的个体后代。 这些方法可以通过几代加速所需的性状、 基因组基因座的渗入和 /或转基 因向新遗传背景中的插入。
这些方法还通过探询水稻遗传图谱上平均密度小于大约 10 cM的分子标记如 SNP的集 合提供性状筛选。 可以在一种或多种表型性状的范围内, 分析与表 2 的多态性基因座连锁 的分子标记的存在与否, 以鉴定在与一种或多种所述性状相关的一个或多个基因组区域处 的一种或多种特定分子标记等位基因。 在本发明的另一方面, 利用分子标记鉴定单元型, 该单元型是基因组 DNA 的等位基因片段, 其特征在于处于连锁不平衡的至少两种多态性, 并且所述多态性在不超过 10厘摩长度的基因组窗口中, 例如, 不超过大约 8厘摩或更小的 窗口中, 例如, 在 1-5 厘摩的范围内。 在这些方法的某些实施方案中, 这样的分子标记的 组在每个水稻染色体中的一系列相邻的基因组窗口中鉴定多种单元型, 例如, 用这些窗口 提供基本上完全的基因组覆盖。 使用足够大的和多样性的水稻育种群体, 可以在每个窗口 中鉴定大量的单元型, 从而提供可与一种或多种性状相关的等位基因 DNA, 以允许聚焦的标 记辅助的育种。 因此, 本发明的水稻分析的一方面进一步包括以下步骤:对所述水稻植物群 体表征一种或多种性状, 并将所述性状与所述等位基因 SNP或 Indel多态性进行关联, 优 选地进行组织以定义单元型。 这样的性状包括产量、 倒伏、 成熟、 株高、 抗病性和抗逆性。 具体实施例
下面根据具体的实施例对本发明进行说明。 需要说明的是, 这些实施例仅仅是为了说 明本发明, 而不能以任何方式解释为对本发明的限制。 另外, 除非特别说明, 在下面的实 施例中所涉及的方法为常规方法, 所涉及的材料和制剂也为市售可得的。
若未特别指明, 实施例中所采用的技术手段为本领域技术人员所熟知的常规手段, 可 以参照 《分子克隆实验指南》 第三版或者相关产品进行。 所用试剂或仪器未注明生产厂商 者, 均为可以通过市购获得的常规产品。
实施例 1. 9000个 SNP 位点的选择
为了提供一种均匀分布于不同水稻品种间的 SNP位点集合, 本发明选择了 590份水稻 种质进行重测序, 这 590份水稻材料中包含 420份籼稻和 170份粳稻, 具体所选材料的名 称如说明书中的附表 1所示, 通过测序分析, 本发明从不同水稻材料中获得了大量的水稻 品种之间的 SNP标记位点, 共 8,944,748个 SNP位点。 从这些位点中进一步挑选出高密度 的覆盖全基因组并且均匀分布的 SNP位点 7490个,具体所选位点及其在染色体上的位置如 说明书附表 2所示; 再挑选已知功能基因内部的 SNP位点 1510个, 具体所选位点及其在染 色体上的位置如说明书附表 2所示; 形成了共计 9000 个 SNP标记位点的集合。
为了使获得的 SNP位点集合适用于水稻多品种间的分析, 本发明在挑选 SNP标记集合 时, 采用了多种指标和算法对这些 SNP标记位点进行筛选。 包括基因组上均匀分布、 弱势 等位基因频率 (Minor Allele Frequency, MAF)、 连锁不平衡 (linkage disequilibrium, LD)、 非重复区域、 基因功能区等指标。
具体挑选流程如下:
(一) 本发明首先从 590份水稻种质的 SNP中, 选择了在大于等于 3份种质中可检测 到的高可靠性的 SNP位点, 共 5,680,149个。
(二) 从上述位点中筛选出在其上游或下游 55bp基因组序列范围内未检测到其余 SNP 或 InDel位点 (Insertion-deletion, 插入缺失标记) 的 SNP位点, 这样可以排除侧翼序列的 变异所造成的 SNP检测困难。
(三) 在此基础上, 进一步选择基因组非重复区域内的 SNP位点, 通过使用 blast软件 将 SNP位点的上游或下游 55bp序列与基因组比对, 确定大于 0.7—致性的为基因组重复区 域, 将其剔除, 最终获得 1,376,113个 SNP。
(四)为了评估所选 1,376,113个 SNP位点的探针工作效率,提高 SNP位点的分型实验 的成功率,本发明通过 Illumina infmium iSelect软件对所有 SNP位点进行打分,并选取了打 分 & 0.6的 740,786个 SNP。
(五)将水稻基因组平均分为 50kb的区间, 在每个区间内通过以下步骤和条件进一步 筛选合适的 SNP位点:
a) 选取同时符合下列条件的 SNP位点, 若有多个, 只保留一个满足条件的 SNP: 籼 稻中 MAF&0.2, 粳稻中 MAF &0.2, 籼稻粳稻合并统计 MAF &0.2;
b) 若上一条标准未选到合适的 SNP位点, 则按照如下标准在每个区间选取 2个满足 条件的 SNP: 籼稻中 MAF最大值的 SNP, 及粳稻中 MAF最大值的 SNP。
通过上述选择流程,共获得在水稻基因组上平均分布的 7490个 SNP位点。这些水稻基 因组上平均分布的 7490 个 SNP 位点在水稻参考基因组日本晴 (MSU6.1 版本, http://rice.plantbiology.msu.edu/)上的位置列于附表 2中。在附表 2中, SNP名称前两个字母 "Os"表示水稻, SNP名称中所列的紧跟字母 osbak或 osbakg的两个数字表示染色体编号, 后面的 8 位数字为在该染色体上的具体位置, 最后三个字母中的前两个字母表示水稻中该 SNP位点上的两种核苷酸可能性, 最后一个表示探针设计在染色体正链还是负链。
(六) 根据已报道的 879个功能基因, 具体所选如表 2所示, 收集位于这些基因外显 子序列上的 SNP位点, 并去除不适合芯片探针设计的位点, 得到 8737个 SNP位点。
(七) 通过以下步骤在此 8737个 SNP中, 每个基因上挑选 2个 SNP:
a) 筛选符合 879个基因上的非同义突变位点, 在这些位点上选取 MAF值最大的 2个 SNP;
b) 如果基因上 SNP无非同义突变位点, 选取 MAF值最大的 2个 SNP。
这样共获得位于功能基因中的 1510个 SNP位点。 这些功能基因中的 SNP位点在水稻 参考基因组日本晴 (MSU6.1版本) 上的位置及其两侧各 60bp的序列如附表 2所示, 该表 中 SNP名称的含义同上述第 (五) 条。
(八) 按上述流程所述, 最终一共获得含有 9000 个 SNP位点的高密度的 SNP标记集 合, 包括基因组上均匀分布的 SNP位点 7490个, 功能基因内部的 SNP位点 1510个。 实施例 2. Illumina平台 SNP 位点的使用
1 )探针制备。 在 Illumina公司定制含有检测 9000 SNP标记的寡聚核苷酸探针的 infinium 芯片, 本实施例中所述寡聚核苷酸探针为序列表 SEQ ID NO: 1-9000所列核苷酸序列的第 11位至第 60位的核苷酸, 即紧挨每个 SNP多态性位点的上游 50bp为本实施例所提供的针 对 Illumina芯片技术平台的探针序列。
2) 样本收集和 DNA提取。 收集样品的叶子或种子, 根据 Qiagene试剂盒使用方法, 提取 基因组 DNA。 根据下一步基因分型实验的需要, 提取的 DNA 的浓度应在 50η§/μ 1 以上 (Α260/Α280: 1. 8-1. 9; Α260/Α230: 1. 5?3), 并且总体积在 50μ 1以上。
3) 基因分型实验。 采用 Illumina公司的基因分型系统, 在 Illumina HiScan芯片平 台上进行核苷酸扩增, 探针杂交, 芯片扫描和信号分析, 最后获得样本基因组 DNA的 7869 个有效 SNP标记上的基因分型数据。
基因分型实验的具体步骤如下:
a. 变性单链 DNA的制备: 将 DNA样品用氢氧化钠变性成单链, 然后中和变性剂, 加入 酶扩增反应液。
b. 全基因组扩增: 把上步的样品放在 37度孵育箱中全基因组扩增, 37度反应 20— 24 小时。
c 扩增的基因组片段化: 扩增产物酶切成几百个碱基大小的片段。
d.沉淀 DNA: 酶切后的产物加入异丙醇, 3000g离心 20分钟使 DNA沉淀, 室温干燥一 小时。
e. 溶解 DNA: 加入杂交液, 48度 1小时, 涡旋震荡使 DNA充分溶解在杂交液中。
f. 点芯片, DNA与芯片杂交: 将上步的 DNA在 95度变性 20分钟, 冷却至室温开始点芯 片, 注意避免不同的样品之间交叉污染, 点好的芯片放在 48度杂交炉中 16— 24小时, 不 要超过 24小时。
g. 清洗芯片: 把未杂交或不完全杂交在芯片上的 DNA洗掉, 只有与芯片完全匹配的 DNA 才能保留在芯片上。 h. 单碱基延伸和染色: 以杂交到芯片上的 DNA为模板进行单碱基延伸, 延伸的碱基是 预先修饰过的可与染料结合, 不同的碱基可有相应的染料颜色来确定。
i. 清洗芯片、 包被、 固定: 把芯片上多余的染料洗掉, 加入固定液把信号固定。
j. 扫描芯片: 把固定好的芯片放入 HiScan扫描仪的芯片槽中进行扫描获取信号, 扫描 的结果可进一步在 I l lumina公司提供的软件中进行结果分析。
4) 基因分型结果分析。 使用 I l lumina GenomeStudio软件对 HiScan分型系统扫描的 结果进行分析。根据单碱基延伸时染料颜色的结果进行聚类, 根据聚类的结果将材料的 基因型分为 3类 (AA, BB, AB)。
由于 I l lumina GenomeStudio软件在缺少杂合聚类时, 会出现分型错误, 而水稻是 自花授粉植物, 稳定水稻品种中位点以纯合为主。为了使聚类更好的区分纯合与杂合位 点, 我们创造性地挑选了 34组亲本及其杂交子一代用作聚类的参照。 这种聚类方法比 系统默认的聚类的方法具有更高的准确性, 能够更好的区分 3类基因型, 图 3所示的 SNP位点分型在采用这种聚类方法后提高了准确性。 如图 3所示, 默认聚类将部分 BB 的基因型错误的聚类成 AB的杂合基因型, 而在增加对照后的新的聚类方法中能够更好 的找到 AB杂合基因型的位置, 从而更准确的得到基因分型结果。 我们根据新的聚类方 法从而得到 7869个有效 SNP位点的基因分型结果。
实施例 3. 使用 SNP 位点迸行品种鉴定
本发明对黄华占品种的真实情况进行了分析。
发明人收集了 3种不同来源均称为黄华占的种子 (A, B, C), 它们从表型无法区分, 另外 还从黄华占培育单位广东农科院收集了标准黄华占材料用作品种鉴定的对照。
样本基因组 DNA的基因分型: 按照实施例 1所述的探针制备、 样本碰的提取以及基 因分型的方法得到 7869个有效 SNP标记位点的基因型。
对 Infinium芯片得到的基因分型结果进行质量控制。 去除在样本中 GenTrain Score 〈0. 6的 SNP位点, 分型结果较差位点由于数据的可靠性无法用于进一步的数据分析。 黄华 占经过多年的培育可以认为是纯和的亲本, 去掉基因分型为杂合的位点, 最后得到 7566个 SNP标记位点。
在筛选基因分型数据之后, 对黄华占的几个品种进行鉴定分析, 并按照实施例 2 中所 述方法将这些位点进行可视化, 结果如图 4所示。 从结果中可以看到 A、 B、 C与培育单位 的黄华占均可认为是一致的, 而非黄华占品种将会表现出较多的基因型的不同。 实施例 4. 使用 SNP 位点迸行品种混杂分析
本发明选择黄华占品种的突变体进行来源鉴定。
实验对象: 实验材料的对象如图 5 所示。 我们收集的核心水稻种质黄华占并以此为基 础通过 EMS诱变得到 7个重要突变体。 另外, 收集了黄华占培育单位广东农科院的标准黄 华占材料。
样本基因组 DNA的基因分型: 按照实施例 1所述的探针制备、 样本碰的提取以及基 因分型的方法得到 7869个有效 SNP标记位点的基因型。
对 Infinium芯片得到的基因分型结果进行质量控制。 去除在样本中 GenTrain Score 〈0. 6的 SNP位点, 分型结果较差位点由于数据的可靠性无法用于进一步的数据分析。 黄华 占经过多年的培育可以认为是纯和的亲本, 去掉基因分型为杂合的位点, 最后得到 7566个 SNP标记位点。
在筛选基因分型数据之后, 对黄华占及其突变体进行鉴定分析。 根据所获得的 SNP标 记位点, 采用自己编程或可以分析并可视化的软件分析。 我们的分析采用了自己编程的模 式, 得到的结果如图 5 所示。 我们用作诱变的野生型黄华占与广东农科院培育材料的基因 型是完全一致, 并没有材料的混杂。 突变体中 ΤΧΥ-1、 ΤΧΥ-2、 ΤΧΥ-3、 ΤΧΥ_4、 ΤΧΥ-5、 ΤΧΥ-6 与黄华占基本一致, 可以认为这 6个突变体都是来源于黄华占并没有混杂。 然而 ΤΧΥ-6有 355个 SNP与黄华占不一致, 可以认为出现了混杂。
实施例 5. 使用 SNP 位点迸 本亲缘关系
本发明收集了 65个核心水稻种质材料并要以此为对象分析其亲缘关系, 用以下一步的 育种。
按照实施例 1所述的探针制备、 样本 DNA的提取以及基因分型的方法得到 7869个有效 SNP标记位点的基因型。
对 infinium 芯片得到的基因分型结果进行质量控制。 如实施例 2 中去除在样本中 GenTrain Score 〈0. 6的 SNP位点。 最终得到 7591个 SNP标记位点。
使用 cluster软件和 treeview软件分析得到的 65个样品的 SNP标记位点,结果如图 6 所示。 根据 cluster的聚类分析, 可以将这 65个水稻品种分为两组, 即粳稻和籼稻。 根据 已知的日本晴为粳稻, 图中得到上面大多绿色背景部分的 26个品种为粳稻, 另外大多红色 背景 39个品种为籼稻。 在图中可以清晰的判断水稻品种之间的亲缘关系。
实施例 6. 使用 SNP 位点分籠系单 型
本发明收集了黄华占及其谱系共 11个品种。 通过分析黄华占及其谱系的单倍体型信息 获得在黄华占育种过程中基因组的变化情况。
样本基因组 DNA的基因分型: 按照实施例 1所述的探针制备、 样本碰的提取以及基 因分型的方法得到 7869个有效 SNP标记位点的基因型。
对 infinium 芯片得到的基因分型结果进行质量控制。 如实施例 2 中去除在样本中 GenTrain Score 〈0. 6的 SNP位点。 并去除在这 11个品种中缺失率大于 0. 2的位点, 缺失 位点由于数据的损失无法参与进一步的数据分析过程, 最终得到 7560个 SNP标记位点
根据所获得的 SNP标记位点, 根据单倍体型的算法 (Yamamoto et al. , 2010)计算单 倍体型的变化, 并按照实施例 2中所述将这些位点可视化, 得到结果如图 7所示。 通过分 析黄华占及其谱系的单倍体型信息获得在黄华占育种过程中基因组的变化情况。
实施例 7. 使用 SNP 位点分析衍生品种
本发明收集了黄华占及其衍生品种共 11个品种。 分析黄华占在其之后培育的过程中保 守的区域以及不保守的区域。 保守的区域可以认为是黄华占谱系中相对稳定的位点, 可能 与该谱系优良性状关联, 而不保守的区域意味着该区域可以优化, 此分析对以黄华占谱系 材料为背景的水稻育种有着重要的指导作用。
样本基因组 DNA的基因分型: 按照实施例 1所述的探针制备、 样本碰的提取以及基 因分型的方法得到 7869个有效 SNP标记位点的基因型。
对 infinium 芯片得到的基因分型结果进行质量控制。 如实施例 2 中去除在样本中 GenTrain Score 〈0. 6的 SNP位点。 并去除在这 11个品种中缺失率大于 0. 2的位点, 缺失 位点由于数据的损失无法参与进一步的数据分析过程, 最终得到 7552个 SNP标记位点。
根据所获得的 SNP标记位点, 如实施例 2中所述将这些位点可视化, 得到结果如图 8 所示。 我们可以清晰的获得黄华占在其之后培育的过程中保守的区域以及不保守的区域, 从而指导以黄华占为背景的水稻育种。
实施例 8. 使用 SNP ^B位点辅助回交育种
改良优良恢复系 R288的抗性。 将 D3-10中重要的稻瘟病抗性基因位点导入到 R288中, 使用 SNP标记位点在 BC3F1中选择导入较好的材料进一步回交育种。
收集 6株 BC3F1材料以及 2个杂交的亲本, 按照实施例 1所述的探针制备、 样本 DNA的提 取以及基因分型的方法得到 7869个有效 SNP标记位点的基因型。
对 infinium 芯片得到的基因分型结果进行质量控制。 如实施例 2 中去除在样本中 GenTrain Score〈0. 6的 SNP位点。 并去除在这 8个品种中缺失率大于 0. 2的位点, 缺失位 点由于数据的损失无法参与进一步的数据分析过程, 最终得到 7574个 SNP标记位点。 根据所获得的 SNP标记位点, 如实施例 2中所述将这些位点可视化, 得到结果如图 9 所示。 从中可以可以看到 BC3F1材料中 D3-10中导入到 R288中的基因组片段, 为回交育种 的材料选择提供重要参考。
实施例 9. 使用 SNP 位点迸行关联分析
本发明收集了黄华占及其谱系共 21个品种, 分析黄华占及其谱系的基因组的变化与性 状的关联。
样本基因组 DNA的基因分型: 按照实施例 1所述的探针制备、 样本碰的提取以及基 因分型的方法得到 7869个有效 SNP标记位点的基因型。
对 infinium 芯片得到的基因分型结果进行质量控制。 如实施例 2 中去除在样本中 GenTrain Score 〈0. 6的 SNP位点。 并去除在这 11个品种中缺失率大于 0. 2的位点, 缺失 位点由于数据的损失无法参与进一步的数据分析过程, 最终得到 7527个 SNP标记位点。
本发明收集了水稻种子的直链淀粉含量, 并根据所获得的 SNP标记位点, 进行关联分 析, 得到曼哈顿图如图 10所示。 经过分析染色体上有两处位点具有显著的关联性, 并且定 位到的染色体 6号区域包含已知的 waxy基因。 因而通过高密度的 SNP芯片进行关联分析, 可以得到理想的结果。
实施例 10. 使用 SNP 位点分析杂交群体中的基因型
本发明选择了 9311与日本晴的重组自交系数据进行分析。
本发明收集了 9311与日本晴重组自交系并选取其中三个材料, 按照实施例 1所述的探 针制备、 样本 DNA的提取以及基因分型的方法得到 7869个有效 SNP标记位点的基因型。
如实施例 2中去除在样本中 GenTrain Score 〈0. 6的 SNP位点。 并去除在这 3个材料 中缺失率大于 0. 2 的位点, 缺失位点由于数据的损失无法参与进一步的数据分析过程, 最 终得到 7591个 SNP标记位点。 根据所获得的 SNP标记位点, 如实施例 2中所述将这些位点 可视化, 如图 11所示为其结果。 对重组自交系群体进行基因分型, 下一步再收集相关的表 型性状, 就可以 QTL位点定位分析。
表 1 : 590份水稻材料的品种名列表
Qiananshui Xishanba Dingzho Nantian Guang im Hongmidongz
〃02428" KT5 nuo i unuo zhan i-2 Jianan-9 han Wuke-4 Guangkehon Lengshu
lemont gmixianzha izi (Yeh Sanl icu Wulongbe Huangyad Youzha KT6 n Dal izhan e) n-1 i-3 ao Huangsinuo nnuo Yangmianza Jinbaoyi Dazhang Mahuangn Zaokengj Baimihuangz Jiaozh MH63 KT7 n Jinzhan u uo i han an
Yanghuoz Xiaohon Gaoganba
Sanshizi hong ggu Wangu Fengleng i Tongzinuo Dayegu
l7Zll00/Cl0ZN3/X3d Z908請 ?0Ζ OAV
i uo ndao ixian ongj iaoq oxuan nnuo
Ruanzhan Datouhu Miandian Xiaoj i
YB19 Xihuzao Banl ikenuo j iugu ang Mazinuo j iugu Jiegunuo Jiuyuenuogu ugu
Sanl icun Baimido Hongman Datiez
YB20 -6 Guihuanuo Taohuami ngzhan gnuo Zaodao Xiyeqing Chuangnuo-2 ao
Changl i j in Hongdou Taidong Hongjiao Changmaodao
KT1 YB21 Lizhidao gzhan Haonuobi nuo wuzhan Aizinuo wen -1-1
Dahongji Honghand Hangunu Shuihon Hongjiao
KT2 YB22 ao~3 Hunuo ao-2 gmi Wushizao zhan Erfuzao
Hongkenu Laohong Daguang Qianjinz
KT3 YB23 Anqinggu Handaozi gu-2 mazhan Zaonuo-2 ao Cungu
Chang j in Zunhuawenz Honggu- Gouyingd
KT4 YB24 gchi izui Haoxiang Youzhan 2 u Huanggu Yanong-1 表 2: 9, 000个在基因组上均匀分布的 SNP位点及其对应的基因编号列表(注: SNP名称中 所列的紧跟字母 osbwk或 osbwkg的两个数字表示染色体编号, 后面的 8位数字为在该染色 体上的具体位置, 最后三个字母中的前两个字母表示水稻中该 SNP位点上的两种核苷酸可 能性, 最后一个表示探针设计在染色体正链还是负链)
是否 对应序列 序列
位于 染色体 表中的 是否位于功 染色体 表中 SNP名称 SNP名称 功能 正负链 SEQ ID 能基因区间 正负链 的 SEQ
基因 NO : ID
osbwkAGR 1 osbwkAGR 4501 osbwkCTF + 2 osbwkGAF + 4502 osbwkTCR 3 osbwkTCR 4503 osbwkTAF + 4 osbwkCTR 4504 osbwkGAF + 5 osb

我要回帖

更多关于 宇扬电子 的文章

 

随机推荐