【佳學(xué)基因檢測】一種利用下一代測序進(jìn)行差異甲基化基因座的基因檢測方法

高通量測序與甲基化基因檢測導(dǎo)讀

表觀遺傳變化，尤其是 CpG 基因座的 DNA 甲基化，對(duì)癌癥和其他復(fù)雜疾病具有重要意義。隨著下一代測序（NGS）的發(fā)展，使用病例對(duì)照設(shè)計(jì)生成數(shù)據(jù)以了解全基因組基因座甲基化狀態(tài)的差異是可行的。佳學(xué)基因解碼為此設(shè)計(jì)了適當(dāng)和有效的統(tǒng)計(jì)檢驗(yàn)，以解決這一基因檢測技術(shù)所遇到的困難。首先，與使用微陣列的甲基化實(shí)驗(yàn)不同，其中在特定 CpG 位點(diǎn)對(duì)一個(gè)個(gè)體進(jìn)行甲基化測量。佳學(xué)基因所采用的甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組有每個(gè)個(gè)體的甲基化等位基因和非甲基化等位基因的計(jì)數(shù)。其次，由于樣品制備的性質(zhì)，測量的甲基化反映了樣品制備中涉及的細(xì)胞混合物的甲基化狀態(tài)。所以，測量的甲基化水平的潛在分布是未知的，穩(wěn)健的測試比參數(shù)方法更可取。第三，目前高通量測序測量超過 200 萬個(gè) CpG 位點(diǎn)的甲基化。任何統(tǒng)計(jì)測試都必須具有計(jì)算效率，才能應(yīng)用于 NGS 數(shù)據(jù)?？紤]到這些挑戰(zhàn)，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組通過對(duì)甲基化計(jì)數(shù)進(jìn)行建模，提出了基于聚類數(shù)據(jù)分析的差異甲基化測試。甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組進(jìn)行了模擬以表明它在測量的甲基化水平的幾個(gè)分布下是穩(wěn)健的。它具有良好的功能并且計(jì)算效率很高。賊后，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組將該測試應(yīng)用于甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組關(guān)于慢性淋巴細(xì)胞白血病的高通量測序數(shù)據(jù)。結(jié)果表明，這是一個(gè)很有前途和實(shí)用的測試。

高通量測序與甲基化基因檢測關(guān)鍵詞：

DNA甲基化，甲基化差異檢測，二代測序

甲基化測序基因檢測科普介紹

近年來，由于基因分型技術(shù)的快速進(jìn)步和人類基因組計(jì)劃的完成，基因檢測關(guān)聯(lián)研究，尤其是大規(guī)模的全基因組基因檢測關(guān)聯(lián)研究變得非常流行。通過全基因組關(guān)聯(lián)研究已經(jīng)確定了數(shù)百個(gè)疾病的易感基因座。盡管取得了這一進(jìn)展，并建立具有一定規(guī)模的數(shù)據(jù)庫。但迄今為止鑒定的遺傳變異僅解釋了大多數(shù)復(fù)雜疾病的一小部分表型變異。表型變異的另一個(gè)潛在來源是表觀遺傳變化，例如 DNA 甲基化。

DNA甲基化是指在CpG二核苷酸中胞嘧啶的5'端添加一個(gè)甲基。啟動(dòng)子區(qū)域的 DNA 甲基化可以抑制基因的表達(dá)。已經(jīng)表明 DNA 甲基化變化與許多人類疾病有關(guān)，尤其是癌癥。CpG二核苷酸的高甲基化是腫瘤抑制基因失活的重要標(biāo)志。相反，正常甲基化基因的低甲基化可能導(dǎo)致癌基因的激活。基因解碼中的人類表觀基因組檢測是研究全基因組表觀遺傳模式。

隨著生物技術(shù)的發(fā)展，現(xiàn)在可以通過下一代測序 (NGS) 對(duì)全基因組 CpG 位點(diǎn)獲得生成甲基化數(shù)據(jù)。在這些基因解碼過程中，DNA 樣本用亞硫酸氫鹽處理，它將未甲基化的胞嘧啶轉(zhuǎn)化為尿嘧啶，并使甲基化的胞嘧啶保持完整。NGS 對(duì)每個(gè)受試者或樣品的每個(gè) CpG 位點(diǎn)處具有胞嘧啶（甲基化）的分子數(shù)和具有尿嘧啶（未甲基化）的分子數(shù)進(jìn)行計(jì)數(shù)。

基于來自高通量測序基因檢測的計(jì)數(shù)來測試組（例如，病例和對(duì)照）之間差異甲基化的一種簡單方法是對(duì)給定 CpG 位點(diǎn)的組內(nèi)受試者的計(jì)數(shù)求和，從而產(chǎn)生 2 × 2 列聯(lián)表（甲基化/未甲基化 × 病例/對(duì)照）。然后將 Pearson 的獨(dú)立性卡方檢驗(yàn)用于此表。這種方法是有問題的，因?yàn)槊總€(gè)個(gè)體的測序覆蓋率（測量的總分子數(shù)量較大）可能不同，導(dǎo)致測序覆蓋率大的個(gè)體對(duì)測試統(tǒng)計(jì)數(shù)據(jù)產(chǎn)生不當(dāng)影響。此外，該測試沒有考慮甲基化水平的受試者間變異性。

另一種方法是首先估計(jì)每個(gè)個(gè)體每個(gè) CpG 位點(diǎn)的甲基化比例 ( β )， β = n methy / ( n methy + n unmethy )。然后可以對(duì)β應(yīng)用t檢驗(yàn)。這種方法消除了先前方法中覆蓋率不均的問題，并且該測試還考慮了甲基化水平的受試者間變異性。然而，這種方法存在幾個(gè)問題。首先，與甲基化微陣列實(shí)驗(yàn)獲得的數(shù)據(jù)不同，在直接測量甲基化比例的情況下，甲基化比例是根據(jù)高通量測序的計(jì)數(shù)數(shù)據(jù)估計(jì)的。測序覆蓋率的差異將導(dǎo)致β估計(jì)值的正確性不同，測序覆蓋率越大的受試者估計(jì)β的標(biāo)準(zhǔn)誤差越小。這種異方差性對(duì)于t檢驗(yàn)可能是有問題的。此外，t檢驗(yàn)的正態(tài)性假設(shè)可能不適用于高通量測序甲基化數(shù)據(jù)。除了測序覆蓋率的影響外，甲基化比例還可能受文庫制備、批次效應(yīng)等諸多因素的影響。這些附加因素會(huì)影響真實(shí)β在樣本或受試者上的分布，因此這種分布是未知的。因此，需要一個(gè)穩(wěn)健的t檢驗(yàn)替代方案。使用t檢驗(yàn)分析甲基化比例的另一個(gè)問題是t檢驗(yàn)定義在 -∞ 到 ∞ 之間，而甲基化比例限制在 0 和 1 之間。在實(shí)際數(shù)據(jù)中，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組觀察到相當(dāng)大比例的樣本和 CpG 位點(diǎn)具有甲基化比例等于 0 或 1。在本文中，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組提出了一種基于聚類數(shù)據(jù)分析的檢測差異甲基化 CpG 位點(diǎn)的測試，方法是直接對(duì)甲基化計(jì)數(shù)進(jìn)行建模。然后甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組進(jìn)行了模擬以表明所提出的測試在測量的甲基化水平的幾個(gè)分布下是穩(wěn)健的。

高通量測序甲基化測序的基因解碼方法

建立模型

在這里，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組在病例對(duì)照研究設(shè)計(jì)中對(duì)甲基化計(jì)數(shù)進(jìn)行建模。假設(shè)案例組中有n A個(gè)人，對(duì)照組中有n U個(gè)人。甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組有k個(gè) CpG 位點(diǎn)的 NGS 全基因組甲基化數(shù)據(jù)。設(shè)m Aij是個(gè)體i在 CpG 位點(diǎn)j的甲基化讀數(shù)的計(jì)數(shù)，c Aij是個(gè)體i在 CpG 位點(diǎn)j的覆蓋率，β Aij是個(gè)體i在 CpG 位點(diǎn)j的真實(shí)甲基化水平情況下，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組對(duì)m進(jìn)行建模具有二項(xiàng)分布的Aij

m Aij ~ B ( c Aij , β Aij ), i = 1, ... n A , j = 1, ... k。

(1)

類似地，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組將m Uij、c Uij和β Uij定義為控件中的對(duì)應(yīng)量，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組有

m Uij ~ B ( c Uij , β Uij ), i = 1, ..., n U , j = 1, ... k。

(2)

這里的關(guān)鍵是將高通量測序讀取視為每個(gè)個(gè)體中的集群，問題變成在存在集群數(shù)據(jù)的情況下比較兩個(gè)比例。這些集群是實(shí)驗(yàn)設(shè)計(jì)的自然結(jié)果，也是對(duì)每組內(nèi)每個(gè)受試者測量的二項(xiàng)式數(shù)據(jù)的性質(zhì)。為此，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組采用了聚類數(shù)據(jù)分析的方法。這種方法首先計(jì)算設(shè)計(jì)效果，然后用于調(diào)整病例和對(duì)照中的甲基化比例。

模擬研究

在每種情況下，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組分別使用如上模擬的甲基化比例，根據(jù)方程 (1)和(2)模擬病例和對(duì)照的甲基化分子計(jì)數(shù)。甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組允許覆蓋率c Aij和c Uij通過從賊小為 5 的正態(tài)分布N (30, 13) 中采樣而變化，這是甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組在下面分析的實(shí)際數(shù)據(jù)中使用的賊小讀取次數(shù)。

結(jié)果

甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組在H 0下進(jìn)行了模擬，以研究所提出測試的 I 類錯(cuò)誤率。如上一節(jié)所述，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組考慮了甲基化水平分布的三種情況。對(duì)于每種情況，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組模擬了病例和對(duì)照中相同數(shù)量個(gè)體的甲基化計(jì)數(shù)。甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組將n A = n U設(shè)置為從 10 到 500 的不同數(shù)字，以研究樣本量的影響。在每個(gè)場景中，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組對(duì)每個(gè)樣本大小進(jìn)行了 100,000 次重復(fù)。表一給出了在場景 (a) 的幾個(gè)α水平上評(píng)估的經(jīng)驗(yàn) I 型錯(cuò)誤率，其中單個(gè)甲基化水平是從 β 分布產(chǎn)生的。相似地，表二給出場景 (b) 的經(jīng)驗(yàn) I 型錯(cuò)誤率，其中單個(gè)甲基化水平是從正態(tài)分布產(chǎn)生的，并且表三給出了場景 (c) 的經(jīng)驗(yàn) I 型錯(cuò)誤率，其中單個(gè)甲基化水平是從混合正態(tài)分布產(chǎn)生的。從這些表中可以看出，隨著樣本量的增加，I 類錯(cuò)誤率接近標(biāo)稱α水平。這適用于所有α水平和所有三種甲基化水平分布。與三種模擬情景相比，當(dāng)甲基化水平服從正態(tài)分布時(shí)，I 型錯(cuò)誤的膨脹低于甲基化水平服從 β 或混合正態(tài)分布的情景。當(dāng)甲基化水平遵循情景（c）中的混合物正態(tài)分布時(shí)，通貨膨脹賊高。

表一：模擬場景 (a) 的 I 類錯(cuò)誤率

樣本量	檢驗(yàn)	α = 0.05	α = 0.01	α = 0.001	α = 0.0001
10	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.07747	0.02564	0.0067	0.00217
	t檢驗(yàn)	0.09458	0.04886	0.01629	0.00386
	幼稚的	0.24474	0.13104	0.05517	0.024
20	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.06425	0.01765	0.00295	0.00069
	t檢驗(yàn)	0.07798	0.0274	0.00923	0.00402
	幼稚的	0.25003	0.13357	0.05735	0.02437
50	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.0548	0.0128	0.00172	0.00024
	t檢驗(yàn)	0.06759	0.02646	0.0101	0.0041
	幼稚的	0.25753	0.14062	0.06116	0.02628
100	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.05299	0.01132	0.00128	0.00012
	t檢驗(yàn)	0.05941	0.01566	0.00286	0.00064
	幼稚的	0.26273	0.14285	0.06193	0.02766
500	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.05096	0.01022	0.001	0.00014
	t檢驗(yàn)	0.05704	0.01635	0.00375	0.0011
	幼稚的	0.26613	0.14419	0.06313	0.02808

表二：模擬場景 (b) 的 I 類錯(cuò)誤率

樣本量	檢驗(yàn)	α = 0.05	α = 0.01	α = 0.001	α = 0.0001
10	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.07261	0.02277	0.00529	0.00137
	t-檢驗(yàn)	0.08721	0.01694	0.00205	0.00034
	幼稚的	0.23829	0.12507	0.05156	0.0214
20	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.05969	0.01522	0.00255	0.00045
	t-檢驗(yàn)	0.0735	0.02209	0.00524	0.00131
	幼稚的	0.24445	0.12898	0.05399	0.02401
50	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.05399	0.01177	0.00146	0.00015
	t-檢驗(yàn)	0.06179	0.0154	0.00244	0.00046
	幼稚的	0.25143	0.13391	0.05578	0.02429
100	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.05178	0.01092	0.00119	0.00013
	t-檢驗(yàn)	0.05719	0.01082	0.00141	0.00022
	幼稚的	0.25463	0.13623	0.05833	0.02487
500	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.05043	0.01039	0.00093	0.00011
	t-檢驗(yàn)	0.05332	0.01199	0.00154	0.00017
	幼稚的	0.25898	0.13882	0.05957	0.02603

表三：模擬場景 (c) 的 I 類錯(cuò)誤率

樣本量	檢驗(yàn)	α = 0.05	α = 0.01	α = 0.001	α = 0.0001
10	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.08333	0.03088	0.00959	0.00345
	t-檢驗(yàn)	0.08357	0.01641	0.00161	0.00014
	幼稚的	0.57858	0.46992	0.3583	0.2758
20	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.06425	0.01855	0.00387	0.00085
	t-檢驗(yàn)	0.08276	0.03117	0.0094	0.00322
	幼稚的	0.5805	0.47132	0.35893	0.2802
50	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.0559	0.0131	0.00182	0.00031
	t-檢驗(yàn)	0.06304	0.0181	0.00382	9e-04
	幼稚的	0.58574	0.47774	0.36503	0.28457
100	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.05207	0.01062	0.00134	0.00019
	t-檢驗(yàn)	0.05491	0.01258	0.00183	0.00028
	幼稚的	0.5885	0.47754	0.36568	0.285
500	甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的檢驗(yàn)	0.04992	0.00967	0.00091	0.00011
	t-檢驗(yàn)	0.05348	0.01173	0.00131	0.00019
	幼稚的	0.59078	0.48068	0.36806	0.28677

相比之下，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組將t檢驗(yàn)和樸素列聯(lián)表方法應(yīng)用于H 0下的相同模擬數(shù)據(jù)集。類型 I 錯(cuò)誤率的結(jié)果在表一–III，分別用于模擬場景（a）、場景（b）和場景（c）。在所有三種模擬場景下，相對(duì)于建議的檢驗(yàn)， t檢驗(yàn)的 I 類錯(cuò)誤率都被夸大了。天真的列聯(lián)表方法的先進(jìn)類錯(cuò)誤率被進(jìn)一步夸大了。

因?yàn)樵O(shè)計(jì)效果將甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組提出的檢驗(yàn)與樸素檢驗(yàn)區(qū)分開來，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組在H 0下進(jìn)行了模擬，以探索可能影響設(shè)計(jì)效果大小的因素。在先進(jìn)組模擬中，單個(gè)測序覆蓋率是從具有 15 的恒定 SD 和不同平均值的正態(tài)分布生成的。從中可以看出圖1，設(shè)計(jì)效果隨著測序覆蓋率平均值的增加而增加，樣本量對(duì)設(shè)計(jì)效果沒有太大影響。在第二組模擬中，單個(gè)測序覆蓋率是從具有恒定平均值 30 和不同 SD 值的正態(tài)分布生成的。從中可以看出圖 2，設(shè)計(jì)效果隨著測序覆蓋率的可變性增加而增加，樣本量對(duì)設(shè)計(jì)效果的影響要小得多。這些結(jié)果表明，隨著測序覆蓋率的增加，需要對(duì)原始檢驗(yàn)進(jìn)行更大的校正，并且更大的樣本量不會(huì)降低設(shè)計(jì)效果。

圖1：具有不同測序覆蓋率平均值的模擬設(shè)計(jì)效果與樣本量的關(guān)系。

圖 2：不同測序覆蓋度 SD 的模擬設(shè)計(jì)效果與樣本量的關(guān)系。

甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組接下來在H A下進(jìn)行了模擬以研究所提出的檢驗(yàn)的功效，假設(shè)病例和對(duì)照中的甲基化水平來自具有不同平均值的分布。圖 3顯示了三種模擬場景在α = 0.0001 時(shí)評(píng)估的功率曲線。在圖中，效應(yīng)大小由 Cohen's d表示，并計(jì)算為平均差除以模擬中設(shè)置的標(biāo)準(zhǔn)偏差。如這些圖所示，所提出的檢驗(yàn)的功效隨著效果的大小而迅速增加。對(duì)比三種模擬場景，場景（a）和場景（b）的功率曲線幾乎相同，而場景（c）的功率與場景（a）和（b）相比有所降低。

圖 3：α = 0.0001時(shí)模擬的功率曲線。

接下來，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組分析了慢性淋巴細(xì)胞白血病 (CLL) 研究中的全基因組甲基化數(shù)據(jù)，這是一種主要發(fā)生在成人的 B 細(xì)胞淋巴瘤，是一種非常異質(zhì)的疾病。已知 Ig VH 基因內(nèi)的突變與癌癥的侵襲性有關(guān)，缺乏突變的患者預(yù)后較差。已知 CD38 水平與 Ig VH 突變狀態(tài) 和預(yù)后相關(guān)，具有較低水平的患者進(jìn)展較慢。

減少代表性亞硫酸氫鹽測序 (RRBS) 用于測量 11 個(gè) CLL 樣品中的甲基化水平。RRBS 技術(shù)提供對(duì)任何 CpG 位點(diǎn)進(jìn)行甲基化和未甲基化的 DNA 分子計(jì)數(shù)，這些位點(diǎn)通過典型運(yùn)行進(jìn)行測序，提供大約 200 萬個(gè) CpG 位點(diǎn)的數(shù)據(jù)。根據(jù) CD38 水平將樣本分類為低風(fēng)險(xiǎn)與高風(fēng)險(xiǎn)，其中 7 個(gè)樣本具有低 CD38 水平（低風(fēng)險(xiǎn)），4 個(gè)樣本具有高 CD38 水平（高風(fēng)險(xiǎn)）。甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組分析的 RRBS 數(shù)據(jù)已經(jīng)按照Pei 等人的描述進(jìn)行了清理和對(duì)齊。。

使用這種方法，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組獲得了 2,442,443 個(gè) CpG 位點(diǎn)的全基因組甲基化數(shù)據(jù)。所提議的檢驗(yàn)在高風(fēng)險(xiǎn)組中的設(shè)計(jì)效果平均值為 4.04 (SD = 7.88)。低風(fēng)險(xiǎn)組的設(shè)計(jì)效果平均值為 4.53 (SD = 12.59)。建議檢驗(yàn)的P值分布相對(duì)于均勻分布向更小的 P 值移動(dòng)，正如預(yù)期的那樣，如果一小部分 CpG 位點(diǎn)來自H A (圖 4）。為了比較，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組還通過首先從甲基化計(jì)數(shù)估計(jì)甲基化比例，然后對(duì)估計(jì)的甲基化比例進(jìn)行雙樣本t檢驗(yàn)，對(duì)數(shù)據(jù)集應(yīng)用t檢驗(yàn)方法。t檢驗(yàn)的P值分布(圖 5) 顯示了一種趨向于中等P值的模式，在P = 0.4附近具有強(qiáng)峰值。此分布不是H 0或H A下預(yù)期的形狀，反映了t檢驗(yàn)在 CLL 數(shù)據(jù)中的表現(xiàn)不佳。重要的是， t檢驗(yàn)中P值小于 0.01的 CpG 位點(diǎn)的百分比僅為 0.5%。

圖 4：應(yīng)用于 CLL 甲基化數(shù)據(jù)的建議檢驗(yàn)的P值分布。

圖 5：應(yīng)用于 CLL 甲基化數(shù)據(jù)的t檢驗(yàn)的P值分布。

甲基化高通量測序基因檢測質(zhì)量及控制標(biāo)準(zhǔn)分析與共識(shí)

對(duì)全基因組甲基化數(shù)據(jù)的分析賊近引起了很多關(guān)注。已經(jīng)提出了許多統(tǒng)計(jì)方法。然而，大多數(shù)方法都是針對(duì)微陣列生成的甲基化數(shù)據(jù)開發(fā)的。NGS 生成的甲基化數(shù)據(jù)對(duì)統(tǒng)計(jì)分析提出了若干挑戰(zhàn)。首先，與使用微陣列的甲基化實(shí)驗(yàn)不同，其中在特定 CpG 位點(diǎn)對(duì)一個(gè)個(gè)體進(jìn)行甲基化測量，這里甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組有每個(gè)個(gè)體的甲基化等位基因和非甲基化等位基因的計(jì)數(shù)。其次，由于測序覆蓋率的差異，受試者之間甲基化比例估計(jì)的正確性會(huì)有所不同。任何方法都應(yīng)適當(dāng)考慮這種差異。第三，真實(shí)β的分布是未知的，并且可能會(huì)影響任何關(guān)于均值β的檢驗(yàn). 第四，目前 NGS 測量每個(gè)樣本/受試者超過 200 萬個(gè) CpG 位點(diǎn)的甲基化。任何統(tǒng)計(jì)檢驗(yàn)都必須具有計(jì)算效率，才能應(yīng)用于高通量測序數(shù)據(jù)?？紤]到這些挑戰(zhàn)，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組提出了一種基于聚類數(shù)據(jù)分析的差異甲基化檢驗(yàn)，方法是直接對(duì)甲基化計(jì)數(shù)進(jìn)行建模。模擬結(jié)果表明，所提出的檢驗(yàn)在測量的甲基化水平的幾個(gè)分布下是穩(wěn)健的。所提出的檢驗(yàn)對(duì)于來自不同個(gè)體的覆蓋范圍的變化也是穩(wěn)健的。此外，所提出的檢驗(yàn)在計(jì)算上是有效的。在甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組的真實(shí)數(shù)據(jù)應(yīng)用程序中，只需 5 分鐘即可在超過 200 萬個(gè) CpG 站點(diǎn)執(zhí)行所有檢驗(yàn)。使用具有 3.3 GHz CPU 的臺(tái)式計(jì)算機(jī)在 R 中執(zhí)行計(jì)算。

盡管提議的檢驗(yàn)適用于基于二項(xiàng)式計(jì)數(shù)的差異甲基化檢驗(yàn)，但當(dāng)前的方法無法適應(yīng)諸如批次效應(yīng)或年齡和性別等協(xié)變量等因素。批次效應(yīng)可能在任何全基因組研究中都很重要。批次效應(yīng)可能會(huì)在測序覆蓋率方面進(jìn)入高通量測序甲基化研究。這里使用的檢驗(yàn)將解釋這種批次效應(yīng)。但是，在當(dāng)前檢驗(yàn)中可能無法正確考慮批次引起的任何其他隨機(jī)效應(yīng)。此外，已顯示相對(duì)甲基化水平與年齡密切相關(guān)和有性行為。未來的工作應(yīng)側(cè)重于擴(kuò)展此方法，以適應(yīng)協(xié)變量和批次效應(yīng)。

所提出的檢驗(yàn)的另一個(gè)限制是它是差異甲基化的單基因座測試，并且忽略了附近 CpG 位點(diǎn)之間的相關(guān)性。人們?cè)絹碓疥P(guān)注開發(fā)檢測差異甲基化區(qū)域 (DMR) 的方法?？梢詫⒓谆瘻y序與新一代測序技術(shù)應(yīng)用拓展重大課題組提出的測試包含在用于檢測 DMR 的分層建模方法中?？傊?，甲基化測序與新一代測序技術(shù)應(yīng)用拓展重大課題組提出的測試是全基因組甲基化研究的有前途和實(shí)用的測試。由于其效率，它適用于全基因組研究中差異甲基化的先進(jìn)輪掃描。

【佳學(xué)基因檢測】

A method to detect differentially methylated loci with next-generation sequencing.

Xu H, Podolsky RH, Ryu D, Wang X, Su S, Shi H, George V.

(責(zé)任編輯：佳學(xué)基因)