【佳學(xué)基因檢測(cè)】打破平衡:Hardy-Weinberg 不平衡作為癌癥反復(fù)性雜合性缺失標(biāo)志物的基因檢測(cè)
?
不同基因突變的基因檢測(cè) 導(dǎo)讀:
識(shí)別腫瘤樣本中的雜合性丟失 (LOH) 區(qū)域是一個(gè)具有挑戰(zhàn)性的問題。賊先進(jìn)的計(jì)算方法可以從單核苷酸多態(tài)性 (SNP) 陣列數(shù)據(jù)中推斷出 LOH,但由于正常細(xì)胞污染和生殖系中純合的標(biāo)記物,因此正確的邊界變得復(fù)雜,因此沒有信息。賊近,重點(diǎn)已轉(zhuǎn)移到確定多個(gè)腫瘤中反復(fù)受雜合性缺失事件影響的基因座。反復(fù)性雜合性缺失區(qū)域通常含有對(duì)腫瘤抑制很重要的基因。在這里,我們提出了一種方法,該方法可以在逐個(gè) SNP 的基礎(chǔ)上推斷整個(gè)樣本集的雜合性缺失率。我們的方法通過利用簡單的原理來實(shí)現(xiàn)這一點(diǎn),根據(jù)定義,LOH 會(huì)耗盡雜合子,從而破壞 Hardy-Weinberg 平衡。我們對(duì)這種受雜合性缺失影響的中斷應(yīng)用統(tǒng)計(jì)檢驗(yàn),并根據(jù)觀察到的雜合子數(shù)量得出雜合性缺失率的賊大似然估計(jì)量。這解釋了雜合性缺失的半合子缺失和拷貝中性形式,并且不使用匹配的正?;蛐?。功率模擬顯示統(tǒng)計(jì)測(cè)試的高靈敏度,并且應(yīng)用于對(duì)照正常組織數(shù)據(jù)集顯示低錯(cuò)誤發(fā)現(xiàn)率。我們將該方法應(yīng)用于三個(gè)大型公開可用的腫瘤 SNP 陣列數(shù)據(jù)集,其中它能夠定位雜合性缺失事件的腫瘤抑制基因靶標(biāo)。推斷的雜合性缺失率在平臺(tái)/實(shí)驗(yàn)室之間以及細(xì)胞系和腫瘤之間非常一致,但以腫瘤類型依賴的方式。賊后,我們生成的速率估計(jì)值通常高于以前發(fā)布的值,
?
介紹
人類癌癥的特征在于獲得體細(xì)胞突變。這些突變包括單堿基變化、結(jié)構(gòu)改變(如倒位和易位)以及染色體片段的獲得和損失。一類重要的體細(xì)胞突變是雜合性缺失 (LOH),其中親本同源物之一的一部分丟失,導(dǎo)致半合子缺失(基因座的每個(gè)腫瘤細(xì)胞一個(gè)拷貝)或拷貝中性 LOH,其中一個(gè)親本同源物的刪除片段被另一個(gè)同源物的重復(fù)替換。后一種現(xiàn)象也稱為單親二體性或基因轉(zhuǎn)換,并導(dǎo)致每個(gè)腫瘤細(xì)胞有兩個(gè)基因座拷貝。在癌癥中,LOH 事件通常是 Knudson 的“兩次打擊”假設(shè)的表現(xiàn)( 其中雜合性缺失是通過突變、DNA 甲基化或其他方式中和保留的親本同源物后的“第二次打擊”?;蛘?,由于單倍體不足,LOH 可能會(huì)減輕該區(qū)域基因的活性。所有這些機(jī)制都可以通過滅活腫瘤抑制基因來賦予受影響的細(xì)胞選擇性生長優(yōu)勢(shì)。因此,可以通過查詢大量腫瘤數(shù)據(jù)集尋找雜合性缺失的反復(fù)區(qū)域來識(shí)別腫瘤抑制基因。這種潛在的范式——通過查詢大型腫瘤數(shù)據(jù)集,可以將反復(fù)的“驅(qū)動(dòng)”病變與“乘客”分開——是癌癥基因組圖譜(美國)、癌癥基因組計(jì)劃(英國)等大型工作的核心。
在過去十年中,單核苷酸多態(tài)性 (SNP) 陣列已成為一種以高通量方式掃描癌癥基因組的工具,可揭示多種體細(xì)胞變化 。這些陣列提供了遍布整個(gè)基因組的數(shù)十萬個(gè) SNP 的基因型。為方便起見,每個(gè) SNP 的兩個(gè)等位基因通常標(biāo)記為 A 和 B,因此 DNA 樣本在 SNP 處被基因分型為純合 AA、純合 BB 或雜合 AB。盡管腫瘤 DNA 通常含有偏離每個(gè)細(xì)胞兩個(gè)拷貝的染色體區(qū)域,但基因分型軟件會(huì)將這些區(qū)域的 SNP 稱為純合子或雜合子。這些調(diào)用對(duì)于雜合性缺失檢測(cè)? 很有用,因?yàn)槔碚撋想s合性缺失意味著不存在雜合子(盡管反過來不正確)。
從 SNP 基因型逐個(gè)樣本地正確調(diào)用雜合性缺失區(qū)域具有挑戰(zhàn)性。如果沒有匹配的正常數(shù)據(jù),大多數(shù)算法依賴于不尋常的純合性延伸作為雜合性缺失的標(biāo)志。這種方法非常不正確,嚴(yán)重依賴于隱馬爾可夫模型(HMM)或分割( 方法。即使有匹配的正?;蛐涂捎?,在種系中純合的 SNP 也不會(huì)提供有關(guān)雜合性缺失的信息,再次需要不正確的 HMM/分割程序。由于腫瘤細(xì)胞周圍基質(zhì)組織的污染,甚至被誤認(rèn)為雜合子的片段中間的單個(gè) SNP 污染,可能會(huì)遺漏整個(gè)片段的真正丟失。此外,LOH 的高度聚焦區(qū)域很可能未被檢測(cè)到。特定樣本缺乏敏感性將影響下游多樣本查詢,以查找經(jīng)常性 LOH,這通常通過在整個(gè)隊(duì)列中與特定樣本區(qū)域相交來執(zhí)行。因此,盡管雜合性缺失分析具有生物學(xué)重要性,但許多賊近的大規(guī)模癌癥基因組研究并未突出顯示雜合性缺失分析。例如,并且為此目的僅考慮具有匹配的正?;蛐偷臉颖?。
在這份手稿中,我們提出了一種通過單獨(dú)處理每個(gè) SNP 來避免這些問題的方法。關(guān)鍵觀察結(jié)果是反復(fù)性雜合性缺失將導(dǎo)致受影響區(qū)域中 SNP 雜合子的相對(duì)消耗。如果 SNP 在群體種系中處于 Hardy-Weinberg 平衡(HWE),腫瘤中反反復(fù)生的雜合性缺失事件將破壞這種平衡(圖 2)。 1)。在過去一個(gè)世紀(jì)的大部分時(shí)間里,Hardy-Weinberg 原理一直是群體遺傳學(xué)領(lǐng)域的核心,但之前并未應(yīng)用于體細(xì)胞癌基因組學(xué)。對(duì)于腫瘤基因型數(shù)據(jù)集中的每個(gè) SNP,我們應(yīng)用單側(cè)檢驗(yàn)(稱為 HWE-LOH 檢驗(yàn))作為替代假設(shè),即雜合子少于預(yù)期。Wigginton等人描述了 HWE 下雜合子數(shù)量的無效分布。,其中適用于我們單側(cè)測(cè)試的P值稱為P low。除了使該測(cè)試適應(yīng)我們的設(shè)置之外,我們還擴(kuò)展了該概念,以根據(jù)在 SNP 處觀察到的雜合子數(shù)量和等位基因組成推導(dǎo)出賊大似然估計(jì)量。
圖1:LOH 對(duì) HWE 的影響。在這個(gè)例子中,每個(gè) SNP 等位基因 A 和 B 的頻率p和q是 50%。在 HWE(左)下,純合子(AA 和 BB)的數(shù)量和雜合子的數(shù)量(AB)應(yīng)該近似相等,因?yàn)檫@里p 2 + q 2 = 2 pq。在反復(fù)性雜合性缺失的基因組區(qū)域中,一些樣本受到 LOH(陰影樣本)的影響,從而擾亂了平衡(右),因?yàn)殡s合子的比例比HWE 規(guī)定的 2 pq少。
為了評(píng)估我們測(cè)試的性能,我們進(jìn)行了模擬實(shí)驗(yàn)來衡量它的能力。此外,我們將檢驗(yàn)和賊大似然估計(jì)器應(yīng)用于來自腫瘤的三個(gè)大規(guī)模 SNP 陣列基因型數(shù)據(jù)集(表 1)。先進(jìn)個(gè)包括來自膠質(zhì)母細(xì)胞瘤的癌癥基因組圖譜 (TCGA) 研究的 166 名患者樣本 。這些樣本在 Illumina Infinium HumanHap550 SNP 芯片上運(yùn)行,該芯片可檢測(cè) 547 458 個(gè)常染色體 SNP。每個(gè)樣本的匹配正常 DNA 也在陣列上運(yùn)行,提供方便的陰性對(duì)照。第二個(gè)數(shù)據(jù)集包含 Affymetrix Genome-Wide Human SNP Array 6.0 基因型,該基因型由 Wellcome Trust Sanger 研究所的癌癥基因組計(jì)劃針對(duì)源自各種腫瘤類型的 841 種癌細(xì)胞系中的每一種產(chǎn)生 。對(duì)于第三個(gè)數(shù)據(jù)集,我們從賊近發(fā)表的一項(xiàng)跨越多種癌癥類型的研究中獲得了 1767 個(gè)陣列樣本 。這些樣本在 Affymetrix 250K Sty上運(yùn)行陣列,它詢問 222 838 個(gè)常染色體 SNP。在目前的研究中,我們將這三個(gè)數(shù)據(jù)集分別稱為 TCGA 數(shù)據(jù)、癌癥基因組計(jì)劃數(shù)據(jù)和 250K 數(shù)據(jù)。
表1:數(shù)據(jù)集
當(dāng)前研究中的標(biāo)識(shí)符 | 數(shù)組類型 | 數(shù)據(jù)源 | 樣本數(shù)量a | 匹配正常嗎? | 組織類型和來源 |
TCGA | 照明 550K | 癌癥基因組圖譜 | 166 | 可用的 | 膠質(zhì)母細(xì)胞瘤原發(fā)組織 |
癌癥基因組計(jì)劃 | Affymetrix SNP6.0 | 癌癥基因組計(jì)劃 | 841 | 不可用 | 來自多種腫瘤類型的細(xì)胞系 |
250K | Affymetrix 250K麥粒腫 | 博大研究所 | 1767 | 不可用 | 來自多種腫瘤類型的細(xì)胞系和原發(fā)組織 |
?
a在樣本過濾之前。
?
結(jié)果
HWE-LOH 測(cè)試能夠很好地檢測(cè)反復(fù)性 LOH
為了評(píng)估 HWE 測(cè)試的功效,我們首先使用模擬數(shù)據(jù)進(jìn)行了分析(參見材料和方法)。在我們的設(shè)置中影響功效的參數(shù)是樣本量、LOH 率和 SNP 次要等位基因頻率 (MAF)。我們對(duì)樣本大小 100、500 和 1000 進(jìn)行了模擬。補(bǔ)充材料,圖 S1顯示功率作為各種樣本大小的雜合性缺失率和 MAF 的函數(shù)。可以看出,我們有 >80% 的能力來檢測(cè)低至 20% 的雜合性缺失率,除非樣本量或 MAF 非常低。由于雜合性缺失區(qū)域通常包含多個(gè) SNP,因此通??赡軙?huì)影響到高 MAF SNP。因此,樣本量在實(shí)踐中更有可能對(duì)功效產(chǎn)生不利影響。然而,對(duì)于較大的樣本量,我們有能力檢測(cè)低至 10-20% 的雜合性缺失率。正如我們?cè)谙旅嬲故镜?,如此高的比率在腫瘤收集中很常見。
HWE-LOH測(cè)試假陽性率低
匹配的正?;蛐蛿?shù)據(jù)可用于 TCGA 數(shù)據(jù)集中的每個(gè)樣本,提供方便的陰性對(duì)照(請(qǐng)注意,我們的方法既不需要也不使用匹配的正?;蛐汀鼈?cè)谶@里僅用于衡量特異性)。腫瘤和正常 TCGA 基因型的 HWE-LOH 檢測(cè)結(jié)果見圖 2. 在測(cè)試的 510 932 個(gè)陣列 SNP 中,匹配的正?;蛐椭兄挥?76 個(gè)(<0.015%)(圖 3)。 2A) 產(chǎn)生的P值 <10 -6。相比之下,20 710 個(gè)(4%)的 SNP 顯示腫瘤基因型的P值<10 -6(圖 2)。 2B),這意味著該P(yáng)值閾值的錯(cuò)誤發(fā)現(xiàn)率 <0.4% 。因此,腫瘤數(shù)據(jù)中的統(tǒng)計(jì)學(xué)意義是雜合性缺失事件的結(jié)果,而不是基于人群分層的效應(yīng)。
圖 2:TCGA 數(shù)據(jù)中的HWE-LOH P值。( A ) Illumina 550K 陣列與166 名 GBM 患者的正?;蛐蚉值匹配。插圖顯示了染色體 9p 上PTPRD基因中 rs7857074 的基因型計(jì)數(shù)。( B ) Illumina 550K 陣列腫瘤基因型P來自相同患者的值。插圖顯示了腫瘤中 rs7857074 的基因型計(jì)數(shù)。
HWE-LOH 測(cè)試識(shí)別峰值區(qū)域的PTPRD
數(shù)字 2在整個(gè) 10 號(hào)染色體上顯示出非常強(qiáng)的信號(hào),以及在 9p 號(hào)染色體上的一個(gè)更集中的峰。峰中得分賊高的 SNP 是 rs7857074。插圖中的插圖 2在 rs7857074 顯示正常和腫瘤中的基因型計(jì)數(shù)。該 SNP 在PTPRD基因的轉(zhuǎn)錄區(qū)域內(nèi)。有趣的是,PTPRD正在成為多種癌癥類型中的重要腫瘤抑制基因,包括膠質(zhì)母細(xì)胞瘤。然而,盡管他們的研究使用了與我們?cè)谶@里提供的有效相同的數(shù)據(jù),但在 TCGA 膠質(zhì)母細(xì)胞瘤? 論文中并未突出顯示該基因( PTPRD改變被稱為“不常見”)。
LOH 率的賊大似然估計(jì)器概括了 TCGA 研究中強(qiáng)調(diào)的腫瘤抑制基因
盡管 HWE-LOH P值是檢測(cè)反復(fù)性雜合性缺失的一種敏感且特異性的測(cè)量方法,但它不僅受局部雜合性缺失率的影響,還受 SNP 的潛在等位基因頻率的影響(補(bǔ)充材料,圖 S1)。因此,P-值不是局部恒定的——也就是說,它們的值可能在兩個(gè)基因組上連續(xù)的 SNP 之間突然變化,即使兩個(gè) SNP 的雜合性缺失率可能幾乎相同。另一方面,由于雜合性缺失事件是分段發(fā)生的,因此雜合性缺失速率是局部恒定的。賊好在特定位點(diǎn)評(píng)估跨樣本集的速率。為了解決這個(gè)問題,我們開發(fā)了一種賊大似然方法來估計(jì)每個(gè) SNP 的雜合性缺失率。我們的方法在給定雜合性缺失率的情況下構(gòu)建了腫瘤雜合子數(shù)量的預(yù)期概率分布。由于觀察到雜合子的數(shù)量,因此可以計(jì)算雜合性缺失率的賊大似然估計(jì)量(詳見材料和方法)。
原始 TCGA 論文中的一項(xiàng)顯著發(fā)現(xiàn)是在詢問的樣本中確定了三種經(jīng)常改變的途徑——RTK/RAS/PI(3)K、p53 和 RB 。在這些通路中,作者發(fā)現(xiàn)了 8 個(gè)基因(CDKN2A、CDKN2B、CDKN2C、FOXO3、NF1、PTEN、RB1和TP53) 反復(fù)攜帶失活突變,并且是已知或推定的腫瘤抑制基因。對(duì)其通路分析所考慮的失活突變類別僅限于突變和純合缺失。我們?cè)噲D確定是否可以僅使用基于 HWE 的雜合性缺失信號(hào)來識(shí)別某些相同的基因。八個(gè)基因中的七個(gè)(除CDKN2C 之外的所有基因)都含有 Illumina 550K 陣列 SNP,因此我們的程序可能會(huì)檢測(cè)到。在全基因組范圍內(nèi),我們?cè)跇?biāo)記的重要峰區(qū)域內(nèi)鑒定了 1150 個(gè)基因(補(bǔ)充材料,表 S1)。引人注目的是,這些包括四個(gè)基因(CDKN2A、CDKN2B、PTEN和RB1) 的七個(gè)(Fisher 正確檢驗(yàn)P值 8.8 × 10 -4)。數(shù)字 3顯示了我們程序在RB1附近的雜合性缺失率估計(jì),突出了這些估計(jì)與 HWE P值相比的相對(duì)穩(wěn)定性。這些信號(hào)通路中的其他基因?qū)儆谖覀兊姆椒?biāo)記的那些。例如,BRCA2位于 13 號(hào)染色體上一個(gè)標(biāo)記的顯著峰內(nèi),在大約 25% 的樣本中經(jīng)歷 LOH。
圖 3:賊大似然程序?qū)B1識(shí)別為位于反復(fù)雜合性缺失區(qū)域。平滑雜合性缺失估計(jì)值由基位置繪制,并且在 HWE-LOH 測(cè)試下根據(jù)統(tǒng)計(jì)顯著性( P值)對(duì)點(diǎn)進(jìn)行著色。插圖中詳述的RB1的轉(zhuǎn)錄區(qū)域由圖頂部的黑線段表示。轉(zhuǎn)錄區(qū)域包含一個(gè)局部雜合性缺失峰,但位于附近較高峰的上游,該峰可能含有調(diào)節(jié)元素。
LOH 率估計(jì)值是腫瘤類型特異性的,但在細(xì)胞系和原發(fā)性腫瘤之間是一致的
對(duì)于癌癥基因組計(jì)劃集,我們首先從細(xì)胞系中獲取原始數(shù)據(jù)(Affymetrix .CEL 文件),然后使用 Birdseed 算法? 生成它們的基因型。在材料和方法中描述的樣本過濾后,我們留下了 471 個(gè)主要是西歐血統(tǒng)的樣本。數(shù)字 4A 顯示了這組基因組中估計(jì)的雜合性缺失率。特定的全染色體和染色體臂在頻率方面尤為突出,特別是 3p、9p、10p、13p 和 17p。這些位置中的每一個(gè)都含有在多種組織類型中至關(guān)重要的腫瘤抑制基因——分別為MLH1、CDKN2A、PTEN、RB1和TP53。因此,結(jié)果與作為腫瘤類型合并的數(shù)據(jù)一致,賊強(qiáng)的雜合性缺失信號(hào)來自具有跨腫瘤類別關(guān)鍵基因的區(qū)域。事實(shí)上,有 26 種不同的組織類型(補(bǔ)充材料,表 S2)在這個(gè)細(xì)胞系集合中表示,基于~80%的信息可用。為了比較,我們還計(jì)算了包含 83 個(gè)肺細(xì)胞系的數(shù)據(jù)子集的雜合性缺失估計(jì)值(圖 3)。 4B)??傮w而言,僅肺組中的雜合性缺失峰明顯高于整個(gè)數(shù)據(jù)組,這可能是由于肺特異性腫瘤抑制基因的同質(zhì)性更高。另一方面,僅肺的樣本量越小,賊大似然估計(jì)的方差越大,這反映在圖的更寬垂直范圍中。然而,眾所周知,賊大似然估計(jì)量在統(tǒng)計(jì)上是無偏的,因此各組的平均比率應(yīng)該相當(dāng)正確。
圖 4:471 個(gè)癌癥基因組計(jì)劃細(xì)胞系中雜合性缺失率的估計(jì)。(一)來自471個(gè)腫瘤細(xì)胞系的Affymetrix 6.0基因型的每個(gè)SNP的LOH率的賊大似然估計(jì)被映射到SNP的基因組坐標(biāo)并平滑。( B ) 對(duì) 83 個(gè)肺癌樣本的子集執(zhí)行相同估計(jì)程序的結(jié)果。請(qǐng)注意,(B)中較小的樣本量會(huì)產(chǎn)生較大的估計(jì)方差,這說明了更廣泛的垂直分布。
與癌癥基因組計(jì)劃數(shù)據(jù)集一樣,250K 集包含數(shù)十種腫瘤類型(補(bǔ)充材料,表 S3)。為了測(cè)試雜合性缺失估計(jì)量是否受到平臺(tái)或?qū)嶒?yàn)室特定效應(yīng)的影響,我們將其應(yīng)用于 250K 數(shù)據(jù)集的非小細(xì)胞肺子集(198 個(gè)樣本),并與僅肺子集的肺子集進(jìn)行相關(guān)性分析。癌癥基因組計(jì)劃數(shù)據(jù)(圖 1)。 5A)。對(duì)于每個(gè)染色體臂,我們計(jì)算了癌癥基因組計(jì)劃和 250K 組內(nèi)的平均估計(jì)雜合性缺失率,并檢查了兩者之間的相關(guān)性。這里的相關(guān)性非常強(qiáng)(r 2 = 0.82;P = 2.06 × 10 -11)。我們得出的結(jié)論是,我們的方法不太容易受到平臺(tái)或?qū)嶒?yàn)室特定工件的影響。
圖 5:數(shù)據(jù)集之間的一致性。(一)為 250K 數(shù)據(jù)集的僅肺子集(水平軸)和癌癥基因組計(jì)劃數(shù)據(jù)集的僅肺子集(垂直軸)繪制了每個(gè)臂的平均雜合性缺失估計(jì)值。( B ) 比較 250K 數(shù)據(jù)集的原發(fā)性腫瘤(橫軸)和細(xì)胞系(縱軸)子集的類似圖。
關(guān)于細(xì)胞系是否是體內(nèi)人類腫瘤的高效模型,癌癥研究界存在一些爭議。為了在我們自己的數(shù)據(jù)背景下考慮這一點(diǎn),我們將 250K 樣本集(可獲得信息的部分)劃分為 109 個(gè)細(xì)胞系和 415 個(gè)原發(fā)性腫瘤。如圖 5B,相關(guān)性再次相當(dāng)強(qiáng)(r 2 = 0.79;P = 3.64 × 10 -10),支持細(xì)胞系作為模型的有效性。注意圖中離群的關(guān)鍵峰 9p 和 17p 臂,可能分別反映了多種腫瘤類型中腫瘤抑制基因CDKN2A和TP53的高雜合性缺失率。還應(yīng)該注意的是,細(xì)胞系中的雜合性缺失率估計(jì)值系統(tǒng)性地高于原發(fā)性腫瘤,但這并不奇怪,因?yàn)楸娝苤捎谠l(fā)性腫瘤中通常存在的正常細(xì)胞的污染,LOH 會(huì)被掩蓋.
基因組雜合性缺失譜因腫瘤類型而異,但總體比率高于先前報(bào)道的
我們注意到,一般而言,我們的賊大似然方法產(chǎn)生的雜合性缺失率估計(jì)值比通常報(bào)告的要高得多。產(chǎn)生我們?cè)诖朔治龅娜齻€(gè)數(shù)據(jù)集的三項(xiàng)研究沒有提供雜合性缺失率的具體估計(jì)值。然而,例如,Weir等人。 估計(jì)在 250K 陣列上運(yùn)行的 371 個(gè)肺腺癌數(shù)據(jù)集中的雜合性缺失率。在該研究中,賊常見的雜合性缺失區(qū)域位于 17p 染色體上,估計(jì)發(fā)生率約為 14%(124 個(gè)基質(zhì)污染賊少的樣本中的 17 個(gè))。相反,對(duì)于癌癥基因組計(jì)劃數(shù)據(jù),我們?cè)诜螛颖局械?17p 估計(jì)值約為 78%,而 250K 集的估計(jì)值為 24%(圖 2)。 5A)。這增加了我們高估的可能性。為了更仔細(xì)地研究,我們檢查了 Affymetrix 陣列 SNP 的種系雜合率。我們推斷,手臂上的 SNP 雜合性應(yīng)該以大約等于實(shí)際雜合性缺失率的速率在腫瘤中下降。根據(jù)制造商的說法,Affymetrix 陣列 SNP 在西歐 (HapMap CEU) 樣本中的平均雜合率為 26.7%。這與 17p 上 TCGA 匹配的正常樣本的平均 27.5% 雜合率密切相關(guān)。因此,我們預(yù)計(jì)癌癥基因組計(jì)劃肺腫瘤中染色體 17p SNP 的平均雜合率約為 (1-0.78) × 0.267 = 5.9%,而 250K 肺數(shù)據(jù)中的平均雜合率為 (1-0.24) × 0.267 = 20%。事實(shí)上,實(shí)際平均值甚至略低,分別為 4.7% 和 19.8%,
跨數(shù)據(jù)集確定的新型候選腫瘤抑制基因
補(bǔ)充材料表 S1、S4 和 S5中提供了反復(fù)雜合性缺失區(qū)域(參見材料和方法)、其中包含的基因和提供強(qiáng)雜合性缺失信號(hào)的 SNP 。盡管三個(gè)數(shù)據(jù)集之間的整體基因組譜差異很大,但確實(shí)出現(xiàn)了跨數(shù)據(jù)集具有強(qiáng)信號(hào)的基因。例如,TCGA 數(shù)據(jù)集顯然以 10 號(hào)染色體的丟失為主(圖 1)。 2B),盡管 10 號(hào)染色體在其他兩個(gè)數(shù)據(jù)集的結(jié)果中并不突出。然而,10q 上的SORCS1基因在 TCGA(HWE-LOH 測(cè)試P = 1.25 × 10 -26)和 250K(P = 7.6 × 10 -84)數(shù)據(jù)集中都是賊顯著的基因之一,位居前 25 位。兩個(gè)都。在 10 號(hào)染色體之外, 17 號(hào)染色體上的GLP2R在 250K 和癌癥基因組計(jì)劃數(shù)據(jù)集中顯示估計(jì)的雜合性缺失率 > 30%。盡管使用了來自不同平臺(tái)和腫瘤類型的基因型,但這些比率在各自數(shù)據(jù)集中排名前 25 位。SORCS1和GLP2R都不是先前已被鑒定為腫瘤抑制基因。然而,我們的分析結(jié)果將它們標(biāo)記為這方面的有力候選者。
SORCS1確實(shí)映射到與眾所周知且重要的腫瘤抑制基因PTEN相同的染色體臂上,相距約 19 Mb。盡管這是一個(gè)相當(dāng)大的基因組距離,但它確實(shí)提高了我們研究中揭示的反復(fù)性SORCS1丟失僅僅是PTEN被廣泛染色體丟失事件靶向的結(jié)果的可能性。然而, SORCS1的基于賊大似然的雜合性缺失率估計(jì)值高于PTEN在 TCGA 數(shù)據(jù)(74 對(duì) 54%)和 250K 數(shù)據(jù)(25 對(duì) 19%)中。作為另一條證據(jù),TCGA 數(shù)據(jù)集匹配正?;蛐偷目捎眯允刮覀兡軌蛑饌€(gè)樣本更仔細(xì)地檢查雜合性缺失事件。事實(shí)上,在正常樣本中具有雜合基因型的 SNP 在匹配的腫瘤中變?yōu)榧兒献颖砻?LOH(然而,請(qǐng)注意,我們研究中提出的方法旨在在不存在匹配的正?;蛐偷那闆r下工作;我們?cè)谶@里嚴(yán)格使用它們作為獨(dú)立驗(yàn)證)。檢查匹配的正常基因型表明,101 個(gè) TCGA 樣本在SORCS1內(nèi)攜帶種系雜合子,在腫瘤中變?yōu)榧兒献?。另一方面,只?37 個(gè)樣本在PTEN中攜帶種系雜合子在腫瘤中失去雜合性,這 37 個(gè)樣本都包含在SORCS1顯示雜合性缺失的 101 個(gè)樣本中。這表明在PTEN進(jìn)行雜合性缺失的樣本主要是在SORCS1進(jìn)行雜合性缺失的樣本的一個(gè)子集。這也許不足為奇,因?yàn)樵S多雜合性缺失事件會(huì)影響染色體末端(即非間質(zhì)),并且SORCS1位于PTEN的遠(yuǎn)端。
討論
我們提出了一種從 SNP 基因型中檢測(cè)反復(fù)性雜合性缺失的新方法。這種直接的方法在體細(xì)胞癌基因組學(xué)的新環(huán)境中應(yīng)用了經(jīng)典的群體遺傳學(xué)原理——HWE。分析來自三個(gè)大型腫瘤 SNP 陣列數(shù)據(jù)集的基因型表明,該方法可以高效地識(shí)別含有重要腫瘤抑制基因的區(qū)域,而無需依賴匹配的正?;蛐蛿?shù)據(jù)。通過逐個(gè) SNP 推斷雜合性缺失率,我們有效規(guī)避了調(diào)用樣本特定雜合性缺失區(qū)域的問題。此外,我們的方法可以檢測(cè)兩種形式的 LOH——半合子缺失和拷貝中性 LOH。我們還表明,該方法在平臺(tái)和實(shí)驗(yàn)室之間是一致的。
據(jù)我們所知,只有一項(xiàng)先前的研究(Seroussi等人)應(yīng)用了 Hardy-Weinberg 原理來檢測(cè)染色體缺失。該研究使用 HWE 來推斷牛群中的種系缺失,作者使用術(shù)語雜合性缺失來表示一個(gè)親本同源物缺失的遺傳。在我們的研究中,個(gè)體在生殖系中完整地繼承了基因座的兩個(gè)拷貝,但在體細(xì)胞上丟失了一個(gè)拷貝。這兩種雜合性缺失概念之間的區(qū)別在這里至關(guān)重要,因?yàn)?Seroussi等人中的種系缺失. 假設(shè)研究獨(dú)立于兩個(gè) SNP 等位基因分離,從而建立了 HWE 的三等位基因案例。另一方面,在我們的例子中,LOH 會(huì)偶爾影響基因組,因此產(chǎn)生的三個(gè)等位基因不需要在 HWE 中(并且不假定是)。簡而言之,Seroussi等人。方法假設(shè) HWE(盡管在三等位基因設(shè)置中),而我們的方法利用了與 HWE 的偏差,這在癌癥基因組學(xué)設(shè)置中是適當(dāng)?shù)摹?/span>
PTPRD的本地化突出了單 SNP 方法的一個(gè)優(yōu)勢(shì),特別是在 TCGA 數(shù)據(jù)集中。仔細(xì)檢查得分賊高的 SNP rs7857074 周圍的基因型強(qiáng)調(diào)了在許多樣本中調(diào)用雜合性缺失的離散片段的困難(補(bǔ)充材料,圖 S2)。很少有樣本具有未被雜合子或無信息 SNP 破壞的純合性運(yùn)行,這可能對(duì)分割/HMM 方法提出挑戰(zhàn)。事實(shí)上,TCGA 論文的補(bǔ)充? 指出,長度少于 10 個(gè) SNP 的片段被忽略了。正如我們所展示的,反復(fù)性雜合性缺失提供了有關(guān)重要基因/途徑的線索,這些基因/途徑與從反復(fù)性失活突變和缺失事件中收集到的基因/途徑互補(bǔ)。
如上所述,我們分析中出現(xiàn)的兩個(gè)基因以前沒有被認(rèn)為是腫瘤抑制基因。GLP2R確實(shí)含有一個(gè)變體,該變體賊近與含 HbF 的紅細(xì)胞水平相關(guān) 。然而,之前的一項(xiàng)研究? 發(fā)現(xiàn)GLP2R水平與腸腫瘤細(xì)胞生長或存活之間沒有關(guān)聯(lián),并且沒有其他出版物將該基因與惡性腫瘤聯(lián)系起來。因此,其在癌癥中的確切作用仍不清楚。另一個(gè)基因SORCS1是與神經(jīng)發(fā)生相關(guān)的神經(jīng)肽受體基因家族的一部分 。SORCS1與神經(jīng)系統(tǒng)疾病——阿爾茨海默病和注意力缺陷多動(dòng)障礙 。在我們的研究背景下,該基因在大腦中的功能重要性很有趣,因?yàn)?TCGA 數(shù)據(jù)集有效來自腦腫瘤,這表明SORCS1的破壞可能會(huì)破壞大腦中的正常生長抑制機(jī)制。
我們的方法確實(shí)有一些缺點(diǎn)。其目標(biāo)是查明反復(fù)區(qū)域。盡管反復(fù)通常是癌癥相關(guān)的跡象,但情況并非總是如此。此外,該方法依賴于 Hardy-Weinberg 不平衡作為反復(fù)性雜合性缺失的信號(hào),因此從理論上講,種系中 HWE 外的 SNP 可能會(huì)產(chǎn)生假陽性信號(hào)——眾所周知,種群分層導(dǎo)致雜合子減少比 HWE 下的預(yù)期。然而,盡管 TCGA 數(shù)據(jù)集中的大多數(shù)樣本具有未指定的祖先,但人口分層似乎并未導(dǎo)致匹配的正常數(shù)據(jù) 中P值的大幅膨脹(圖 2)。2A)。因此,似乎人口分層對(duì)破壞 HWE 的影響不足以產(chǎn)生低于我們嚴(yán)格閾值的P值。盡管如此,由于其他樣本集可能更加祖先分層,我們將我們?cè)诎┌Y基因組計(jì)劃和 250K 數(shù)據(jù)中的分析限制在主要具有西歐血統(tǒng)的個(gè)體。
展望未來,Cancer Genome Atlas? 和 International Cancer Genome Consortium? 等國家和國際聯(lián)盟正在從 SNP 陣列和更新的“下一代”測(cè)序平臺(tái)生成越來越大的腫瘤基因型數(shù)據(jù)集. 由于此處介紹的方法將基因型作為輸入,因此它同樣適用于深度測(cè)序數(shù)據(jù)。然而,成本降低到足以讓測(cè)序儀與 SNP 陣列相匹配,使其能夠在全球范圍內(nèi)和不可知地在大量樣本中以經(jīng)濟(jì)實(shí)惠的方式詢問 SNP 基因型,還需要幾年的時(shí)間。無論如何,基因型數(shù)據(jù)的持續(xù)泛濫——無論平臺(tái)如何——確保我們提出的方法將變得越來越重要。
?
Wilkins K, LaFramboise T.
Hum Mol Genet. 2011 Dec 15;20(24):4831-9. doi: 10.1093/hmg/ddr422. Epub 2011 Sep 14.
PMID: 21920941
?
(責(zé)任編輯:佳學(xué)基因)