犬のエピゲノムの統合的マッピング: 組織間および種間比較研究のための参照アノテーション

広告
VOL. 9, NO. 27
オープンアクセス
研究論文
システム生物学
共有する
犬のエピゲノムの統合的マッピング: 組織間および種間比較研究のための参照アノテーション
KEUN HONG SON HTTPS://ORCID.ORG/0000-0002-2583-6272, MARK BORRIS D. ALDONZA HTTPS://ORCID.ORG/0000-0002-0771-129X, [...], AND JE-YOEL CHO HTTPS://ORCID.ORG/0000-0003-1030-3577 +5著者情報・所属機関
科学の進歩
5 7月 2023
9巻 27号
DOI: 10.1126/sciadv.ade3399
88
メトリクス
ダウンロード数88
過去6ヶ月88
過去12ヶ月88
概要
はじめに
結果
考察
方法
謝辞
補足資料
参考文献と注釈
電子レター (0)
情報と著者
指標と引用
表示オプション
参考文献
メディア
テーブル
シェア
概要
イヌは、ヒトの健康に関連する多面的な疾患や生物学を研究する上で貴重なモデルとなっている。大規模な犬ゲノムプロジェクトにより質の高いドラフト文献が作成されているにもかかわらず、機能的要素の包括的なアノテーションはまだ不足している。我々は、11の組織型にわたる5つのヒストン・マークとDNAメチローム・プロファイリングと対になったトランスクリプトームの統合的次世代シーケンシングによってこの問題に取り組み、明確なクロマチン状態、スーパーエンハンサー、メチローム・ランドスケープを定義することによって犬のエピジェネティック・コードを解読し、その結果、これらの領域が広範な生物学的機能と細胞・組織の同一性に関連していることを示した。さらに、表現型に関連するバリアントが組織特異的な制御領域に濃縮されていることを確認し、バリアントの起源組織を追跡することができた。最終的には、組織特異的、生物種特異的な解像度で、保存された動的なエピゲノムの変化を明らかにした。この研究は、比較生物学や医学研究に利用できる犬のエピゲノム青写真を提供する。
SCIENCE ADVANCES eTOCを購読する
Science Advancesの最新目次をお届けします!
登録する
はじめに
ハイイロオオカミ(1)の子孫であるイヌ科の愛玩犬は、現代の遺伝学のチャンピオンである。20,000年以上の家畜化の歴史を持つ犬の遺伝学は、形態から行動までの表現型形質の進化と多様化に関する貴重な洞察を提供してきた(2, 3)。世界的に認知されている450以上の犬種の特徴的な特性は、固定した犬種内の同質性を維持しながら、非常に多様な犬種間の異質性を示す遺伝の混合を表している(4)。集団ボトルネックから生じたこれらの変異は、複雑な犬種形質(5)、遺伝性疾患(6)、がんなどの疾患に対する遺伝的素因(7)の生物学的基盤を理解する上で有用である。したがって、イヌゲノムとその特徴を慎重かつ広範にアノテーションすることは、動物とヒトの双方にとって重要な生物医学の進歩において、このような知識の影響力を増大させるために必要である。
最近、イヌのゲノムの構造や転写産物の複雑さが解明され、新たに参照アセンブリが作成されたにもかかわらず(8, 9)、イヌゲノムの機能的DNA要素はまだ包括的にアノテーションされていない。生物学的プロセス、疾患、細胞・組織の同一性において遺伝子やゲノムがどのように機能するかについての情報を提供する(10, 11)、多様な制御機能を持つ配列特徴からなるこれらの要素は、Encyclopedia of DNA Elements (ENCODE)プロジェクト(10-12)を通して、ヒトとマウスの両ゲノムについて包括的にマッピングされ、さらに継続的に改良されてきた。これらの高解像度アノテーションは、主にハイスループット実験によって行われ、すでに機能的エレメントの多様なクラスについての理解を広げ、何が「機能」を構成し、何が「エレメント」の境界を設定するのかを定義する際の食い違いを狭めている(12, 13)。ヒトとマウスのこれらのカタログに適用された比較ゲノミクス・アプローチは、進化の過程で、転写活性、遺伝子発現、クロマチン修飾、シス調節エレメント、染色体ドメインが、両種のゲノム間で優先的に保存されているパターンを明らかにした。これらの成果から得られた統合的なデータセットにより、種間のゲノム特徴を前例のないレベルで比較することが可能になり、保存された配列特徴と、転写や制御における広範な分岐の両方が明らかになった(12, 13)。例えば、比較的高いレベルで保存されているにもかかわらず、異なる生物学的経路に関与するマウス遺伝子は、ヒトのオルソログとはかなり乖離していることがわかった。この乖離は、特定の組織コンテクストで活性を示すエレメントのクラスによって、2つのゲノム間のシス制御ランドスケープにも反映されている。しかし、おそらく最も注目すべき成果は、細胞系列レベルでの制御配列候補の種特異性、クロマチン状態ランドスケープ、クロマチンドメインの定義が強化されたことである(12)。他の研究成果とともに、拡大するENCODEプロジェクトは、比較ゲノム学における新たな基準を打ち立てた。しかし、現在のところ、これらのENCODEに匹敵するような犬用のリソースはないため、犬の遺伝学者は主に、犬にリマップされたヒトやマウスのゲノムアノテーションに頼っている(14)。残念なことに、この方法はしばしば限定的で不正確であり、その結果、下流の解析が行えないアウトプットになってしまう(14, 15)。
ここでは、イヌゲノムの包括的な11組織ベースの機能アノテーションを報告する。我々の研究は、ENCODE (10, 12)、Functional Annotation of the Mammalian Genome (FANTOM)(16)、Functional Annotation of Animal Genomes (FAANG)(17)コンソーシアムが開始した模範的プロジェクトに基づいている。我々は、3頭の成犬から採取した多様な体組織から、自社で作成したRNAシーケンス(RNA-seq)、5つの主要なヒストン標識のクロマチン免疫沈降後シーケンス(ChIP-seq)、およびメチル-シトシン-リン酸-グアニン(CpG)結合ドメインシーケンス(MBD-seq)のデータセットを、公開されているトランスポザーゼアクセス可能クロマチンシーケンス(ATAC-seq)データセットとともに統合した。このデータから、エピゲノムの特徴を発見し、クロマチン状態の解像度で複数の組織型や生物種間の違いを推測することができた。プロモーター、エンハンサー、抑制領域などの新規ゲノムエレメントを捕捉し、トランスクリプトーム全体の遺伝子発現とゲノム全体のDNAメチロームプロファイルを統合したクロマチン状態アノテーションの個別セットを作成した。このアプローチにより、下流のエピゲノム解析、スーパーエンハンサー領域の同定、関連する複合疾患や形質に関する知見が得られる。
これらの組織間および種間のデータセットと、ヒトおよびマウスのデータベースからの補足的なデータセットの比較解析により、オルソログまたはシンテニーのレベルでの組織特異的および種特異的パターンが明らかになった。我々のデータセットは、これまで利用できなかったイヌゲノムの機能的要素に関する新たな知見を提供する。生成されたデータの種類、解析パイプライン、ゲノムブラウザにより、私たちはEpiC Dog (Epigenome Catalog of the Dog)を開発することになりました。EpiC Dogは、犬のエピゲノミクスを加速し、犬とヒトの両方の健康に役立つことを実現するために成長している取り組みに不可欠なリソースとさらなる洞察を提供することを目的とした、犬のエピゲノミクスの予備的イニシアチブです。
結果
データ作成と初期処理
参照用犬エピゲノムを作成するため、ゲノムワイドなセグメンテーションと機能アノテーションを行った: (i)3頭のビーグル犬から単離した11種類の成体組織から、一次RNA-seq、ChIP-seq、MBD-seqのマッチングデータセットを、一般に入手可能なATAC-seqデータセットとともに2レプリケート作成し、(ii)ゲノムワイドな機能アノテーション、クロマチン状態の発見、および下流のエピゲノム解析のために、転写産物レベルで計算による複数種類のデータ統合を実施した(図1、AおよびB)。さらに、ゲノムのオルソロジーとシンテニーに基づく比較によって、ヒトとマウスのENCODEデータを用いた、種間・組織間の比較エピゲノム解析が可能になった(図1B)。
図1. イヌの参照エピゲノムを作成するための統合的マッピング手法の概要。
(A)研究のために採取されたビーグル犬の11種類の主要組織の図。(B)イヌのエピゲノムを統合的にプロファイリングするために行われた次世代シーケンサー(NGS)法、データ統合アプローチ、解析の概要。Methodsも参照。(C)RNA発現、エピゲノム修飾、DNAメチル化に関する情報を含む、11種類の一次組織から得られた自社作成のNGSデータセット品質のマトリックス。各NGSサンプルプロファイルの正規化データ完全性測定値[全トランスクリプトームRNA-seqの転写物完全性番号、ヒストンChIP-seqおよびMBD-seqの相対鎖相互相関係数(RSC)品質スコア]が表示されている。サンプリングした組織ごとに2つの複製をプロファイリングした。組織略号は原稿全体を通して使用した。
さらに拡大する
ビューアーで開く
我々は、カバレッジ、リードマッピング、および生物学的複製間の一貫性に基づいて、すべての社内次世代シーケンス(NGS)データセットの品質を厳密に評価した(図S1、A〜E、およびS2、データS1〜S3)。データの品質チェックプロセスについては、Supplementary Textを参照されたい。生成されたデータはすべて、ENCODE (10) [portal (18) からアクセス可能] が設定した全体的に厳格なデータ品質基準と出力ロバスト性に適合しており、シーケンス深度、マッピング品質、再現性が実証された(図S1~S3、データS1~S3)。社内で作成したすべてのNGSについて、合計約123億のマッピングリード(96億のフィルター付きマッピングリード)を作成し、全サンプルでフィルター、トリミング、アライメント後の品質チェックおよび前処理後の残存率は平均77.81%であった。サンプルあたり、RNA-seq、ChIP-seq、MBD-seqでそれぞれ平均1億1120万リード以上、4280万リード以上、4690万リード(4.74ギガベース)以上のペアエンドマッピングリードを達成し、RNA-seqとChIP-seqに適用される3000万リード以上というENCODE標準、およびMBD-seqの要件である3ギガベースのユニークマッピングリードを大幅に上回った(データS1~S3)(19)。11組織(小脳、大脳、結腸、腎臓、肝臓、肺、乳腺、卵巣、膵臓、脾臓、胃)のうち、平均40,034, 81、 814、119,198、35,043、71,362、および300,036のピークがH3K4me3、H3K4me1、H3K27ac、H3K27me3、H3K9me3、およびMBDについて得られ、平均サイズは625、431、604、358、404、および588 bpであった。これらのピークはそれぞれイヌゲノム全体の1.1、1.5、3.1、0.5、1.2、7.6%をカバーしていた。各NGSランの後、転写産物レベルでのRNA完全性を評価するために転写産物完全性数解析を実施し、ChIP-seqとMBD-seqの両方についてピーク呼び出しに依存しない品質チェックを評価するために鎖相互相関解析を実施した(図1Cおよび図S1D、S2D、S3D)。さらに、BarkBase、ヒト、マウスのENCODEデータセット(18, 20)で利用可能なATAC-seqデータセットを用いて、少なくとも利用可能なマッチング組織におけるクロマチンアクセシビリティを定義した。
組織間トランスクリプトーム比較
イヌゲノムの遺伝子領域のトランスクリプトームを網羅的にプロファイリングするために、11のイヌ組織でそれぞれ2生物学的複製を用いたRNA-seq実験を行った(図S1)。転写産物の全長を意味する遺伝子本体のカバレッジは、すべてのサンプルでばらつきが少なかった(図S1E)。さらに、5頭のイヌから採取した27の成体組織のRNA-seqデータを含むBarkBase(20)-機能注釈付きイヌゲノムの予備的データセット-と統合することで、われわれのトランスクリプトームデータを裏付けた(データS4)。一致した組織では、主成分分析(PCA)により、同一または類似の組織タイプのデータセット間でトランスクリプトームの類似性が高いことが明らかになり(図2A;平均スピアマン順位係数0.9以上)、2つのデータセット間で組織特異的トランスクリプトーム、およびおそらく組織特異的制御エレメントが強く統合されていることが示された。なお、乳腺と卵巣組織はBarkBaseのRNA-seqデータには含まれていない。全組織のトランスクリプトームを通して、推定15,514個(93.81%)のタンパク質コード遺伝子、152個(0.92%)の偽遺伝子、568個(3.43%)の長鎖非コードRNA、304個(1.84%)のその他からなる、合計16,538個のユニークで活発に発現している遺伝子[fragments per kilobase of gene model per million mapped reads (FPKM)-upper quartile (FPKM-UQ) > 1]を同定した。また、14,413の信頼度の低い遺伝子も同定された(図2B)。マップされた組織と複製RNA-seqライブラリーを合わせたこれらの遺伝子数推定値は、全リードの約98%に相当する。これらの推定値はまた、使用可能なリードの点で組織サンプルのばらつきを示し、異なるシーケンス深度にわたって安定していた(図S1、AおよびB)。脊椎動物ゲノムのゲノムブラウザであるENSEMBL(CanFam3.1; build 102)(21)でアノテーションされたこれらの遺伝子クラスターの拡張カタログは、ヒトのオルソログ領域からのものを含み、物理的リードカバレッジに関係なく、我々のデータセットにおける測定可能な遺伝子発現の同程度の割合を反映していた。
図2. 包括的な組織間トランスクリプトミクス。
(A) 自社で作成した組織間トランスクリプトームデータとBarkBaseでマッチングした組織間トランスクリプトームデータの不偏的一致を示す相関分析。我々の研究でサンプリングされた組織トランスクリプトームと、マッチングしたサンプリング組織から得られたBarkBaseデータセットに対してPCAを実行した。インハウスデータは黒丸で示されている。横は組織タイプごとのトランスクリプトームの類似性を示すスピアマン順位係数値。すべての相関は統計的に有意な値である(P < 0.05)。BarkBaseのデータセットにはMGとOVの組織タイプは含まれていないことに注意。B)トランスクリプトームデータからの遺伝子アノテーションと分類。CanFam3.1で更新されたTashaのアセンブルゲノムを用いてEnsemblデータベースからアノテーションされた組織タイプごとのユニーク遺伝子総数の割合。発現レベルが1FPKM-UQ以上の遺伝子のみを解析した。未集計遺伝子の割合(FPKM-UQ < 1)を灰色で示す。横はイヌの参照ゲノムから同定された4つのEnsembl注釈付き遺伝子カテゴリー(30,951遺伝子)を示す。(C) (B)と同様にカウントされた遺伝子の組織特異性の分布。組織特異性のカテゴリーは、トランスクリプトミクスデータの分類のためのHuman Protein Atlasアルゴリズムに由来する。各カテゴリーの説明はResultsに詳しい。(D)トランスクリプトームデータからの組織特異的遺伝子発現プロファイル。4315個の全組織特異的遺伝子の相対発現(対数変換したFPKM-UQ + 1)のヒートマップ。増加および減少のシグネチャーは、示されたzスコアを表示して同定された全ての利用可能な遺伝子に対応する。横はKyoto Encyclopedia of Genes and Genomes (KEGG)による組織型特異的遺伝子発現からのパスウェイの濃縮解析。すべての11の主要なタイプの組織特異的遺伝子は、組織濃縮遺伝子と組織強化遺伝子(n = 3431)の両方から構成され、CLとCRの組み合わせの遺伝子は、グループ濃縮遺伝子(n = 880)と組織強化遺伝子(n = 4)も含んでいた。各KEGGパスウェイについて、調整後の-log10 P値(バーの高さ)と相対的ユニーク遺伝子数(バーの幅)が示されている。
さらに拡大
ビューアで開く
ヒト、マウス、イヌのゲノムには、GENCODE (builds 37 and M27) および ENSEMBL (22-24) でアノテーションされた22,000未満のタンパク質コード遺伝子が存在する。しかし、これらの遺伝子はそれぞれ150,000以上(ヒト)、95,000以上(マウス)、45,000以上(イヌ)の転写産物に転写されている。これらの転写産物の約68%はタンパク質をコードする可能性があり、タンパク質の多様性に寄与している(22-24)。この豊富な転写産物を理解するために、我々はイヌの組織間コードトランスクリプトームを特徴付け、異なる種間で解析した。発現遺伝子を組織特異性に基づいて分類した(図2C)。この組織特異性は、異なる組織間での遺伝子発現によって定義され、以下のグループに分類された(すべて遺伝子発現レベル≥1 FPKM-UQ): (a) tissue-enriched(特定の組織における発現が、他のすべての組織と比較して4倍以上高い)、(b) tissue-enhanced(特定の組織における発現が、他のすべての組織の平均と比較して4倍以上高い)、(c) group-enriched(2~7組織からなるグループにおける発現が、他のすべての組織と比較して4倍以上高い)、(d) expressed-in-all(上記3つのグループのいずれにも属さないすべての組織にわたる発現)、(e) mixed(上記4つのグループのいずれにも属さないすべての組織にわたる発現)。これらの遺伝子の大部分は全組織にわたってユビキタスに発現しており(27.6%;8536遺伝子)、残りは混合(8.5%;2632遺伝子)、組織特異的(11.1%;3438遺伝子;組織濃縮と組織強化の複合)、またはグループ化された組織特異的(6.2%;1932遺伝子)のいずれかであった。カウントされていない部分(46.6%; 14,413遺伝子)には、検出されていない遺伝子と組織特異性の低い遺伝子の両方が含まれていた(図2C)。これらの組織依存性の指標を用いて、組織レベルのトランスクリプトームを分解し、組織特異的な遺伝子と機能のアノテーションを行うことができた。これらのトランスクリプトームの組織特異性は、グループ化された組織クラスター(2つまたは3つの組織。カテゴリーごとに数個の遺伝子しか見つからなかったが、それらはすべて、生物学的に意味のある可能性のある倍数濃縮を伴う有意な調整P値を有していた(図S5B)。11の組織の中で、予想されたように、小脳と大脳-ヒトとイヌの両方に匹敵する(25)大きな脳構造が隣接している-は、最も多くの共通遺伝子を共有していた(884遺伝子、2つの組織グループ;図S5B)。これらの遺伝子の多くは、神経伝達の主要な興奮性シナプスであるグルタミン酸作動性シナプス(26)と、事実上すべての神経回路で重要な主要な抑制性シナプスであるγ-アミノ酪酸(GABA)作動性シナプスに濃縮されていた(27)。組織特異的遺伝子は、組織に適した生物学的プロセスとパスウェイに富んでいることが明らかになった(図2D)。このことは、少なくともイヌゲノムの転写産物による組織/器官特異性が本物であることを示唆している。興味深いことに、小脳と大脳に共通する遺伝子は脳特異的シグネチャーに富んでいる(図S5、AおよびB)。しかし、小脳と大脳の組織特異的遺伝子は、それぞれ神経活性リガンド-受容体相互作用とアンフェタミン中毒に関連するパスウェイによって識別されている(図2D)。組織特異的クラスタリングを行った後でも、組織特異的遺伝子の発現シグネチャーの共起が、この組織ペアで強調されている。これらの脳領域の発現遺伝子の多くは、少なくとも1つの他の組織型(3つの組織群;図S5B)と比較的優勢な共通遺伝子を共有しており、予期せぬ機能の重複を示している。例えば、タンパク質の正負の解重合、神経系の発達、タンパク質を含む複合体の分解の負の制御に関連する生物学的過程は、小脳、大脳、脾臓組織に共通して濃縮されている。小脳、大脳、腎臓組織では、腎臓上皮の発達、遠位尿細管の発達、尿管芽の後腎部分の発達が一般的に濃縮されている。微小管に基づくプロセスと細胞接合組織は、小脳、大脳、肺組織で共通して濃縮されている。シナプス前細胞質カルシウムイオン濃度の制御は、小脳、大脳、乳腺組織に共通して濃縮されている(図S5B)。これらの組織でユビキタスに発現している遺伝子は、RNA、タンパク質、細胞代謝、mRNAやタンパク質のプロセシング、オートファジー、ストレス応答などに関わる無数の生物学的経路やプロセスが豊富であることを強調している(図S5、CおよびD)。
種を超えた特徴的な変化は、近縁種間の単一遺伝子の発現変化によってもたらされる(28)。しかし、ヒト、マウス、イヌのような遠縁種間で発現パターンがどのように変化するかは、よくわかっていない。これは、様々な科学的試み(比較生物学、家畜化、遺伝、病気など)に照らして極めて重要な情報である。この不足を補うため、我々は組織依存的にクラスター化した遺伝子の種を超えた発現パターンを調べた。具体的には、12,794のタンパク質をコードするオルソログについて、ヒト、マウス、イヌと、それらに対応する9つの組織(ENCODEと我々のデータセット)にわたる発現の分岐を、教師なし階層的クラスタリングによって推定した。我々のアプローチにより、ヒトやマウス(29)と同様に、遺伝子発現パターンは一般的に組織クラスターよりも生物種クラスターに引き寄せられることが明らかになった(図3、AおよびB)。組織依存性クラスター、種依存性クラスター、非特異性(低分散)に寄与する遺伝子を決定するために、2つの種に存在するオルソログを用いて、ヒト、マウス、イヌにまたがる分散分解解析を行った(図3C)。この解析により、生物種間よりも組織間で発現が大きく変動する遺伝子セットと、その逆の遺伝子セットを調べることができた(図S6A)。2種比較の2セット(すなわち、ヒト-イヌ、マウス-イヌ)間で保存されている遺伝子を含み、2種間のみで保存されている遺伝子を除いた、3種間で保存されている高分散遺伝子のセットを検索した。データセット中のサンプルのクラスタリングは、解析される生物種または組織のいずれかに依存し、このクラスタリングは使用される特定の遺伝子セットの影響を受けるようである。クラスタリングを改善し、種特異的あるいは組織特異的遺伝子の影響を減らすために、我々は、種特異的クラスタリングに寄与する2つの種間の約3438の保存遺伝子と、組織特異的クラスタリングに寄与する約2480の遺伝子を除去した。さらに、正規化アプローチを用いて、データセットの距離/クラスタリングをさらに改善した(図3D)。さらに、新しい遺伝子セット発現クラスターにサンプルをグループ化するために、k-meansクラスタリングステップを追加で実施した。クラスター数は、gap統計法を用いてkを1~20(組織)または1~10(生物種)の間で分離の良し悪しを評価することによって決定した。最終的に、組織データには12クラスター、生物種データには6クラスターを使用することにした(図S6B)。組織または生物種の特異性に基づいて同定されたクラスターは、先のサンプル分割を検証する明確な生物学的特徴を示した。クラスターは、明確な細胞/組織の同一性と機能的経路を反映していた(図3E)。これによって、組織や生物種に共通する特徴を同定し、生物学的解釈を深めることができた(図S7)。例えば、組織データのクラスター7では、3つの生物種すべてにおいて、体内代謝の主要部位である肝臓と腎臓に濃縮が見られ(30)、代謝パスウェイが最も濃縮されていた(図S7A)。最大数の共通濃縮を共有する複数の組織(n > 3)を含むクラスター3では、線維芽細胞のアイデンティティと細胞外マトリックス組織化経路が濃縮され(図S7A)、複数の組織構造にわたって細胞外マトリックス成分を産生および修飾する線維芽細胞の既知の機能を補完していた(31)。イヌとヒトでは濃縮されているがマウスでは濃縮されていない種データのクラスター1では、細胞周期、リボソームRNAプロセシング、真核生物の転写と翻訳における主要なパスウェイが最も濃縮されており、これは細胞周期と遺伝子およびタンパク質制御プロセシングがヒトとイヌの間でより類似していることを示している(図S7B)。さらに、このクラスターは、他のクラスターよりも遺伝子の総数が少ないにもかかわらず、複数のデータベースからアノテーションされた濃縮パスウェイの数が最も多く、ヒトとイヌの間にヒトとマウスよりも生物学的に実質的な機能の重複があることを示している。組織と生物種の特異性によって定義され、機能的特性によって特徴づけられるこれらのオルソログ遺伝子のモジュールは、ヒト、マウス、イヌの間で、より有益な比較と研究への応用を可能にする。組織間トランスクリプトミクスの詳細な比較については、Supplementary Textを参照されたい。
図3. 種を超えた比較トランスクリプトーム解析。
(A)イヌ、ヒト、マウスに共通するタンパク質コード遺伝子の発現に基づくサンプルのクラスタリング。ENCODEプロジェクトのトランスクリプトームを用いて、イヌの一次組織とヒトおよびマウスのマッチした組織にわたる12,794のオルソログタンパク質コード遺伝子発現に基づいて、ユークリッド距離測定法と平均連鎖法を用いた階層的クラスタリングを示すデンドログラム。(B)イヌ、ヒト、マウスのトランスクリプトーム比較解析。(E)で解析されたデータに対して行われたPCA。発現値はデータセット全体で正規化されている。(C) ヒト-イヌ、ヒト-マウス、イヌ-マウスのオルソログ遺伝子ペアごとに、遺伝子発現の観察された分散に対する組織と生物種の相対的寄与を推定するための遺伝子発現分散分解。各プロットは組織または生物種間のオルソログ遺伝子発現に起因する分散の割合の分割を示す。黄色の点は組織間の寄与が高い遺伝子を示し、緑色の点は種間の寄与が高い遺伝子を示す。(D)イヌ、ヒト、マウスに共通するタンパク質コード遺伝子の高分散発現に基づくサンプルのクラスタリング。ヒト-イヌ、ヒト-マウス、イヌ-マウスのペアで重複する遺伝子を含む、イヌ、ヒト、マウスの組織間でばらつきの大きい2410個のオルソログタンパク質コード遺伝子の発現に基づく以外は、(A)と同様に二元階層的クラスタリングを示すデンドログラムを繰り返した。横はクラスタリングを示す。ただし、生物種間でばらつきの大きい3370のオルソログタンパク質コード遺伝子の発現が重複している場合は除く。(E)組織および生物種特異性に基づく遺伝子発現のクラスタリング。種に関係なく「真の」組織特異的遺伝子、または組織に関係なく真の種特異的遺伝子を3種間で分割するためにk-meansクラスタリングを適用した後を除く、重複する高分散組織特異的遺伝子または種特異的遺伝子の相対発現(log10変換FPKM-UQ + 0.01)のヒートマップ。ゲインシグネチャーとロスシグネチャーは、示されたzスコアを示す同定されたすべての利用可能な遺伝子に対応する。
さらに拡大
ビューアで開く
犬組織におけるゲノムワイドなクロマチン状態の発見と特徴づけ
現在までに、犬ゲノム中の機能的要素をカタログ化する取り組みが、(i) BarkBase (20)と(ii) Dog Genome Annotation (DoGA) project (32)の2つのイニシアチブによって活発に進められている。しかし、両プロジェクトとも大規模なアノテーションは進んでいるものの、ヒストンマークやDNAメチル化などの動的エピゲノムマークを系統的に解析するには至っていない。イヌゲノムの機能的アノテーションを進めるために、我々は11の異なるイヌの組織にわたって、ヒストン修飾に基づくゲノム全体のクロマチン状態とメチローム全体のプロファイルの統合マップを作成した。イヌゲノムは5つのヒストンH3修飾マークのコアセットを持つと定義した: ヒストンH3リジン4トリメチル化(H3K4me3)、H3リジン4モノメチル化(H3K4me1)、H3リジン27アセチル化(H3K27ac)、H3リジン27トリメチル化(H3K27me3)、H3リジン9トリメチル化(H3K9me3)。 e., プロモーター、エンハンサー、ヘテロクロマチン、ポリコーム抑制ドメインなど)。多変量隠れマルコフモデル(ChromHMM)(33)を用いて、全組織にわたるこれら5つのエピジェネティックマークに関する情報を組み合わせ、イヌゲノムにおける最適な13の異なるクロマチン状態を定義した(補足テキストおよび図S8参照)。これらの状態は、8つの活性状態、4つの抑制状態、静止状態に大別され、さらにプロモーター、エンハンサー、ヘテロクロマチン、その他の4つの大まかな機能クラスに分けられる(図4A)。これらの13のクロマチン状態は、DNAメチル化と進化的保存のレベルが異なり、主に次のようなものであった:(i) 発現遺伝子に関連し、ゲノムのエクソン領域で高い占有率を示す活性状態、活性の高い、弱い、活性の高い転写開始点(TSS)近位または遠位のプロモーター状態(TssWk、TssA、TssAFlnk1、TssAFlnk2、~1. 33%のゲノムカバレッジ)、強い、ポイズド、弱い活性エンハンサー状態(EnhA、EnhPd、EnhWk、~4. 16%のゲノムカバー率)、およびジンクフィンガータンパク質遺伝子に関連するユニークな状態(ZNF/Rpts、〜0.1%のゲノムカバー率)、および(ii)抑制された遺伝子に関連する不活性な状態、およびTssEnhBiv状態を除くゲニックおよびエキソン領域での占有率が低い状態、これらは抑制されたポリコームおよび他の複合体に関連する状態(ReprPおよびRepr、〜0. 81%のゲノムカバレッジ)、二価の制御状態(TssEnhBiv、〜0.14%のゲノムカバレッジ)、ヘテロクロマ状態(Het、〜1.83%のゲノムカバレッジ)、静止状態(Quies、91.64%のゲノムカバレッジ)である。
図4. イヌの初代組織におけるクロマチン状態のランドスケープとDNAメチル化の状態。
(A)クロマチン状態のアノテーションとエピゲノムデータの定義と概要。5つのヒストン修飾標識に基づく代表的な13クロマチン状態モデル、個々のヒストン標識の放出確率、および11組織におけるCLおよびメチル化領域とノンコーディング保存要素を含む様々なタイプのゲノムアノテーションに対するクロマチン状態の倍数濃縮度。本論文のすべての箱ひげ図について:箱ひげは四分位範囲(IQR)、ひげは1.5×IQR、水平線は中央値。TSSは転写開始点、TESは転写終了点、STRはショートタンデムリピート、ISRはインタースパースドリピート。(B)11の主要組織型における静止状態を除くクロマチン状態のゲノムカバレッジ。全組織型における重複制御領域の合計と、各組織型における制御領域の平均。(C)クロマチン状態マップと関連エピゲノムデータの可視化。イヌ9番染色体上の約0.46MBの領域における11の主要組織型にわたるアノテーションを示す代表的なクロマチン状態マップ。クロマチン状態は(A)と同様に色分けされている。同じ遺伝子座において、ヒストン修飾マーク結合ChIP-seq、RNA-seq、MBD-seqのシグナルトラックと、遺伝子(ENSEMBL)、CpGアイランド、CL用リピートのアノテーションを示す。(D)クロマチン状態とBarkBase ATAC-seq。LI、PA、SP、ST-BarkBaseデータセットのATAC-seqデータが利用可能な4つの組織型にマッチする、定義された遺伝子座(±5kbのchromHMM領域)における異なるクロマチン状態の平均クロマチンアクセシビリティ。リード密度は正規化ATAC-seqシグナルを示す。(E)活性プロモーター状態とメチル化の濃縮解析。図2Dで定義したCLとCRの組み合わせを含むすべての組織型における、組織特異的遺伝子のプロモーター領域上の活性転写開始点(TssA)クロマチン状態の相対的重なり(正方形の大きさ)とメチル化密度の相対的程度(カラースケール)。正規化zスコアを示す。
拡大表示
ビューアーで開く
クロマチンの活性状態は通常、非常に低いレベルのDNAメチル化と関連しており、特にTssAプロモーターの活性状態は、プロモーターのメチル化と遺伝子発現の間によく知られた逆相関があることを裏付けている。逆に、弱いTssWkプロモーターと弱いEnhWkエンハンサーの状態は、不活性な状態や抑制的な状態とともに、より高レベルのメチル化と関連しており、これはより低い制御活性と一致している。さらに、活性型TssA、TssAFlnk1/2プロモーター、EnhA、EnhPdエンハンサー状態、およびTssEnhBiv二価エンハンサー状態は、進化の過程で保存された非エクソンエレメントに対して最も高い濃縮度を示すことがわかった(図4Aおよび図S9)。これは、ヒトや他の生物種における、コーディング領域や既知のエクソンの外側にあるこのようなエレメントの、同様の進化的保存を反映した興味深い発見である(29, 34, 35)。全体として、我々は11の異なる組織にまたがる1,567,566のユニークな制御エレメント(Quiesを除く)を同定した。その中には、132,750の活性プロモーター(全てTssA)、166,506の活性強力エンハンサー(EnhA)、568,744の抑制エレメント(ZNF/Rptsを除く他のエレメントの組み合わせ)が含まれる。全体として、解析した全サンプルにおいて、ゲノムの38.7%がこれらのクロマチン状態で占められていた(図4、A、B、および図S10)。今回の結果は、イヌゲノムの機能アノテーションに貴重な知見を与えるとともに、遺伝子制御の理解におけるエピゲノム解析の重要性を浮き彫りにするものである。イヌの組織におけるゲノムワイドなクロマチン状態の発見と特徴付けについては、補論で詳しく述べる。
クロマチン状態のアノテーションを用いることで、各組織のエピゲノムランドスケープをグローバルに描き出し、イヌゲノムの特定の遺伝子座における様々なゲノム要素、DNAメチル化、遺伝子発現、個々のヒストンマーク間の関係を調べることができた。これにより、全組織にわたるクロマチン状態の完全な多様性を捉えることができる(図4C)。BarkBase(20)のパイロットATAC-seqデータを用いて、それをマッチした組織サンプルに適用し、クロマチン状態、DNAアクセシビリティ、DNAメチル化の関係を調べた(図4D、図S11、およびデータS4)。私たちのドッグクロマチン状態の割り当ては、クロマチンアクセシビリティの平均レベルに関するヒトやマウスのエピゲノム(36, 37)と一致しており、プロモーター状態が最も高い平均レベルのアクセシビリティを示し、エンハンサー状態、二価状態がそれに続いた(図4D)。ヒトとマウスのENCODEから得られたパイロットATAC-seqデータを、我々のマッチング組織クロマチン状態データに適用したところ、同様の結果が観察された(図S11とデータS6)。異なる生物種からアノテーションされた他のエピゲノムと一致して、プロモーター状態とその近傍領域(<1 kb)では一般にメチル化が低く、アクセシビリティが高く、エンハンサー状態ではメチル化が様々でアクセシビリティが低く、ヘテロクロマチン状態では一般にメチル化が高く、アクセシビリティがほとんどないことがわかった(図S12)。また、二価の状態ではメチル化とアクセシビリティにばらつきがあり、検出可能なメチル化、静止状態ではアクセシビリティが完全に欠如していたが、その近傍領域(<1 kb)では検出可能なピークがあった。メチル化レベルの違いは、遺伝子の活性化状態との関連をより顕著に反映している可能性が高い(38)。そこで、活性化したTssAプロモーターと組織特異的遺伝子プロモーター領域が重なるメチル化シグネチャーを調べた(図4E)。予想通り、TssA状態とオーバーラップするすべての組織特異的プロモーターは、低メチル化から枯渇パターンを示し、全組織型のバルク解析でTssA状態に関連するメチル化がほとんど検出されないという標準的な観察結果を統合した(図4E)。また、多くの非特異的プロモーターでは、組織特異的プロモーターと比較して、逆のメチル化シグネチャーが観察され、クロマチン修飾とDNAメチル化レベルにおいて、組織特異的な強い同一性が示唆された。クロマチン状態マップによって、組織の同一性を定義するさまざまな遺伝子座における組織特異性を可視化することができた(Fig. 図5A)、あるいはサイズの変異[インスリン様成長因子1(IGF1)]、頭骨の多様性[骨形態形成タンパク質3(BMP3)]、認知能力[脳由来神経栄養因子(BDNF)]のような犬特有の形質を決定する既知の遺伝子座、あるいは腎性糖尿病性不感症[アクアポリン2(AQP2)]や変性性脊髄症[スーパーオキシドジスムターゼ1(SOD1)]のような疾患と関連する遺伝子座を可視化することができた(図5B)。これらのスナップショットは、我々のエピゲノムデータが組織間、種間比較、犬のゲノム研究に有用であることを示している。イヌのエピジェネティックコードによって形成されたこれらのクロマチン状態を全身的に解析することで、下流の統合的なエピゲノム解析や、機能的に注釈付けされた他の種のゲノムとの比較研究が可能になる。
図5. 組織特異性とイヌの表現型を定義するクロマチン状態マップ。
(AおよびB)組織特異性とイヌ特異的表現型との関連におけるクロマチン状態マップの可視化。図2Dで定義した代表的な組織特異的(A)遺伝子マーカー領域、およびEnsemblまたはRefSeqでアノテーションされた既知の犬の表現型遺伝子(B)であるサイズ変異(IGF1)、犬種頭蓋骨の多様性(BMP3)、認知能力(BDNF)、腎性糖尿病性不感症(AQP2)、および変性性脊髄症(SOD1)を除く、図4Cと同様の11の主要組織タイプにわたるクロマチン状態マップ。遺伝子座ごとに、11の主要組織型についてのRNA-seqシグナルトラックを示す。
さらに拡大する
ビューアーで開く
種を超えたエピゲノム保存と組織間変異
進化的に保存されたエレメントの濃縮に関する最初の解析(図4A)を拡大するために、さらに種を超えたエピゲノム解析を行った。まず、2つの生物種のゲノム間でクロマチンの状態をマッピングし、UCSC liftOverツール(39,40)を用いて異種間解析を行った(図6A)。この方法は比較ゲノミクスにおいて、離れた制御エレメントとそれらが制御する近隣の遺伝子に注釈をつけるために使われてきた(39, 41)。イヌの13のクロマチン状態を他の生物種のゲノムにマッピングすると、イヌの制御エレメントはマウスよりもヒトで広く保存されていることが明らかになった(図6Bおよび図S13)。同時に、ヒトの15種のクロマチン状態を他の種にマッピングすると、フランキング2価のBivFlnk状態にわずかな違いがある以外は、マウスよりもイヌで高い保存性が観察された。予想通り、マウスの15のクロマチン状態を他と対応させると、イヌではあまり保存されていないことが観察された。
図6. クロマチン状態の種を超えたマッピングと解析。
(A)ヒトゲノムとマウスゲノムのシンテニック領域におけるイヌのクロマチン状態の分岐と保存を評価するための比較マッピング戦略の概略図。補足テキストも参照。(B)クロマチン状態の種間比較。イヌ、ヒト、マウス間で定義されたクロマチン状態のゲノムワイドな保存。イヌ(本研究)、ヒト、マウス(ENCODE)の一致した組織タイプに由来するクロマチン状態を(A)と同様にマッピングした。数値は、セグメント化されたクロマチン状態の全ゲノム領域に対するマッピングの割合を示す。デフォルトでは95%以上のマッチングスコアが設定されている。色分けされたバーは、イヌと同様のクロマチン状態の分類を示す。 C)生物種間のクロマチン状態の組織間比較。各生物種で評価された制御領域ごとの十分な発光確率を持つ、生物種間の選択されたヒストン修飾マークのクラスター化相関ヒートマップ(図4Aおよび図S13B参照)。スピアマン順位係数の値は、マッピングされた領域におけるChIP-seqシグナルの類似性を示す。図S13も参照。S13.
さらに拡大
ビューアーで開く
これらのマッピングされた保存領域が、さらに特定の組織タイプにどこに集まっているかを理解するために、処理したChIP-seqデータにスピアマンの相関行列(ピアソン相関のノンパラメトリック版)を適用した。マッチングされた組織全体にわたり、種間のマッピングされたシグナルの相関は、活性プロモーター状態においてはっきりと高い保存性を示したが、他の状態においては程度の差こそあれ比較的低い保存性を示した(図6C)。イヌとヒトの間の状態(イヌ→ヒト、ヒト→イヌ)をマッピングした場合、クロマチンランドスケープはマッチした組織間でほぼ類似しているように見えるが、マウスにマッピングした場合(イヌ→マウス、ヒト→マウス)、多くのマッチした組織で相反するパターンが生じる。これまでの研究によると、20種の哺乳類における肝臓のH3K27アセチル化とH3K4me3のゲノム濃縮を解析すると、最近進化したエンハンサーのほとんどは、反復エレメントの系統特異的拡大ではなく、祖先DNAの外挿に由来していることが注目される。対照的に、ほとんど全ての肝臓プロモーターは、種を超えて部分的あるいは完全に保存されている(42)。2種類のヒストン・マークによって同定される活性プロモーターとエンハンサーの保存は、イヌとヒトの間の類似性を指摘するエピゲノム研究によってすでに予見されていたが、11の異なる組織にわたる5種類のヒストン・マークを用いた今回のエピゲノム研究は、この類似性を強化し、それがクロマチン・ランドスケープ・レベルで保存されていることを示した初めての研究である。種を超えたエピゲノムの保存と組織間変異については、補論でさらに述べている。
遺伝子変異のエピゲノム濃縮
ゲノムワイド関連研究(GWAS)で同定された様々な行動、形質、疾患に関連する制御アノテーションの濃縮度を調べるために、イヌ、ヒト、およびイヌにマッピングされたマウスの組織特異的エピゲノムデータセットを用いた。ヒトのGWASについては、GWAS Atlasデータベース(43)から49のヒトの形質と疾患の要約統計量を選択し、イヌのGWASについては、調査した118のイヌの形質と行動の要約統計量を含むDarwin's Arkプロジェクトのデータを使用した(図7A)(44)。GWASバリアントの大部分は、組織・細胞特異的にゲノムのノンコーディング領域に存在することが多いので(45)、定量化の基礎として、アクセス可能なクロマチン状態(すなわち、EnhA、EnhWk、TssA、TssAFlnk2)内の、活性プロモーターおよびエンハンサー状態(46)の強力な指標であるH3K27acマークレベルを用いた。これは、H3K27acでマークされた状態が、(i)リスク一塩基多型(SNPs)が濃縮されるノンコーディングゲノム領域(47)、(ii)組織/細胞型特異性を可能にする主要な制御成分(46)、(iii)組織特異的疾患形質濃縮のためにより有益な活性エンハンサー(46, 47)を表しているためである。これらの制御領域をGWASカタログで報告されたSNPのヒトゲノム座標に結びつけるために、我々はliftOverツールを1対1のシンテニックアラインメントに適応させた。連鎖不平衡(LD)補正(GARFIELD)(48)を用いて、調節または機能的情報濃縮の組織/細胞型層別GWAS解析を行ったが、これは予期せぬGWAS形質濃縮の解釈における既知の交絡因子を解決する方法論モデルである。疾患形質と非疾患形質を含む、経験的濃縮P値が0.05未満のイヌとヒトの濃縮表現型のGWAS要約統計量を使用した(補足テキスト参照)。解析の結果、ヒトGWASを用いたイヌ、ヒト-イヌ、マウス-イヌのアラインメントでは、24組織と38複合表現型との間に合計687の有意な関連が同定され(図7B、図S14、データS9)、イヌGWASを用いたイヌでは、11組織と122複合表現型との間に合計33の有意な関連が同定された(図7C、データS10)。
図7. 図7. イヌゲノムに保存されている活性エンハンサーマーク上の組織特異的複合形質濃縮。
(A)解析に用いたイヌ(上)とヒト(下)の複合GWAS行動、形質、疾患のカテゴリー。(BとC)クロマチン状態におけるGWASシグナルの濃縮。ヒートマップは、強いヒストンH3K27ac修飾によってマークされた、マッピングされたイヌの活性エンハンサー内での、複雑な行動、形質、疾患に関するイヌ(B)とヒト(C)のGWASシグナルの濃縮を示す。ヒトGWASでは、色の濃さはGARFIELDアルゴリズムにおけるGWAS閾値≦1.0×10-8における正規化-log10濃縮P値を示す。イヌGWASの場合、色の濃さはGARFIELDアルゴリズムにおけるGWAS閾値≦1.0×10-5における正規化-log10濃縮P値を示す。ヒトGWASの場合、""は最も有意な濃縮(要約統計量ごとに最大3つ)を示す。最も有意な3つの濃縮のP値(-log10)を示す。犬のGWASでは、すべての形質が少なくとも0.5の最小P値を持ち、""は0.05以下の結果を示す。HDLは高密度リポタンパク質、LDLは低密度リポタンパク質。
さらに拡大
ビューアーで開く
予想通り、ヒトの遺伝子変異と形質との間のゲノムワイドな関連をよくキュレーションしたものを用いると、イヌの活性制御領域の濃縮は組織型-疾患および非疾患形質関係と一致することがわかった(図7Bおよび図S14)。非疾患形質の例としては、小脳や大脳の状態に濃縮された知能や幅広い脳の構造や機能などの認知・神経形質に関連するゲノム遺伝子座、脾臓の状態に濃縮された免疫細胞の数や濃度などの免疫形質や甲状腺刺激ホルモンなどの内分泌形質、肝臓の状態に濃縮されたコレステロールや血中尿素窒素などの代謝形質が挙げられる; 一方、疾患形質の例としては、小脳の状態に濃縮されたうつ病や不安症などの(神経)精神疾患に関連するゲノム遺伝子座がある; クローン病や潰瘍性大腸炎などの炎症性腸疾患は大腸の状態に富み、全身性エリテマトーデスは脾臓の状態に富んでいる。犬のクロマチン状態と関連するこれらの形質の多くは、ヒトとマウスで保存されていたが、必ずしも組織・細胞の同一性を定義したり関連付けたりするものではない、保存されていない種特異的な関連形質も興味深いものであった。例えば、ヒトの肺の状態はイヌやマウスの状態よりも免疫学的形質との関連性が高く、マウスでは肺に濃縮された免疫細胞のシグネチャーはほとんど見られなかった。イヌとマウスの大脳の状態は、ヒトの状態よりも神経学的形質である不眠症との関連が強かった。さらに、関節リウマチや湿疹のような結合組織や皮膚疾患の形質は、それぞれイヌの大腸の状態で強く濃縮されたが、ヒトやマウスの大腸の状態では濃縮されなかった。これらの知見は、複雑な表現型に寄与する組織/細胞タイプを予測するのに有用な、H3K27ac標識領域と結びついたSNP位置のパターンを明らかにした。
コミュニティサイエンスが主導する犬のゲノムワイドなバリアントと表現型の関連から得られたデータを用いて、飼い主が報告する行動や身体的形質と特定の組織型との関連を発見した(図7C)。これらの複雑な行動とサンプリングされた組織型との間に見出された関係を解釈するのは難しい。にもかかわらず、ある種の行動は小脳と大脳の状態で特に豊かになることがわかった。例えば、開いているドアからこっそり出ていく、バリア攻撃性を示す、囲いから逃げる、よく寝るなどの自立に関連した行動や、獣医に行くときに攻撃的になるなどの狩りに関連した行動は、すべて小脳に富んでいるが、大脳には富んでいない。これは、犬の随意的な(意図的な)動きの調整と微調整という小脳の機能が知られているためである(49)。さらに、おもちゃで遊ぶことを楽しむ、遊びの中ですぐに飽きる、興奮してもすぐに落ち着く、といった特定の遊びのパターンはすべて大脳で豊かになるが、小脳の状態では豊かにならない。これは、大脳領域の構造が大きく、犬の感情を調節する機能が知られているためである(50)。しかし、首を傾げる、ウーウー吠える、物の陰に隠れる、物音に非常に敏感といった一般的な犬の行動は、すべて小脳と大脳の両方の状態に富んでいる。利用可能な身体的特徴調査との関連は、ほとんどが外見的・身体的特徴であることから、意味を理解するのが難しいことに注意することが重要である。したがって、これらの形質の根底にある生理学的機能と、これらの犬に関連する表現型との関連をよりよく理解するためには、さらなる研究が必要である。
全体として、これらのゲノムワイドなバリアント-表現型関連カタログによって、異なる組織型にわたってここで提供されるエピゲノムアノテーションが、複雑な行動・形態学的形質や疾患に関連するノンコーディング遺伝的変異の解釈のために、既存の犬ゲノムプロジェクトに貴重な補完的リソースを提供できることが明らかになった。イヌを含むGWASやその他の表現型関連研究は、その範囲と複雑さを増し続けており、我々のリソースは研究者にとって不可欠なツールとなるだろう。さらに、我々が実証したように、これらのリソースは、エピゲノムデータを用いて、イヌとヒトのような他の生物種との比較研究を進める上で非常に有用である。
ゲノムワイドなスーパーエンハンサーカタログと保存
H3K27acシグナルに基づく組織の同一性と機能をよりよく理解するために、イヌゲノム中のスーパーエンハンサーとスーパーエンハンサードメインを複数の組織にわたってマッピングし、種を超えた解析を行った(図8A)。スーパーエンハンサーシグナルを定義するためにスーパーエンハンサーの順位付けアルゴリズム(51)を用い、ドメインセットを生成するために全組織のスーパーエンハンサーをマージすることでスーパーエンハンサーを遺伝子にリンクした。また、スーパーエンハンサーを遺伝子に連結するために、インシリコのピーク遺伝子連結法を適応した。その結果、すべての組織タイプで9985個のスーパーエンハンサーが同定され、組織あたり平均908個のスーパーエンハンサーが同定された(図8B)。これらのスーパーエンハンサーの平均長さは52.5 kbで、H3K27ac ChIP-seqの密度だけに基づくと、典型的なエンハンサーの長さ0.57 kbよりもはるかに長かった(図8C)。さらに、これらの構成スーパーエンハンサーはH3K4me1とH3K4me3マークで特異的に濃縮され、他のヒストンマークやMBDシグナルは検出されなかった(図8D)。H3K4me1の濃縮は、H3K27acとともにスーパーエンハンサー領域を意味するH3K4me1に関するこれまでの知見と一致するが、標的遺伝子におけるエンハンサー活性の部位活性化、転写結果、出力は異なる(34, 36, 37)。H3K4me3の濃縮は、まだ完全には解明されていないが、我々の実験では、スーパーエンハンサーと物理的に相互作用する遠位または近位の標的遺伝子で、広範なH3K4me3マークが捕捉されたことを示しているのかもしれない(52)。いずれにせよ、これらの高レベルのH3K4修飾は、構成エンハンサー領域のドメインサイズと占有密度の両方によるものである。
図8. 組織特異的なスーパーエンハンサーランドスケープと種を超えた解析。
(A) スーパーエンハンサー(SE)解析の概略図: (i) ROSE(ranking of super-enhancer)アルゴリズムを用いたH3K27ac結合ChIP-seqシグナルに基づくSEコール、(ii) 11組織のSEからマージしたドメインセットの分類、(iii) ドメインと遺伝子の連結予測戦略。補足テキストも参照。(B) 組織間のSE統計。(A)で示したマージされたドメインセット(緑色のバー)を表す3991ピークに加えて、各組織タイプからの個々のSEコールサマリー。(C)SEと典型的なエンハンサー(TE)。CLにマップされたSEおよびTEにわたる代表的な平均H3K27ac結合ChIP-seqシグナル密度(バックグラウンドに対する倍率濃縮シグナル)。H3K27acシグナルはエンハンサー領域(TEは566塩基対、SEは52.5kbの平均長)を中心に、各SE領域を5kb、TE領域を2kbで囲んでいる。(D)SE領域におけるヒストン修飾とメチル化。その他のヒストン修飾とCLにおける平均MBD-seqシグナル密度を除き、代表的な平均ChIP-seqシグナル密度は(C)と同様である。シグナルはSEに位置する構成領域を中心とし、各領域を2kbで囲んでいる。(E) 組織特異的SEのクラスタリング。11の一次組織タイプにわたるバックグラウンド減算したSE特異的H3K27ac結合ChIP-seqシグナル密度のヒートマップ。色の強度は、SEドメインのChIP-seqシグナルを対数変換したものである。fig.S15も参照。S15. (F)組織特異的SEに関連する遺伝子発現のプロファイリング。11の一次組織型にわたるH3K27ac関連SEとリンクした968遺伝子の相対発現(log2 FPKM-UQ + 1)のヒートマップ。獲得および喪失シグネチャーは、示されたzスコアを示す同定されたすべての利用可能な遺伝子に対応する。(G) 組織特異的SEに関連する生物学的機能。(F)と同様に濃縮された組織特異的遺伝子から、生物学的プロセスのジーンオントロジー(GO)解析およびパスウェイのKEGG濃縮解析を行った。一致したGO用語またはKEGGパスウェイごとに、調整後の-log10 P値を示す。TH1、Tヘルパー細胞1。
拡大表示
ビューアーで開く
合計すると、イヌゲノムの約12.2%がこれらのドメインでマークされており、ヒトゲノムのスーパーエンハンサー・ドメインのカバー率(6.32%)をはるかに超えていた。これらのドメインの44.6%は、解析した少なくとも2つ以上の組織型で同定された複数のスーパーエンハンサーで構成されていた(図S15A)。一つの組織型に特異的なドメインの割合よりは少ないが、幅広い組織特異性を持つスーパーエンハンサードメインの量は、組織特異性に関係なく、特定のゲノム領域にスーパーエンハンサーが顕著に繰り返し形成されることを示唆している。さらに、遺伝子発現研究で一般的に用いられているTauスコアリング法を用いて、スーパーエンハンサードメインの組織特異性を評価した(図8A;補遺参照)。これらのスコアの分布から、これらのドメインに関連する組織特異性はばらつきが大きいことがわかった(図S15A)。これらのスコアを用いて、さらにこれらのドメインを3つのグループに分類した:ユニーク(組織特異的;n = 798)、非ユニーク(n = 2395)、コモン(n = 798)(図8A)。定義された組織特異的、一般的、非特異的スーパーエンハンサードメインを用いて、我々はこれらのドメインを異なる組織特異性に従って分類した(図8Eおよび図S15B)。これにより、これらのドメインと遺伝子を広範囲に結びつけ、特定の組織のアイデンティティと生物学に関連する相互作用を予測することができた。これを行うために、相関ベースのアプローチを用いたin silicoピーク-遺伝子連結法(53)を適応した。この方法では、遠位または近位のノンコーディングDNAエレメント中のスーパーエンハンサードメイン領域が、H3K27acシグナルとRNA発現の相関を介して遺伝子にリンクされる(53, 54)。我々はまず、スーパーエンハンサードメインと、500kbのスーパーエンハンサードメイン境界内にTSSが位置する遺伝子との間の、フィルターなしのユニークなリンクを41,822個同定した(補足テキスト参照)。標準的なP値カットオフ0.05未満、ピアソン相関0.6以上(少なくとも中程度の正の関係)を適用した後、これらのリンクを3075に絞り込み、77が負の相関、2998が正の相関のリンクであった(図S15C)。多くの組織型にまたがるリンクも見られたが、38.1%以上が組織特異的クラスターによって強く駆動されていた(図8F)。これらのリンクのプールにより、有意に相関したリンク遺伝子の数は比較的少ないものの、組織横断的なスーパーエンハンサーの標的遺伝子マップを作成することができた。組織特異的SEドメインクラスターから、組織特異的スーパーエンハンサードメインクラスター(968遺伝子)の近傍のリンク遺伝子プールに関連するGene Ontology(GO)用語とパスウェイを調べ、各組織における制御因子とプロセスについてより深い洞察を得た(図8G)。有意なリンク数が比較的多いクラスターを考慮すると、組織特異的な機能が濃縮されていることがわかった。例えば、小脳と大脳のクラスターは、神経系の発達とシナプス特異的機能に富んでおり、これらはすべて脳活動のユビキタスな特徴を反映していた(26, 27)。腎臓クラスターは、泌尿生殖器系と腎臓系、ヒトパピローマウイルス(HPV)発生過程に濃縮を示し、臓器特異性を示すとともに、腎臓移植患者におけるHPVの高い発生率を反映していた(55)。肝臓のクラスターは、低分子、脂質、脂肪酸、および関連プロセスの代謝に富んでおり、肝臓が体内の脂肪生成の中心的臓器であることが改めて示された(56)。脾臓のクラスターは、免疫反応とそのプロセスに富んでおり、脾臓に特化した免疫系があることが知られている(57)。また、これらの組織特異的リンクは、特定のゲノム遺伝子座にマッピングできることも示された(図S15D)。これらのことは、スーパーエンハンサーが組織の同一性に重要な鍵となる遺伝子を規定するという概念を強化し、おそらくスーパーエンハンサーの鍵となる標的遺伝子をマッピングするためのより厳密な選択として、スーパーエンハンサーのドメインを同定することの有用性を高めている。ゲノムワイドなスーパーエンハンサーカタログと保存については、補遺に詳しく記述されている。
イヌゲノムのスーパーエンハンサーレパートリーをまとめると、イヌの生物学や疾患におけるスーパーエンハンサーの機能やメカニズム、標的遺伝子を調べるための基盤となる。また、他の生物種でアノテーションされたスーパーエンハンサーとの比較も可能である。
イヌゲノムのDNAメチローム景観
DNA中のシトシンのメチル化は、哺乳類エピゲノムのメカニズムとして確立されており、安定かつほぼ普遍的に存在する(58)。イヌのDNAメチル化を調べた研究はいくつかあるが、高解像度のエピゲノム全体のデータは今のところ不足している。これまでのところ、BarkBaseやDoGAのような、機能的にアノテーションされた犬ゲノムの公開リソースには、メチロームデータは含まれていない(20, 32)。この知識のギャップに対処するため、我々は犬の11の体細胞組織についてゲノムワイドMBD-seq実験を行い、グローバルなDNAメチロームランドスケープのプロファイリングを行った。Tashaの参照ゲノム(CanFam3.1)にはおよそ26,092,847個のCpGサイトが含まれている(ゲノムカバレッジは1.1%未満)。しかし、我々のMBD-seqアッセイでは、捕捉された全CpGの少なくとも50%を表す平均45,184,839のマップリードが得られた。
特定のヒストン修飾とDNAメチロームのランドスケープを評価した(図9A)。予想されたように、組織間でいくつかの顕著な差異が観察された。特に、領域特異的な正規化濃縮シグネチャーと、全組織にわたるMBD、H3K27me3、H3K9me3、H3K27ac、H3K4me1、H3K4me3マークのシグナルの不在が顕著であった(図9Aおよび図S17)。一般に、DNAメチル化の濃縮シグナルパターンは、H3K27me3、H3K9me3、H3K4me1でマークされたゲノム領域と関連しており、一方、DNAメチル化の希少シグナルパターンは、H3K27acとH3K4me3でマークされた領域と反比例して関連している。これらの動態は、ヘテロクロマH3K9me3によるDNAメチル化維持の制御(60)、抑制的H3K27me3マークとCpG島間メチル化のオーバーラップ(59)など、これらのヒストンマークによって規定されるクロマチンドメインとDNAメチル化の既知の関係を反映していると考えられる、 低メチル化領域におけるプライミングされたエンハンサーH3K4me1マークとDNAメチル化の正の相関、広範なH3K4me3マークとDNAメチル化の相互排他的な発生(61)、シトシンメチル化とH3K27acによって特徴づけられるエンハンサーにおける二価性(62)。
図9. 組織特異的DNAメチル化ランドスケープと関連する生物学。
(A)DNAメチル化密度と他のクロマチン標識の密度マップ。CLにおけるCpGアイランド領域(CGI±4kb)を中心とした正規化MBD-seqおよびヒストン標識結合ChIP-seqシグナル密度の代表的ヒートマップ。領域はMBD-seqの平均行密度に基づいて降順にソートされている。(B)一般的メチル化領域(CMR)と組織特異的メチル化領域(tsDMR)の系統的アノテーション。11の主要組織タイプにわたる上位20,000CMRと20,437tsDMRのヒートマップ。色の濃さは正規化された数を示す。横はtsDMRのヒートマップで、数値以外は組織特異的なメチル化度の低い領域(青のグラデーション;上部)と高い領域(赤のグラデーション;下部)を区別するためのzスコアを示す。(C)CMRとtsDMRのゲノムワイドな局在。犬のゲノム、コモンリピート、CpG領域にわたるCMRとtsDMRの分布。数値はハイパーメチル化またはハイポメチル化領域の頻度を示す。(D)CMRとtsDMR(領域の中心±5kb)周辺の定義されたクロマチン状態の分布パターンと平均シグナル密度を表示したマップ。マップはCpG領域のタイプに従ってクラスタ化した。(E)遺伝子発現とtsDMRメチル化の相関解析。遺伝子発現[RNA-seq; log2 fold change (FC)]とメチル化レベル(MBD-seq; log2 fold change)の相関を示す散布図。異なるゲノム領域に位置する非CGI、CGI、および隣接する岸と棚でオーバーラップした6825遺伝子のtsDMRのメチル化レベルを評価した。ピアソン順位係数値と統計的有意性を示す。赤線は切片をゼロとした最小二乗直線を示す。(F)CMRとtsDMRに関連する生物学的機能。CMRまたは低tsDMRに関連する遺伝子からの生物学的プロセスのGO解析またはパスウェイのKEGG濃縮解析。調整後の-log10 P値(色の濃さ)、濃縮スコア、および相対的ユニーク遺伝子数(円の大きさ)が、マッチしたGO用語またはKEGGパスウェイごとに示されている。
さらに拡大
ビューアーで開く
DNAメチル化レベルは、哺乳類の形質の根底にある組織特異性において重要な役割を果たしている(58)。本研究では、イヌゲノムの11組織において、ゲノムワイドに共通にメチル化されている領域(CMR)と組織特異的にメチル化されている領域(tsDMR)を系統的にアノテーションし、組織間DNAメチル化シグネチャーを同定することを目的とした。その結果、7,135,450個のCMR(~31%ゲノムカバレッジ)と20,437個のtsDMRが同定された。全組織にわたるゲノムワイドCMRは、少なくとも上位20,000個のCMRにおいて、ほとんど変動がない、あるいはほとんど変動がないことを示した。総数の多さと組織間の変異の少なさとともに、これらのCMRは表向きは連続したメチルシトシンを持っていると考えるのが自然である。組織特異的なCpG領域におけるハイパーメチル化とハイポメチル化のシグネチャーを調べた(図9B)。tsDMRプロファイルを用いて、小脳と大脳を合わせたtsDMRデータを含む、2074の高メチル化および18,363の低メチル化組織特異的領域を発見し、組織特異的CpGにおける広範な低メチル化を明らかにした。さらに、組織特異性を規定する遺伝子を含む領域では、優先的にDNAのメチル化低下またはメチル化亢進が見られることもわかった。一般に、これらのtsDMRの大部分はすべての組織でハイポメチル化されており(図9C)、組織特異的なハイポメチル化およびハイパメチル化領域の数が最も多いのは小脳と卵巣で、それぞれ15,481個と3173個であった。注目すべきは、イヌの脳では小脳が11組織全体のtsDMRの約76%を占める最も多くのDMRを持つのに対し、大脳は0.005%未満であることである(データS10)。これらの所見は、哺乳類の脳では体内の他の組織と比較して比較的高レベルのDNAメチル化が存在するという、確立された概念をさらに支持するものである(63)。次に、CpGで定義された領域に位置するCMRとtsDMRを取り囲む±5kbのウィンドウにおいて、共起するクロマチン状態をマッピングした。注目すべきは、CMRは少なくとも上位20,000位にランクされるヘテロクロマチン状態と広く関連していることであり、tsDMRはCpG領域全体の活性エンハンサーと強くオーバーラップしていることである(図9D)。次に、イヌゲノム全体のCpGで定義された領域で組織特異的にメチル化された6825個の遺伝子[組織特異的にメチル化された遺伝子(tsDMGs)と呼ぶ]の発現を調べた(図9E)。これらの遺伝子は、ハイパーメチル化またはハイポメチル化における発現レベル(アップレギュレートまたはダウンレギュレート)に基づいてさらに分類することができる。これらのtsDMGのうち、203のアップレギュレート遺伝子と307のダウンレギュレート遺伝子がハイパーメチル化領域にマップされ、一方、3525のアップレギュレート遺伝子と782のダウンレギュレート遺伝子がハイメチル化領域にマップされた。イントロン領域ではtsDMGの数が最も多く(4662遺伝子;>68.3%)、次いでエクソン領域のもの(1231遺伝子;~18%)であった。このパターンは、これらの遺伝子本体領域(遺伝子間領域を除く)におけるtsDMMRの頻度が高いことと一致している。さらに、特定のCpG定義領域のDNAメチル化と、異なるゲノム領域におけるtsDMG発現との相関解析から、TSS近位プロモーターのDNAメチル化と遺伝子発現との間には、一貫して有意な逆相関があることが明らかになった(図9E)。しかし、遺伝子発現とイントロン、エクソン、転写終結部位のDNAメチル化との間には、有意ではない相関がより頻繁に観察された。
その後、tsDMRに最も近い位置にある遺伝子を機能的にアノテーションし、GO濃縮解析を行った。その結果、CMRに関連する豊富な遺伝子が、神経発生や多細胞生物の発生、解剖学的構造、軸索形成に関与していることが判明し(図9F)、ハウスキーピング機能のような基本的な発生機能と、神経発生の胎生期の両方が強化された(64, 65)。対照的に、tsDMRが最も多くの関連遺伝子を持つ組織(小脳、脾臓、膵臓)では、組織特異性を定義するGOの濃縮が見られた。例えば、小脳では神経系の発達、脾臓では免疫細胞の活性化、膵臓ではタンパク質の消化吸収の遺伝子が濃縮された。これらの知見を総合すると、我々が11の組織について作成したイヌのゲノムワイドDNAメチロームマップの妥当性が確認された。イヌゲノムのDNAメチローム・ランドスケープについては、Supplementary Textを参照されたい。
考察
現代のイヌのゲノムは、哺乳類の進化、家畜化、祖先、老化、遺伝率、および疾患生物学についての理解を深めるまたとない機会である(1-3, 5, 7)。しかし、これらのゲノムの包括的な機能アノテーションはまだ始まったばかりである。本研究では、イヌの制御エレメントの多階層にわたる高品質なカタログを作成し、イヌの11の異なる組織について、ゲノムワイドなクロマチン状態マップ、スーパーエンハンサー、DNAメチロームランドスケープの最も包括的な特徴付けを行った。Epic Dogと名付けられたこのリソースは、イヌゲノム研究の発展と、他の生物種、特にヒトとの比較研究を促進するでしょう。EpiC Dogは、執筆時点では初期段階のフォーマットではありますが、組織間および種を超えたエピゲノム比較を統合的に探索できるゲノムブラウザや、シーケンス解析や統合パイプライン、前処理済みデータセットのリポジトリページを備えています(図10)。
図10. EpiC Dogイニシアチブ。
我々の予備的リソースページでは、3頭の成犬それぞれから最大11の組織とその複製について、生データおよび前処理済みのRNA-seq、ChIP-seq、MBD-seqデータをダウンロードできる。CanFam3.1に前処理およびアラインメントされたリードも、この研究で使用された統合解析パイプラインとともに入手可能。各組織サンプルの統合エピゲノムランドスケープをゲノムワイドに可視化し、ヒトやマウスのエピゲノムとの比較研究を可能にするUCSC Genome Browserページがリンクされている。新しいデータセットが入ってきたら、対話的な犬のエピゲノムハブを作成することを目標に、リソースページを適宜更新していきます。
もっと見る
ビューアで開く
ENCODE (10, 11, 29, 66)(現在フェーズ4)とRoadmap Epigenomicsコンソーシアムは、ヒトゲノムにコードされている機能的要素の最も包括的なアノテーションを先駆的に行ってきた。これと並行して、マウス(C57BL/6J株)のENCODE(12, 29, 36)、線虫(Caenorhabditis elegans)(67)およびハエ(Drosophila melanogaster)(68)のmodENCODE、ゼブラフィッシュ(Danio rerio)(69)のDANIO-CODEコンソーシアムが開始され、このような実験室モデル生物のエピゲノムとしては、圧倒的に高解像度のものが大規模に提供されている。このようなエピゲノムのカタログ化は、ゲノムの構造と機能、遺伝子制御の原理をよりよく理解するためのロードマップを築き、ヒトと他の生物との間で生物学を翻訳することを可能にした。このようなENCODEレベルのデータセットはイヌには存在しない。しかしながら、BarkBase (20)やDoGA (32)のような現在進行中の研究により、犬のエピゲノムの予備的な特徴付けが可能である。これらのゲノムワイドなエピゲノムアノテーションにおける1つの重要な限界は、クロマチン状態マップがないことである。クロマチン状態マップは、ヒストン修飾に基づいた非コードゲノムのエピゲノムセグメンテーションを繰り返し提供し、局所的および長距離的なクロマチンパターンを明らかにする。このようなクロマチン状態の割り当てを、イヌゲノムにおけるノンコーディング制御領域や転写エレメントのアノテーションと組み合わせることで、イヌのエピゲノムをシステムレベルで理解することが可能になり、既存のアノテーションを大幅に改善することができる。
この研究では、他の参照用犬ゲノムアセンブリと同様に、特定の犬種、この場合はビーグルに焦点を当てた。ビーグルは最も一般的な犬種の祖先で、「実験犬」として標準化されたという歴史的経緯がある(70)。複数の犬の組織から一次データを作成し解析することで、ヒトのデータから推論することを避け、それを犬ゲノムに移植するツールを使用した。我々の発見は、同定された遺伝子、関連する生物学的機能、パスウェイが比較研究において有用であることを示している。しかしながら、我々の解析から、イヌのトランスクリプトームはヒトやマウス(ENCODE)と比較して、より広範囲に転写されていないことが明らかになった。このことは、我々のデータやBarkBaseのデータが示すように、多様な生物学的サンプルをより深く、より広範にプロファイリングする必要性を強調している。とはいえ、我々は組織レベルおよび生物種レベルの特異性を示すトランスクリプトームの大要を紹介した。これらのトランスクリプトームをグループにクラスタリングすることにより、ヒト、マウス、イヌの間で、複数の組織の同一性を超えて保存されている多様な生物学が推測された。したがって、これらのデータは比較トランスクリプトミクスにとって実用的であるだけでなく、既存のアノテーションを補完するものでもある。このような欠落した転写産物を取り込み、アノテーションのカバレッジを拡大することが可能であるため、我々の解析では「見逃された」遺伝子や転写産物も含まれる。遺伝子発現は、転写制御因子とエレメントからなる複雑なエピジェネティックコードによって広く影響を受けることを考えると、これらのトランスクリプトームデータセットとその後のエピゲノムデータを統合することは、イヌゲノムの機能アノテーションにとって極めて重要である。
機能的に異なる13のゲノムワイドなクロマチン状態をde novoで発見したことで、イヌの多様なエピゲノムランドスケープを系統的に特徴づけることができた。そのうちのいくつかは、ENCODE、FANTOM、FAANGの哺乳類ゲノムの既知のアノテーションでは同定されておらず、少なくとも我々が用いた5つのヒストン修飾では同定されていなかった。このことは、哺乳類ゲノムの進化的に保存された領域は、しばしば一致しない犬特有のゲノム領域よりもよくアノテーションされているという事実を示唆しており、我々の13状態モデルは、これまでアノテーションされていなかった潜在的な機能的要素を同定するのに役立つが、まださらに特性解析を行う必要がある。また、これらのクロマチン状態とその単一組織分解能マップの作成は、犬のゲノム解析で求められているいくつかの疑問、例えば、選択、家畜化、適応、ヒトとの並行進化などにエピジェネティックな基盤があるのかどうか、などに答える道を開くものである。これらの疑問は当然のことのように思われるかもしれないが、マッピングされたクロマチン状態から得られたゲノムアノテーションは、イヌゲノムの解釈可能な部分を拡大し、エピジェネティックコードの解読可能性を高めることができる。クロマチン状態の正確な数は、調査されたクロマチンマークの種類や総数、および異なる状態パターンを調査する適切な解像度によって変化する可能性があることを強調しておかなければならない。ENCODEデータセット(29, 36, 37)と比較すると、15状態モデルは、127種類のヒトと12種類のマウスの組織/細胞から得られた協調的なデータであり、そのうちのいくつかは、それぞれ5種類と12種類のヒストン修飾によって、発生や分化の連続性を示している。11の組織型から得られた5つのヒストン修飾に基づく13状態モデルが、調査されたヒストン修飾のサンプリングと多様性の両方において劣っていることは否定できない。しかし、犬のゲノム解析に関する多くの画期的なリソースがあるにもかかわらず、犬の組織に関するエピゲノム全体のデータはまだ不足している。したがって、複数の組織型にわたるクロマチン状態の発見を通じてエピゲノムランドスケープをマッピングする我々の先駆的な研究は、このような規模の制限にかかわらず、切実に必要とされていると考えられる。
本研究では、統合的解析を用いて、犬のクロマチン状態を、生成されたスーパーエンハンサー(ドメイン)およびDNAメチロームランドスケープとともにマッピングした。多段階のデータ統合から得られたこれらのエピゲノムランドスケープは、ゲノム制御を明らかにするDNAメチロームだけでなく、組織や細胞のアイデンティティに重要な遺伝子を含む、イヌゲノムの制御要素に関する新たな知見を提供した。下流のデータ統合を組み込むことで、関連する複合形質や疾患表現型を推測するGWASカタログを作成することができた。さらに、クロマチン状態とともに、これらのランドスケープの調整されたゲノムワイドな活動を定義し、複数の組織にわたる生物学的機能、形質、表現型の文脈における解釈可能性を示した。より新しい犬の参照ゲノムが利用可能になるにつれて、我々のデータがそれらにどのように適用されるかを評価することが不可欠である。現在、イヌのゲノムコミュニティーはcanFam3(Broad CanFam3.1)アセンブリに大きく依存している(71, 72)。しかし、canFam4(UU_Cfam_GSD_1.0)、canFam5(UMICH_Zoey_3.1)、canFam6(Dog10K_Boxer_Tasha)のような新しいアセンブリーも利用できるようになった。canFam3全ゲノムをこのような新しいアセンブリにリフトオーバーしたところ、高いマッピング可能性と低いリフトオーバー失敗率が観察され(図S19A)、アセンブリ間の品質と類似性が高いことが示された。新しいアセンブリーの全ゲノムをcanFam3にリフトオーバーした場合も同様の結果が観察された。生成された全ての組織クロマチン状態において、少なくともcanFam3が他のアセンブリーにリフトオーバーされた場合、アセンブリー間のリフトオーバー失敗率は低いことが観察された(中央値<10%の弱いプロモーターTssWkを除く全てのアセンブリーにおいて中央値<3%)(図S19B)。これらのメトリクスの解釈可能性を理解するためには、複数の基準、特に生物学的に解釈可能な特徴を用いて、より包括的な評価を行うことが重要である。しかしながら、この結果は、異なるイヌの参照集合体を用いて適用した場合のEpiC Dogの適応性を示しています。
ヒトとマウスのエピゲノム比較研究から、ヒトゲノムはマウスゲノムよりもイヌゲノムとの類似性が高いという考えがさらに導き出されました。マッピングされたクロマチン状態のレベルでは、1対1のシンテニックマッピングにより、イヌのクロマチンランドスケープはマウスのそれよりもヒトのそれに広く似ており、これはヒトをイヌやマウスにマッピングしても同様である。さらに、様々な複雑な形質に関連するイヌのゲノム遺伝子座を解析した結果、選択されたマッチした組織において、マウスよりもヒトの方が高いレベルで保存されていることが示された。同様に、イヌのスーパーエンハンサー・ランドスケープは、マウスよりもヒトゲノムの方が高い配列保存性を示し、組織・細胞の同一性に関しても高い類似性を示した。これらの比較解析は、ヒトとイヌのゲノムの類似性を支持するエピジェネティックな証拠を追加し、両者の最近のゲノム進化をさらに立証するものである。したがって、イヌのゲノムはヒトとマウスのゲノムを比較するための明確な哺乳類リファレンスとしての役割を果たすことができる。
イヌのENCODEを構築するためには、高品質で合意された有限のデータセットを確立することが不可欠である。イヌゲノム配列決定プロジェクトの成功例から、イヌゲノミクスの規模と複雑さの増大に至るまで、ENCODEとヒトゲノミクスコミュニティによって開発された技術・データ標準と全体的な厳密性を満たすことが極めて重要である。要求されるデータタイプの体系的な標準化、アノテーション、調和は、質の高いサンプリング、適切な統計と計算ツールの使用とともに、パラダイム的なビッグサイエンスのイニシアチブに必要である。これらの必要なデータタイプと統合のベンチマークを行うことは、さらなる発展のために有用である。BarkBaseとDoGAは、全ゲノム配列を補完するRNAのデータセットが中心であるため、私たちのEpiC Dogリソースは、これらの重要な機能的犬ゲノムアノテーションに付随して、統合されたクロマチン状態と構造中心のデータセットを提供します。クロマチン状態が主要な貢献者であることはもちろん、主要なクロマチン構造にはDNAメチル化や配列特徴、DNAアクセシビリティや結合因子などが含まれます。したがって、このようなENCODEを構築するために必要な「クロマチン言語」を満たすためには、さらなる情報とデータの改良が必要となる。例えば、ENCODEの品質評価基準(ヒトとマウスの両方について設定されている)を満たす改良されたATAC-seqデータは、非コード遺伝子の予測を導く情報を追加する。DNAシーケンスデータは、ATAC-seqによるオープンクロマチン領域の組み合わせによる遺伝子制御領域(すなわち転写因子結合部位)の同定の信頼性と頑健性を高める。また、ロングリードRNA-seqは、転写産物の存在量と多様性の解析を拡大し、新規アイソフォームやスプライシング制御に関する洞察を明らかにする。このようなデータタイプの生産と解析は不可欠であるが、イニシアチブの包括性を決定するためには、可能な限り多くの組織と細胞タイプを注意深くサンプリングすることが不可欠である。さらに、最近のシングルセルシーケンス技術の進歩とドッグ研究への応用は、シングルセルデータセットの並列生成と統合を歓迎し、細胞集団における機能的エレメントと制御サブステート、および軌道全体にわたる制御エレメントの動態をより高感度にプローブする。ヒトよりもイヌの方が遺伝的多様性や変異が大きいことを考えると、このような取り組みが非ヒト的であること、またサンプリングへのアクセスや利用可能性、ゲノムのサイズや複雑さの違い、ゲノムリファレンスの質やカバレッジの点で、イヌのENCODEが劣っていることを考慮しなければならない。
この前例のないイヌゲノム時代において、世界中の犬種に対するファインスケールゲノムマップの構築は、ヒトゲノムだけでなく、哺乳類のゲノム進化、集団遺伝学、複雑な表現型形質の原因遺伝子についての理解を深める画期的な科学的イニシアチブを生み出す。全体として、遺伝子、転写産物、制御領域とその結果としてのクロマチン状態やDNAメチル化パターンをカタログ化した私たちの犬リファレンス・エピゲノムと、既存のアノテーションとの統合性は、コミュニティにとって貴重なリソースになると期待しています。従って、EpiC Dogのリソースは、犬のエピゲノミクスを適応させ、さらに発展させるために、今後も開発を続けていく予定です。
方法
動物および組織収集
動物およびサンプル収集に関わる全ての手順は、ソウル国立大学Institutional Animal Care and Use Committee (#SNU-170602-1)により審査・承認された。忠北大学校獣医学部の故人提供プログラムに登録された雄1頭、雌2頭のビーグル(約6歳)は、J.-K. Kangから提供された。Kangから提供された。性別の分布は研究デザインではなく偶然によるものである。犬は医学的理由(癌を除く)により安楽死させられ、飼い主が同意書に署名した後に提供された。犬の人道的安楽死は、アルファキサロンと塩化カリウムの静脈内投与によって行われた。犬たちは主に入手可能性に基づいて集められた。獣医免許を持つ獣医師の指導の下、手術を行い、肉眼的検査の後、大脳、小脳、結腸、腎臓、肝臓、肺、乳腺、卵巣、膵臓、脾臓、胃を含む最大11の組織から生検を採取した。これらの組織タイプの選択は、比較腫瘍学研究における有用性を優先する手段として、主にビーグル犬における各臓器/部位の腫瘍発生リスクおよび有病率に基づいて行われた。全体的なサンプル採取は、死後直ちに2時間以内に行い、組織は直ちに氷上に置き、氷冷リン酸緩衝生理食塩水(PBS)で洗浄してからミンチにした。処理時間は、採取したサンプルの種類と量によって異なる。すべての組織サンプルは、組織の完全性と結果の妥当性を確保するため、慎重に取り扱われた。サンプルの劣化を避けるため、一度に処理するサンプルは1つのみとし、手術中は組織を氷で冷やした。すべてのチューブはドライアイスで予冷し、サンプルを直ちに瞬間冷凍できるようにした。ミンチ後すぐに、下流のアッセイ目的に応じて組織を複数のチューブに分けた。生物学的複製のために、各組織について少なくとも2つの別々の採取チューブを集めた。すべての場合において、組織の種類ごとに少なくとも1つのサンプルを液体窒素で瞬間凍結し、さらに処理するまで-80℃のディープフリーザーで保存した。RNAアッセイ用の組織サンプルは、別途RNAlater試薬(Thermo Fisher Scientific)中に保存し、さらに処理するまで-80℃のディープフリーザーで凍結保存した。実験者は盲検化されておらず、治療群も対照群も評価されていない。生産規模が大きいため、無作為化は不可能であった。
ライブラリー構築とNGS
RNA-seqでは、RNeasy Plus Miniキット(Qiagen)を用いて全RNAを抽出した。サンプルはまず液体窒素で組織を粉砕し、その後ホモジナイズしてから、標準的な手順に従ってRNA単離を行った。RNAの品質は、Agilent 2100 BioanalyzerとRNA 6000 Nano kit(Agilent)を用いて18Sおよび28SリボソームRNAバンドを分離することで評価した。RNA-seqライブラリーは、TruSeq Stranded Total RNAサンプル前処理キット(Illumina)を用いて構築し、Collibri NGS Library Quantification kit(Thermo Fisher Scientific)およびCFX Connect定量ポリメラーゼ連鎖反応(PCR;Bio-Rad)を用いて定量し、鎖特異的シーケンス用に調製し、101bpまたは150bpペアエンドリードとしてIllumina HiSeq 2500およびNovaSeq 6000プラットフォームでシーケンスした。
ChIP-seqでは、凍結組織を氷上で融解し、免疫沈降(IP)反応あたり10mgの組織を氷上で2枚のカミソリの刃で~1mm3の断片に切り刻んだ。切り刻んだ組織を、Protease K、10mMフェニルメチルスルホニルフルオリド(PMSF)、および10mM酪酸ナトリウムヒストン脱アセチル化酵素阻害剤を含むPBS緩衝液で洗浄し、組織から血液を除去した。洗浄した組織を乳鉢と乳棒ですりつぶした。調製した細胞塊を、1.5%ホルムアルデヒドを含むPBS緩衝液中、室温(RT)で20分間架橋した。125mMのグリシンを加え、ローテーターに5分間置くことで、架橋反応を停止させた。固定した細胞塊をProtease K、10 mM PMSF、10 mM 酪酸ナトリウムを含むPBSバッファーで2回洗浄し、バッファーA(5 mM Pipesバッファー、85 mM KCl、0.5% NP-40)を用いて溶解した。上清を遠心分離し、バッファーB(50 mM tris-HCl、0.5% SDS、2.5 mM EDTA)に加えた。すべての緩衝液はProtease K、10 mM PMSF、10 mM 酪酸ナトリウムヒストン脱アセチル化酵素阻害剤を含んでいた。Bioruptor Pico(Diagenode社製)を用いて、クロマチンを200から500bpのサイズの断片にせん断するために超音波処理を行った。1サイクル30秒、オンとオフを20~50サイクル、推奨されるように組織に応じて4℃で行った。クロマチン溶液を遠心分離して残渣を除去し、ChIP IPバッファー(16.7 mM tris-HCl、0.05% SDS、1.1% Triton X-100、1.2 mM EDTA、167 mM NaCl)で希釈した。IP反応あたり10μgの抗H3K4me3(Abcam, ab8580)、H3K4me1(Abcam, ab8895)、H3K27Ac(Abcam, ab4729)、H3K27me3(Abcam, ab6002)、H3K9me3(Abcam, ab8898)および免疫グロブリンG(IgG; Santa Cruz Biotechnology, sc-2027)に5μgのサンプルを加えた後、クロマチン溶液を4℃で一晩インキュベートした。各サンプルについてIgGモックコントロールを行った。ChIP後、Qubit 3.0 Fluorometer (Thermo Fisher Scientific)を用いてDNAを定量し、PCRによって濃縮を検証した。ChIP ライブラリーは TruSeq ChIP Library Prep kit (Illumina) を用いて調製し、Illumina HiSeq 2500 および NovaSeq 6000 プラットフォームで 50-bp または 150-bp ペアエンドリードとしてシーケンスした。
MBD-seqでは、各組織~25 mgをバッファーATL(Qiagen)とProtease K中で、組織が完全に溶解するまで56℃でインキュベートした。ゲノムDNAは、DNeasy Blood and Tissue kit(Qiagen)を用いて、メーカーのプロトコールに従って抽出した。単離したゲノムDNAの濃度と純度は、NanoDrop 2000(Thermo Fisher Scientific)で評価した。各サンプルについて、20ng/μlに標準化した3μgのDNAをBioruptor Picoを用いて剪断し、断片化したDNAのサイズ(~300bp)をアガロースゲルで確認した。最後に、剪断された二本鎖DNA(dsDNA)の濃度をQubit 3.0 Fluorometerを用いて測定した。500ナノグラムの断片化したdsDNAを、MethylMinerキット(Invitrogen、ME10025)を用いて、製造元の説明書に若干の修正を加えながら、メチル化CpGを濃縮した。非特異的結合が増加する可能性に対抗するため、よりストリンジェントな洗浄条件を用いた。より詳細には、各捕捉反応において、調製したMBDビーズ(10μgビーズと350ng MBD-ビオチンタンパク質を同じ反応に使用)を各500ngの断片化DNAインプットに添加した。ピペッティングの精度を上げるため、調製した MBD ビーズを Bind/Wash Buffer で 1× に希釈してから各 DNA サンプルに添加した。各捕捉反応は、1× Bind/Wash Buffer で最終容量 200μl に調整し、ローテーター上で RT で 40 分間インキュベートした。インキュベーション後、各チューブを磁石の上に1分間置き、非捕捉(非メチル化)DNA断片を含む上清を除去した。その後、メチル化DNAが結合したビーズを、プロトコールに従って200μlのBind/Wash Bufferで2回インキュベートして洗浄し、200μlの連続希釈溶出バッファー(200、300、400、600、800mM)を用いて段階的に溶出した。600mMと800mMの溶出バッファーで溶出されたメチル化DNA断片はクラスター生成を行った。MBDライブラリーはTruSeq Nano DNA Library prep kit(イルミナ)を用いて構築し、イルミナHiSeq 4000システムで101-bpペアエンドリードとしてシーケンスした。
ゲノムとアノテーション
社内で作成したすべてのデータセットおよび使用した公開データセットにおいて、イヌのCanFam3.1ゲノム、ヒトのhg38ゲノム、およびマウスのmm10ゲノムを参照ゲノムアセンブリとして使用した。イヌはENSEMBL v102、ヒトはGENCODE v37、マウスはGENCODE vM25を、データ処理中の下流の遺伝子アノテーションに使用した。
社内および公開NGSデータセットの処理と初期解析
データ処理に先立ち、BarkBase(10組織タイプ;小脳、前頭皮質、結腸、腎皮質、腎髄質、肝臓、肺、膵臓、脾臓、胃)およびATAC-seqデータ(4組織タイプ;肝臓、膵臓、脾臓、胃)から特定組織のマッチングRNA-seqデータセットをダウンロードした。BarkBaseの「前頭皮質」は大脳と、「腎皮質」と「腎髄質」は腎臓とマッチさせた。データS4も参照。さらに、ENCODEからヒトとマウスの特定組織(S状結腸、腎臓、肝臓、肺、卵巣、膵臓、脾臓、胃、ヒトの乳房上皮またはマウスの乳腺の9種類の組織)のマッチングRNA-seqデータセットを収集した。ENCODEの "S状結腸 "は結腸と、"乳房上皮 "は乳腺と一致させた。データS5も参照。
RNA-seqについては、FastQC v0.11.9を用いて生のシーケンスリードとライブラリーの質を推定した。生リードのトリミングはTrimomatic (73) v0.39を使用し、デフォルトのパラメーターで一律に100bpの長さに切り詰め、50bp未満のリードを廃棄し、低品質配列とアダプター配列をフィルターした。RNA-seq by expectation maximization (RSEM) (74) v1.3.3とENCODE3のSTAR-RSEMパイプラインパラメーター(--star)を用いて、フィルターしたリードをSTAR (75) v2.7.3a.を用いて参照ゲノムにアライメントし、リードカウントとFPKMを含む発現値を計算した。二次的な品質チェックとして、RSeQC (76) v4.0を用いてRNAの完全性と遺伝子本体のカバレッジを推定した。シグナルトラックを作成するために、各レプリケートのbedGraphフォーマットファイルを、Homer(77) v4.11のmakeTagDirectory(デフォルトオプション)とmakeUCSCfile(-style rnaseq -strand 両オプション)関数を用いてbamファイルから作成した。生成されたファイルは、bedGraphToBigWigを用いてbigwig形式に変換した(データS1)。11組織にわたる遺伝子発現を正確に比較するために、一般的に使用されている複数の正規化方法を評価した。利用可能な正規化方法は数多くあるが、組織間および種を超えた比較研究が数多く実施されていることを考えると、シーケンス深度(またはライブラリーサイズ)と遺伝子長を慎重に検討することが極めて重要であった。RSEMによって計算されたFPKM値とTPM値の発現分布を調べると、サンプル間だけでなく、複製間でも顕著な違いが明らかになった。RNA-seqデータにおけるバイアスの一般的な原因の1つは、高発現遺伝子の過剰発現であり、これはシーケンス方法の性質に起因する。FPKMとは異なり、TPM正規化法はサンプル中の全遺伝子の総発現量を100万に調整するが、少数の高発現差遺伝子の影響を強く受ける。もう一つの方法はUQ正規化(78)で、これは各遺伝子の生のカウントデータを生の遺伝子カウントの75パーセンタイルに基づいて正規化することにより、このバイアスを補正する。UQ正規化の特筆すべき利点は、他の方法と比較して極端な値(外れ値)の影響を受けにくく、発現レベルが異常に高かったり低かったりする個々の遺伝子の影響を受けにくいため、外れ値を扱う際に頑健な挙動を示すことである。そのため、この方法をRNA-seqの正規化に適用することにした。FPKM-UQ値は、遺伝子発現データの正確かつ偏りのない表現を確実にするために、すべての処理データの生のFPKM値にUQ正規化を適用することで算出した。
ChIP-seqについては、Gorkinら(36)のプロトコールに以前記載されたENCODEの均一処理ヒストンChIP-seqパイプラインv1.9 (https://github.com/ENCODE-DCC/chip-seq-pipeline2)を適応した。簡単に説明すると、まずTrimomaticを使用してリード長の違いによって生じる可能性のあるバイアスを除去するために、すべてのサンプルについてリード長を50 bpにクロップした。次に、切り出したリードをbowtie2 (79) v2.3.4を用いて参照ゲノムにアライメントし、Samtools (80) v1.11の "view "と "sort "機能を用いてsam形式からbam形式に変更してソートした。アライメント後のフィルタリングは、Samtoolsの "view "機能でオプション(-F 1804 -q 30)を、Picard v2.20.7のMarkDuplicates機能でPCR重複のあるアンマップリードとマルチマップリードを除去した。ピークコールとシグナルトラック生成には、MACS2 (81) v2.2.4を使用した。このステップの前に、フィルターしたbamファイルをサブサンプリングして擬似複製ファイルを作成した。最適ピークセット(optimal.narrowPeak)は、プールされたレプリケートと擬似レプリケート間の論理比較によって作成された。シグナルトラックは、倍数濃縮法と-log10(P値)法の両方で作成された。このパイプラインを通じて、シーケンス深度、マッピングの質、ライブラリーの複雑さ[non-redundant fraction (NRF)、PCR bottlenecking coefficient (PBC) 1、PBC2]、シグナル対ノイズ測定[正規化ストランド相互相関係数(NSC)、相対ストランド相互相関係数(RSC)]を含むいくつかのステップで、品質チェック統計が順次要約された。MBD-seqについては、ライブラリーの処理と品質チェックがChIP-seqで使用される同様のパイプラインとツールに従っているため、同じENCODEパイプラインが使用された(データS2およびS3)。BarkBase ATAC-seqには、Gorkinら(36)が記載したENCODEのATAC-seqパイプラインv1.9.3 (https://github.com/ENCODE-DCC/atac-seq-pipeline)を適応した。BarkBaseのATAC-seqデータは、多くのサンプルで<0.3 fraction of reads in called peak regions (FRiP)スコアしか達成しておらず、ENCODEが推奨する>0.3スコアよりも低いことに注意すべきである。いずれにせよ、BarkBaseでは現在もATAC-seqに取り組んでいる。
謝辞
J.-Y.Cho研究室のメンバーに感謝する。Cho lab.のメンバーには、サンプル収集の際に洞察に満ちた議論と技術的支援をいただいた。Kang, M. Aldonza, Y. Park, H.-Y. Yoon, GWAS解析の指導をいただいた。Yoon: ChIP-seqサンプル調製に協力、J. An: LMM解析に協力、H. Pak: 図作成に協力、W. Kim: 手術およびサンプル採取時に専門的な指導を行ったSNU獣医学教育病院の職員。最愛のペットを亡くした後、寄付プログラムに参加してくれた犬の飼い主たちに感謝する。彼らなしではこの研究は不可能であっただろう。また、技術的およびインスピレーションを与えてくれた科学ツイッター、ドッグ・ゲノミクス、ENCODE、オープン・ミーミング・フレームの各コミュニティにも感謝する。
資金提供 本研究は、バイオ・医療技術開発プログラム(助成番号:NRF-2016M3A9B6026771、J.-Y.C.に授与)、および科学研究センター(SRC)プログラム(助成番号:NRF-2021R1A5A1033157、J.-Y.C.に授与)の支援を受けた。 Y.C.)は、比較医学疾患研究センター(CDRC)イニシアチブの一環として、韓国政府の科学情報通信部(Ministry of Science and ICT)が資金提供する国立研究財団(NRF)を通じて、科学技術基礎研究本部(Directorate for Basic Research in Science and Engineering)より授与された。本研究の一部は、M.B.D.A.に対する現代自動車鄭夢九財団グローバル奨学金(FHS-20-008)の支援も受けている。
著者貢献: K.H.S.はバイオインフォマティクス全般を主導し、プロジェクトの発展に貢献した。M.B.D.A.はプロジェクトの発展と解析に貢献し、K.H.S.およびJ.-Y.C.とともに原稿を執筆した。 H.L.はプロジェクトの初期開発、RNA-seq実験、データ解析に貢献した。J.-W.L.は公開ATAC-seqデータ解析とリソース構築に貢献した。K.-J.S.は最初のChIP-seq実験を行った。K.K.はデータ解析を支援した。J.-Y.C.はプロジェクトの構想、開発、管理を行い、原稿を修正した。著者全員が原稿を査読した。
競合利益: 著者らは、競合する利益はないことを宣言する。
データおよび材料の入手: 本研究で作成された11組織およびその生物学的複製についてのすべての生データおよび処理済みハイスループットシーケンスデータは、GSE203107(統合NGSデータ)、GSE203104(ChIP-seqデータ)、GSE203105(MBD-seqデータ)、およびGSE203106(RNA-seqデータ)のアクセッション番号でNCBI Gene Expression Omnibus(GEO)データベースに寄託されている。作成されたデータはすべてhttps:/ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE203107で公開されている。論文の結論を評価するために必要なすべてのデータは、論文および/または補足資料に記載されている。ゲノム全体のクロマチン状態および統合マップは、UCSC Genome Browser: http://genome.ucsc.edu/s/snu-cdrc/dog-reference-epigenome。RNA-seq、ChIP-seq、MBD-seq処理のパイプライン、およびすべてのデータ解析と可視化に使用した主なスクリプトについて詳しく説明する。これらのリソースはGitHub: https://github.com/snu-cdrc/dog-reference-epigenome (24 July 2022)でダウンロード可能で、Zenodo: https://doi.org/10.5281/zenodo.7585509 にもアーカイブされている。
補足資料
このPDFファイルには以下が含まれています:
補足テキスト
図S1から19
データS1~S12の凡例
参考文献
ダウンロード
7.81 MB
本原稿のその他の補足資料は以下の通り:
データS1からS12
ダウンロード
79.52 KB
本論文のプロトコルをBio-protocolから閲覧/請求する。
参考文献と注釈
1
P. Savolainen, Y.-P. Zhang, J. Luo, J. Lundeberg, T. Leitner, Genetic evidence for an East Asian origin of domestic dogs. Science 298, 1610-1613 (2002).
クロスリファレンス
出版物
ISI
Google SCHOLAR
2
J. Serpell, The domestic dog: その進化、行動、人間との相互作用、ケンブリッジ大学出版局、1996年)、284巻。
参考文献へ
Google SCHOLAR
3
A. Bergström, L. Frantz, R. Schmidt, E. Ersmark, O. Lebrasseur, L. Girdland-Flink, A. T. Lin, J. Storå, K.-G. Sjögren、D. Anthony、E. Antipina、S. Amiri、G. Bar-Oz、V. I. Bazaliiskii、J. Bulatović、D. Brown、A. Carmagnini、T. Davy、S. Fedorov、I. Fiore、D. Fulton、M. Germonpré、J. ハイレ、E.K.アーヴィング=ピース、A.ジェイミソン、L.ヤンセンス、I.キリロワ、L.K.ホルヴィッツ、J.クズマノヴィッチ=クヴェトコヴィッチ、Y.クズミン、R.J.ロージー、D.L.ディズダー、M.マシュクール、M. ノヴァク、V.オナル、D.オートン、M.パサリッチ、M.ラディヴォイェヴィッチ、D.ラジコヴィッチ、B.ロバーツ、H.ライアン、M.サブリン、F.シドロフスキー、I.ストヤノヴィッチ、A.タリアコッツォ、K.トランタリドゥ、I. Ullén, A. Villaluenga, P. Wapnish, K. Dobney, A. Götherström, A. Linderholm, L. Dalén, R. Pinhasi, G. Larson, P. Skoglund, Origins and genetic legacy of prehistoric dogs. Science 370, 557-564 (2020).
クロスリファレンス
パブコメ
ISI
Google SCHOLAR
4
A. イヌの形態学:遺伝子の探索と突然変異の追跡。PLOS Biol.8, e1000310 (2010).
参考文献へ
クロスリファレンス
パブコメ
ISI
Google SCHOLAR
すべての文献を表示
(0)eレターズ
eLettersは継続的な査読のためのフォーラムです。eLettersは編集、校正、索引付けはされませんが、選別はされます。図表を埋め込んで投稿することはできませんし、eレター内での図表の使用は基本的に推奨しません。図表が不可欠な場合は、eレターの本文中に図表へのリンクを含めてください。eレターを投稿する前に、利用規約をお読みください。
ログインして回答を送信する
この記事に対するeレターはまだ公開されていません。
TrendMDのおすすめ記事
エピゲノムシグナルを持たないノンコーディング遺伝子座は、グローバルなクロマチン組織と細胞生存能の維持に必須であり得る
Bo Dingら、Sci Adv、2021年
乳がんメチロームは転移のエピゲノム基盤を確立する
Fang Fangら、Sci Transl Med誌、2011年
小脳と前頭前皮質におけるエピゲノムの変異を明らかにする低インプットかつ多重化マイクロ流体アッセイ
Sai Maら、Sci Adv、2018年
IL-32アイソフォームのスイッチングとHIV-1感受性の調節は、アレル特異的長距離制御によって決定される
Robert-Jan Palstraら, Sci Adv, 2018
単一細胞トランスクリプトミクスとエピゲノミクスの統合により、自己免疫リスク遺伝子座の生殖細胞中心関連の強い病因が明らかになった
ハミッシュ・W・キングら、Sci Immunol、2021年
イネのスーパーパンゲノムランドスケープ
Lianguang Shangら、Cell Research誌、2022年
ヒト自然リンパ系細胞における組織特異的転写インプリンティングと異質性が全長単一細胞RNA配列決定によって明らかになった
Luca Mazzuranaほか、Cell Research誌、2021年
新しいガス検知材料の密度汎関数理論的研究: PdドープPC6
WANG Xinほか, Journal of Sichuan University (Natural Science Edition), 2022
Chara globularis葉緑体全ゲノムのアセンブリと特性解析
方燕ほか, 四川大学紀要(自然科学版), 2021
第三世代太陽電池と建物の融合:総説
エラヘ・ミラビ他、クリーンエネルギー、2021年
掲載誌
最新号
単一細胞および空間トランスクリプトミクスにより、骨格筋線維症に関連するマクロファージ集団が同定される
著者

GERALD COULIS

DIEGO JAIME


硫黄循環酵素の進化と広がりは初期地球の酸化還元状態を反映している

キャサリン・マテオス

ギャレット・チャペル


ポリケトン被覆ナノワイヤーによる高悪性度漿液性卵巣がん特異的細胞外小胞の同定

横井 明

鵜飼 真由


目次
広告
サイエンスアドバイザーの登録
ScienceAdviserに登録すると、最新のニュース、解説、研究を毎日無料で受信できます。
購読する
最新ニュース
サイエンス・インサイダー7月号 2023
欧州委員会、遺伝子編集植物の規制緩和を提案
サイエンス・インサイダー 7 jul 2023
インドネシアでは選挙とエルニーニョが火災リスクを増幅させる可能性
NEWS 7 JUL 2023
花泥棒のハチドリ。その見分け方とは?
サイエンス・インサイダー2023年7月6日
サルを虐待したとされるコロンビアの研究施設にNIHが資金援助
ニュース2023年7月6日
電子の「形」測定で新粒子発見への期待薄に
NEWS6 7月 2023
余分な染色体が腫瘍の成長を助ける可能性
広告
推奨
2013年10月 研究論文
1092人のヒトから得られた変異体の統合的アノテーション: がんゲノム解析への応用
2003年7月
ジャポニカ米からの28,000以上のcDNAクローンの収集、マッピング、アノテーション
2003年9月
犬ゲノム:調査シーケンスと比較解析
研究論文2010年12月
線虫ゲノムを統合的に解析するmodENCODEプロジェクト
広告
全文を見るPDFをダウンロード
スライドショーをスキップする
フォローする
ニュースレターを読む
ニュース
すべてのニュース
サイエンスインサイダー
ニュース特集
サイエンスからのニュースを購読する
ニュース・フロム・サイエンスFAQ
ニュース・フロム・サイエンスについて
採用情報
採用情報
求人を探す
採用企業プロフィール
論評
オピニオン
分析
ブログ
ジャーナル
サイエンス
科学の進歩
科学免疫学
サイエンス・ロボティクス
サイエンス・シグナル
サイエンス・トランスレーショナル・メディシン
サイエンス提携誌
著者と査読者
著者向け情報
査読者情報
図書館員
機関購読の管理
図書館管理ポータル
見積依頼
図書館員FAQ
広告主
広告キット
カスタム出版情報
求人情報を掲載する
関連サイト
AAAS.org
AAASコミュニティ
EurekAlert
教室での科学
AAASについて
リーダーシップ
AAASでの仕事
賞と受賞
ヘルプ
よくある質問
アクセスと購読
単一号の注文
別刷りと許可
TOCアラートとRSSフィード
お問い合わせ
© 2023 米国科学振興協会. 無断複写・転載を禁じます。AAASはHINARI、AGORA、OARE、CHORUS、CLOCKSS、CrossRef、COUNTERのパートナーです。Science Advances eISSN 2375-2548。
利用規約

プライバシーポリシー

アクセシビリティ

この記事が気に入ったらサポートをしてみませんか?