Informasi

Bagaimana cara menentukan peluang suatu mutasi hilang/tetap?

Bagaimana cara menentukan peluang suatu mutasi hilang/tetap?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya punya pertanyaan tentang bagaimana menentukan probabilitas bahwa suatu mutasi hilang atau diperbaiki setelah 1 atau 2 generasi dalam genetika populasi.

Katakanlah kita memiliki populasi yang bercampur secara acak, dengan N individu diploid (N=5), dan ada satu mutasi yang muncul. Saya tahu itu harus mengikuti distribusi binomial, tetapi saya juga mendengar itu mungkin mengikuti distribusi Poisson ... dan yang ingin saya katakan adalah bahwa probabilitas untuk mendapatkan tetap sama dengan frekuensi pada waktu 0, yaitu 1/2N, atau di sini 1/10.

Selanjutnya, bagaimana Anda menghitung probabilitas bahwa itu ada dalam 2 salinan?


Bagaimana cara menentukan peluang suatu mutasi hilang/tetap?

Probabilitas bahwa mutasi netral diperbaiki setelah waktu yang tidak terbatas sama dengan frekuensinya $p$ seperti yang Anda katakan. Oleh karena itu kemungkinan hilang adalah $1-p$. Posting ini menawarkan penjelasan tetapi ada banyak cara untuk membuat demonstrasi. Anda mungkin ingin melihat buku bagus tentang genetika populasi untuk demo ini. Berikut rekomendasi buku.

bagaimana Anda menghitung probabilitas bahwa itu ada dalam 2 salinan?

Probabilitas selalu bergantung pada apriori. Apa apriori Anda? Mari kita asumsikan bahwa kita tahu bahwa frekuensi alel adalah $frac{4}{10}$ pada langkah waktu sebelumnya.

Di bawah model Wright-Fisher, probabilitas memiliki 2 salinan pada generasi berikutnya diberikan oleh distribusi binomial. Misalkan $N=5$ dan oleh karena itu $2N=10$ dan misalkan frekuensi alel yang diinginkan adalah $frac{4}{10}$, probabilitas memiliki dua alel pada generasi berikutnya adalah ${10 choose 2} left(frac{4}{10} ight)^2 left(frac{6}{10} ight)^8 0,12$.

Di bawah model Moran probabilitas ini adalah nol. Model Moran adalah model kelahiran-kematian (model Markov) dan oleh karena itu transisi antara langkah-langkah waktu hanya dapat menambah atau mengurangi (atau tidak membuat perubahan) satu alel. Anda akan mencatat bahwa langkah waktu tidak berarti hal yang sama untuk kedua model. Hilangnya heterozigositas dua kali lebih cepat di bawah model Wright-Fisher tetapi diskusi ini jelas bukan yang Anda minta!


Penyimpangan genetik

Penyimpangan genetik (penyimpangan alel atau Efek Sewall Wright) [1] adalah perubahan frekuensi varian gen (alel) yang ada dalam suatu populasi karena pengambilan sampel organisme secara acak. [2] Alel pada keturunannya adalah sampel dari alel pada orang tua, dan kebetulan memiliki peran dalam menentukan apakah individu tertentu bertahan dan bereproduksi. Frekuensi alel populasi adalah fraksi salinan satu gen yang memiliki bentuk tertentu. [3]

Penyimpangan genetik dapat menyebabkan varian gen menghilang sepenuhnya dan dengan demikian mengurangi variasi genetik. [4] Hal ini juga dapat menyebabkan alel yang awalnya langka menjadi lebih sering dan bahkan tetap.

Ketika ada sedikit salinan alel, efek pergeseran genetik lebih besar, dan ketika ada banyak salinan, efeknya lebih kecil. Di pertengahan abad ke-20, perdebatan sengit terjadi mengenai kepentingan relatif seleksi alam versus proses netral, termasuk pergeseran genetik. Ronald Fisher, yang menjelaskan seleksi alam menggunakan genetika Mendel, [5] berpandangan bahwa pergeseran genetik memainkan peran paling kecil dalam evolusi, dan ini tetap menjadi pandangan dominan selama beberapa dekade. Pada tahun 1968, ahli genetika populasi Motoo Kimura menyalakan kembali perdebatan dengan teori netralnya tentang evolusi molekuler, yang mengklaim bahwa sebagian besar contoh di mana perubahan genetik menyebar ke seluruh populasi (walaupun tidak selalu perubahan fenotipe) disebabkan oleh pergeseran genetik yang bekerja pada mutasi netral. [6] [7]


Bagaimana cara menentukan peluang suatu mutasi hilang/tetap? - Biologi

Seperti yang dibahas dalam pendahuluan, mutasi adalah perubahan kode genetik yang menyebabkan munculnya sifat-sifat berbeda. Mutasi ini dapat diturunkan secara genetik dan hilang atau menjadi tetap. Karena mutasi biasanya mempengaruhi satu individu dalam suatu populasi, fraksi awal kecil dan kemungkinan fiksasi juga kecil (probabilitas kehilangan tinggi). Namun, dalam populasi yang besar bahkan dengan fraksi awal yang kecil, diperlukan waktu yang lama untuk menyelesaikan suatu mutasi. Misalnya, dalam populasi 10.000 manusia, waktu rata-rata untuk fiksasi atau hilangnya mutasi dari satu individu adalah sekitar 20 generasi atau 500 tahun!

Berikut beberapa contoh mutasi pada tumbuhan, hewan dan manusia:

Mutasi pada mawar lumut taman ini (ditunjukkan di sebelah kiri) telah menyebabkan beberapa bunga tumbuh oranye daripada kuning. Kredit foto: http://en.wikipedia.org/wiki/Mutation . Di sebelah kanan, mutasi yang cukup umum pada tikus menyebabkan pita di mantel di sekitar tubuh. Kredit foto: http://www.thefunmouse.com/varieties/marked.cfm

Akhirnya, mutasi umum pada manusia menyebabkan sel darah merah berbentuk pola sabit seperti yang ditunjukkan di atas di kiri atas. Mutasi ini dikenal sebagai anemia sel sabit. Kredit foto: http://www.emedicinehealth.com/sickle_cell_crisis/article_em.htm

Untuk menghubungkan gagasan mutasi kembali ke diskusi kita tentang DNA dan protein, berikut adalah beberapa contoh bagaimana mutasi pada DNA dapat menyebabkan perubahan pada protein:

1) Sejumlah nukleotida yang tidak habis dibagi tiga dimasukkan ke dalam atau dihapus dari DNA. Ini menggeser posisi kodon yang sedang dibaca untuk membuat asam amino dan dikenal sebagai mutasi frameshift. Misalnya, jika urutan aslinya adalah CCC CAG AGA (sesuai dengan asam amino prolin, glutamin dan arginin) dan ada penyisipan (berwarna merah) yang mengarah ke urutan CC GA CC AGA GA, asam amino yang sesuai akan berubah menjadi prolin, treonin dan arginin dan akan menggeser basa mana yang ada di kodon di sisa RNA yang dibaca setelah urutan ini.

2) Mutasi yang tidak masuk akal adalah perubahan basa pada satu titik dalam DNA yang menyebabkan sinyal berhenti di mana seseorang tidak boleh berada dan menghentikan pembuatan protein di tengah.

3) Mutasi missense adalah perubahan basa pada suatu titik dalam DNA yang menghasilkan substitusi asam amino yang berbeda dari yang semula dimaksudkan pada beberapa titik dalam protein. Hal ini dapat mengubah atau menghambat fungsi protein.

4) Mutasi netral adalah mutasi yang mengarah pada substitusi asam amino yang berbeda dari yang semula dimaksudkan, tetapi tidak untuk mengubah fungsi protein.

5) Mutasi diam adalah mutasi yang tidak menyebabkan perubahan urutan asam amino protein.


Pengantar

Karena sebagian besar mutasi bersifat merusak, laju mutasi tidak boleh terlalu tinggi pada kenyataannya, dalam populasi yang sangat besar, untuk kelas fungsi kebugaran yang luas, ambang kesalahan telah terbukti ada di atas di mana efek merusak dari mutasi tidak dapat dikompensasikan dengan seleksi (Eigen 1971 Jain dan Krug 2007). Tingkat mutasi juga tidak nol (Baer et al. 2007 ), dan telah dikemukakan bahwa fluktuasi stokastik dalam populasi yang terbatas membatasi evolusi tingkat mutasi di bawah tingkat tertentu karena dalam populasi yang cukup kecil, keuntungan diperoleh dengan menurunkan tingkat mutasi. tingkat mutasi tidak dapat mengkompensasi efek penyimpangan genetik acak (Lynch 2010). Data empiris untuk organisme dengan ukuran populasi efektif yang sangat berbeda menunjukkan korelasi negatif antara tingkat mutasi yang merusak dan ukuran populasi (Sung et al. 2012), dan beberapa wawasan kuantitatif tentang hubungan ini telah diperoleh dengan memperlakukan semua mutasi yang merusak menjadi mematikan ( Lynch 2011). Namun, ini jelas merupakan skenario ekstrem, dan penting untuk menanyakan bagaimana tingkat mutasi yang merusak berkembang ketika mutasi hanya merusak secara lemah.

Banyak penyelidikan teoretis dan eksperimental juga menunjukkan bahwa dalam populasi aseksual yang beradaptasi, alel mutator yang menyebabkan tingkat mutasi yang lebih tinggi daripada alel nonmutator dapat diperbaiki [lihat ulasan terbaru oleh Raynes dan Sniegowski ( 2014 )]. Karena mutator menghasilkan tidak hanya mutasi yang merugikan tetapi juga menguntungkan pada tingkat yang lebih tinggi daripada nonmutator, alel mutator dapat menumpang untuk fiksasi dengan mutasi yang menguntungkan (Smith dan Haigh 1974 Taddei et al. 1997). Namun, begitu populasi telah mencapai tingkat kebugaran yang tinggi, tingkat mutasi yang tinggi merugikan karena sebagian besar mutasi sekarang akan merusak, dan dalam situasi seperti itu, tingkat mutasi diperkirakan akan menurun (Liberman dan Feldman 1986 ). Memang, dalam beberapa percobaan (Tröbner dan Piechocki 1984 Notley-McRobb et al. 2002 McDonald et al. 2012 Turrientes et al. 2013 Wielgoss et al. 2013 ), tingkat mutasi dari populasi yang diadaptasi yang membawa alel mutator terlihat menurun dan waktu untuk fiksasi telah diukur, tetapi pemahaman teoretis tentang skala waktu ini hilang.

Untuk mengatasi masalah yang dibahas di atas, kami mempelajari nasib nonmutator langka dalam populasi mutator aseksual yang besar menggunakan proses percabangan multitipe (Patwa dan Wahl 2008 ). Perbedaan penting antara karya sebelumnya tentang mutator hitchhiking (Taddei et al. 1997 Andre dan Godelle 2006 Wylie et al. 2009 Desai and Fisher 2011 ) dan penelitian kami adalah bahwa di sini populasi mutator diasumsikan berada pada kesetimbangan seleksi-mutasi dan oleh karena itu tidak dalam seleksi positif. Namun, mutasi kompensasi yang mengurangi efek mutasi yang merusak termasuk dalam model kami. Kami menemukan bahwa ketika hanya ada mutasi yang merusak, nonmutator dapat diperbaiki dengan probabilitas yang meningkat dengan tingkat mutasi yang merusak dari mutator. Mutasi kompensasi pada populasi mutator diharapkan mengurangi kemungkinan fiksasi nonmutator, dan kami menemukan bahwa intuisi ini memang benar ketika mutasi merusak pada mutator secara efektif mematikan. Namun, yang mengejutkan, ketika mutasi yang merusak itu sedikit berbahaya, kemungkinan fiksasi pada awalnya meningkat dan kemudian menurun seiring dengan meningkatnya tingkat mutasi kompensasi. Studi kami dengan demikian mengidentifikasi kondisi di mana penyebaran nonmutator ditekan tanpa adanya seleksi positif, dan melengkapi karya sebelumnya di mana mutator menumpang dengan mutasi menguntungkan untuk fiksasi (Taddei et al. 1997 Andre dan Godelle 2006 Wylie et al. 2009 Desai dan Fisher 2011).

Menggunakan hasil kami untuk probabilitas fiksasi dan argumen drift-barrier yang menyatakan bahwa keuntungan yang ditawarkan oleh penurunan tingkat mutasi yang merusak dibatasi oleh penyimpangan genetik acak dalam populasi yang terbatas (Lynch 2010 ), kami menemukan bahwa tingkat mutasi yang merusak menurun dengan meningkatnya ukuran populasi sesuai dengan data eksperimen (Sung et al. 2012). Namun, tidak seperti karya teoretis sebelumnya yang memperlakukan mutasi yang merusak menjadi mematikan secara efektif (Lynch 2011 ), di sini kami mempertimbangkan mutasi yang merusak secara kuat dan lemah, dan tidak hanya mereproduksi hasilnya di Lynch (2011), tetapi juga menemukan hukum penskalaan baru di kasus terakhir. Kami juga menggunakan hasil untuk probabilitas fiksasi untuk menemukan waktu untuk menurunkan tingkat mutasi pada populasi mutator yang diadaptasi dan membandingkan hasil teoretis kami dengan eksperimen terbaru (McDonald et al. 2012 Wielgoss et al. 2013 ).


Diskusi

Kesalahan pengurutan di NGS

Perkembangan NGS telah sangat mempercepat penemuan variasi genetik sementara secara signifikan mengurangi waktu dan biaya. Namun, tingkat kesalahan pengurutan yang lebih tinggi dari NGS juga menghadirkan tantangan komputasi bagi ahli biologi [23]. Secara umum, kesalahan pengurutan dapat dikategorikan menjadi dua jenis: kesalahan mesin, yang disebabkan oleh kelompok campuran, kerusakan intensitas sinyal, atau masalah pentahapan (untuk Illumina Genome Analyzer (GA)), dan karenanya harus didistribusikan secara acak pada urutan target dan kesalahan sistematis, disebabkan oleh bahan kimia/sensor/teknologi yang tidak sempurna, yang menghasilkan hot spot tingkat kesalahan di lokasi genom tertentu [7, 10, 24].

Sebagian besar kesalahan mesin dapat dihilangkan melalui serangkaian filter untuk skor kualitas dan/atau angka ketidakcocokan [24]. Sebaliknya, membedakan kesalahan sistematis jauh lebih sulit, karena skor kualitas tidak mencerminkan tingkat kesalahan yang sebenarnya di titik-titik kesalahan [7, 9]. Baru-baru ini, beberapa karakteristik kesalahan sistematis telah diusulkan yang dapat membantu dalam identifikasi mereka. Misalnya, posisi G-error-G dan G-error-A memiliki tingkat kesalahan tertinggi [8], sedangkan hot spot kesalahan pengurutan cenderung terletak setelah pengulangan terbalik dan urutan GGC atau GGT [7, 9, 10]. Meskipun kami juga menemukan bahwa fitur-fitur ini berkorelasi dengan kesalahan sistematis secara statistik, mereka hanya dapat menjelaskan sebagian kecil dari varians tingkat kesalahan, karena posisi yang mengikuti motif ini menunjukkan tingkat kesalahan dengan variasi hingga sepuluh kali lipat (Gambar S3 dalam file tambahan 1), seperti juga dicatat baru-baru ini di tempat lain [10].

Dalam penelitian kami, kami menemukan bahwa kesalahan pengurutan sering terjadi pada posisi yang sama pada individu yang berbeda, terutama untuk posisi dengan tingkat kesalahan tertinggi (Gambar 3). Kecenderungan ini tidak mungkin disebabkan oleh mesin pengurutan tertentu karena korelasi juga dapat diamati antara data yang dihasilkan oleh mesin yang berbeda. Pengamatan ini menunjukkan bahwa tingkat kesalahan untuk urutan bunga dapat diperkirakan dari panel referensi yang memiliki urutan yang sama. Selain itu, dengan memeriksa tingkat kesalahan untuk bagian yang berbeda dari pembacaan dan untuk pembacaan dari untaian yang berbeda, setelah filter kualitas kami, kami menemukan bahwa: 1) kesalahan pengurutan bervariasi di berbagai bagian pembacaan dan pada posisi yang berbeda (Gambar 2 Tabel S5 dan S6 dalam file tambahan 3) dan 2) tingkat kesalahan adalah spesifik untai (Gambar 2), karena konteks pengurutan pada dua untai berbeda sebagian besar waktu. Oleh karena itu, posisi dan orientasi bacaan yang dipetakan ke posisi yang dipertanyakan harus dipertimbangkan saat memperkirakan tingkat kesalahan pengurutan.

Masalah lainnya adalah apakah akan menghapus pembacaan duplikat atau tidak, karena ini mungkin mencerminkan molekul template awal yang sama. Di satu sisi, termasuk pembacaan duplikat dapat memperkuat sinyal kesalahan yang timbul dari kesalahan PCR, tetapi di sisi lain, menghapus pembacaan duplikat hanya berdasarkan koordinat awal pada genom menyebabkan pengurangan cakupan yang signifikan (untuk pembacaan ujung tunggal) . Dengan menganalisis data akhir berpasangan dari dua perpustakaan pengurutan mtDNA dengan kedalaman pengurutan yang setara, kami menemukan setiap segmen di perpustakaan diduplikasi rata-rata 1,19 kali, dengan 454 segmen (0,01%) diduplikasi lebih dari 10 kali, dan segmen yang paling banyak diduplikasi hadir dalam 247 eksemplar. Untuk sampel campuran artifisial, dengan menghapus pembacaan duplikat, kami kehilangan lebih dari 90% pembacaan dan 4 posisi LLM terlewatkan oleh metode kami. Oleh karena itu, masuk akal untuk menyimpan semua pembacaan dalam analisis sambil mempertimbangkan pembacaan duplikat saat mengidentifikasi LLM.

Fitur metode kami

Memahami kesalahan pengurutan memungkinkan untuk membedakan kesalahan dari LLM nyata. Sementara berbagai metode tersedia yang memanfaatkan fitur kesalahan pengurutan yang berbeda, kami telah mengembangkan metode yang berkinerja lebih baik daripada metode lain dalam mendeteksi LLM (berdasarkan sampel campuran artifisial, di mana kedalaman pengurutan/jumlah alel minor jauh lebih rendah daripada yang digunakan/disarankan dalam penelitian lain [14, 17]). Selain itu, metode genotipe standar yang tersedia tidak dirancang untuk deteksi LLM. Misalnya, untuk toolkit GATK yang banyak digunakan [11] hanya ada tiga kemungkinan frekuensi alel (0%, 50%, 100%), sedangkan ada rentang frekuensi yang jauh lebih luas untuk LLM. Selain itu, GATK memerlukan database SNP yang andal, yang tidak ada untuk LLM, dan GATK menggunakan metrik untuk menilai/memperbaiki panggilan SNP baru (seperti rasio transisi ke transversi) yang tidak ada untuk LLM.

Metode yang diperkenalkan di sini didasarkan pada beberapa fitur. Pertama, metode kami memperkirakan tingkat kesalahan dari data pengurutan ulang populasi. Untuk setiap posisi di wilayah target, tingkat kesalahan empiris diperkirakan dari semua pembacaan yang dipetakan ke sampel referensi yang memiliki nukleotida konsensus yang sama. Oleh karena itu, kami menggunakan konteks pengurutan lengkap, daripada konteks yang lebih terbatas atau sama sekali berbeda, untuk memperkirakan kesalahan urutan. Selain itu, karena semua sampel dianalisis mengikuti alur yang sama, kesalahan apa pun yang terjadi selama analisis (seperti kesalahan pemetaan) juga dipertimbangkan.

Kedua, distribusi bacaan diperhitungkan. Seperti yang ditunjukkan di atas, tidak semua bacaan yang dipetakan ke posisi yang sama memiliki tingkat kesalahan yang sama, jadi, kami mengkategorikan bacaan ke dalam bin sesuai dengan posisi dan orientasinya yang dipetakan ke urutan target. Karena tingkat kesalahan di setiap nampan diperkirakan secara terpisah, pembacaan di nampan yang berbeda memberikan bobot yang berbeda dalam memanggil LLM. Selain itu, kontribusi setiap bin ke skor kualitas akhir memiliki batas atas, untuk mencegah kesalahan positif yang disebabkan oleh pembacaan duplikat.

Ketiga, batas frekuensi atau cakupan mutlak tidak diperlukan. Ambang batas frekuensi banyak digunakan untuk membedakan LLM dari kesalahan pengurutan, tetapi ambang frekuensi seperti itu harus bergantung pada cakupan, yaitu, ambang frekuensi menjadi lebih kecil dengan cakupan yang lebih tinggi. Karena kedalaman sekuensing tidak merata di sepanjang genom, ambang frekuensi tunggal akan melebih-lebihkan atau meremehkan jumlah LLM yang sebenarnya. Sebaliknya, dalam metode kami a P-nilai dihitung untuk mewakili kemungkinan pengamatan di bawah hipotesis nol (alel kecil disebabkan oleh kesalahan pengurutan).

Keempat, metode kami memberikan skor kualitas seperti Phred yang dapat dipahami, yang mencerminkan keandalan alel minor untuk setiap posisi. Hal ini membuat lebih mudah untuk menerapkan strategi penemuan yang berbeda, tergantung pada keinginan peneliti, yaitu tingkat positif palsu yang lebih tinggi dengan tingkat negatif palsu yang lebih rendah, atau tingkat positif palsu yang lebih rendah dengan tingkat negatif palsu yang lebih tinggi.

Fleksibilitas metode kami

Idealnya, sampel referensi yang digunakan untuk memperkirakan tingkat kesalahan tidak boleh memiliki LLM, atau hanya sejumlah kecil LLM pada posisi yang sama. Dalam praktiknya, asumsi ini berlaku di sebagian besar posisi LLM. Namun, untuk variasi umum di mana tingkat kesalahan yang jauh lebih tinggi akan diamati di sebagian besar tempat sampah, tingkat kesalahan tetap dapat digunakan (seperti yang diterapkan dalam metode Poisson). Misalnya, dengan menggunakan tingkat kesalahan 0,01 ketika tingkat kesalahan referensi secara signifikan lebih tinggi dari 0,01, kami berhasil mendeteksi semua variasi umum dalam kumpulan data PhiX174 tanpa kesalahan positif (Gambar S8 dalam file tambahan 1). Namun, jika sampel referensi kurang untuk wilayah yang diinginkan, tingkat kesalahan diperkirakan dari data kontrol, skor kualitas, atau beberapa dataset lain untuk semua posisi dan semua tempat sampah dapat digunakan. Dalam penelitian ini, kami tidak mengamati hotspot kesalahan apa pun yang memiliki tingkat kesalahan yang jauh lebih tinggi daripada tingkat kesalahan keseluruhan dalam metode kami (yaitu, yang melewati ambang batas kami untuk memanggil LLM). Namun, menggunakan tingkat kesalahan rata-rata dapat menghasilkan tingkat negatif palsu yang lebih tinggi.

Karena ketidakpastian distribusi yang mendasari kesalahan pengurutan di seluruh urutan target, kami memperkenalkan tiga metode untuk menghitung: P-nilai penyimpangan pengamatan dari harapan. Metode Poisson mengasumsikan tingkat kesalahan pengurutan mengikuti distribusi Poisson atau binomial, sedangkan metode Fisher dan empiris tidak mengasumsikan distribusi spesifik untuk kesalahan pengurutan. Metode eksak Poisson dan Fisher mengukur perbedaan absolut antara frekuensi alel minor yang diamati dan tingkat kesalahan, sedangkan metode empiris mengukur peringkat frekuensi alel minor di antara semua tingkat kesalahan referensi. Dalam penelitian kami, ketiga metode menunjukkan spesifisitas yang baik (tingkat penemuan palsu & lt 1%). Metode empiris memiliki sensitivitas yang lebih tinggi ketika frekuensi alel minor rendah (< 5%), dalam hal ini perbedaan antara frekuensi alel minor dan tingkat kesalahan cenderung diperkuat dengan memberi peringkat frekuensi alel minor (misalnya, alel minor frekuensi yang menempati peringkat pertama masih bisa sangat dekat dengan pengamatan yang tersisa). Namun, metode Empiris harus digunakan dengan hati-hati saat memproses data dari jalur/jalan pengurutan yang berbeda, karena perbedaan kesalahan pengurutan intrinsik dapat terjadi antara sampel referensi dan sampel uji karena variasi antar jalur/jalan (Gambar S4 dalam file tambahan 1 ), dan perbedaan palsu semacam itu dapat ditangkap sebagai sinyal LLM.

Meskipun data untuk penelitian ini hanya berasal dari platform Illumina, input ke saluran kami adalah file SAM [25], sehingga memungkinkan untuk memproses data dari platform mana pun yang datanya dapat dikonversi ke format SAM. Juga mudah untuk menerapkan proses khusus lainnya (misalnya, kalibrasi ulang atau penyelarasan skor kualitas dasar) sebelum menerapkan metode kami. Meskipun profil kesalahan pengurutan bervariasi secara substansial di antara berbagai teknologi/penelepon dasar, metode kami tidak memerlukan pengetahuan sebelumnya tentang profil kesalahan, karena semua informasi yang relevan diekstraksi dari seluruh kumpulan data pengurutan ulang.

Penerapan lebih lanjut dari metode ini dapat mencakup estimasi genotipe standar untuk sekuens diploid. Namun, beberapa masalah perlu ditangani, termasuk: bagaimana memperkirakan tingkat kesalahan ketika heterozigot dipertimbangkan, bagaimana menggabungkan bacaan ketika cakupannya rendah, dan bagaimana menghitung skor kualitas untuk heterozigot.

Masalah lain dalam mendeteksi LLM

Kesalahan pengurutan bukan satu-satunya masalah dalam mendeteksi LLM. Kontaminasi silang adalah masalah besar lainnya, terutama ketika menangani sejumlah besar sampel secara bersamaan. Meskipun biasanya fraksi kontaminasi sangat kecil, nukleotida yang berasal dari komponen kontaminasi minor berperilaku persis sama dengan LLM. Oleh karena itu, tidak mungkin untuk membedakan alel kontaminasi dari LLM yang sebenarnya. Di sini, kami menyediakan cara langsung untuk mengidentifikasi kontaminasi: setelah membuat daftar LLM potensial, kami dapat menyimpulkan kontaminasi berdasarkan jumlah total alel minor (jika ini melebihi beberapa nilai yang diharapkan), atau kesamaan dengan sampel lain di perpustakaan yang sama , atau di perpustakaan lain, atau di database. Misalnya, dengan data sekuensing genom mtDNA, jika lebih dari lima LLM terdeteksi dalam sampel, itu akan dicurigai sebagai campuran, karena tidak mungkin satu individu memiliki lebih dari lima posisi heteroplasma [1, 3, 12]. Untuk campuran yang dicurigai seperti itu, kami kemudian memeriksa urutan lain dari perpustakaan yang sama (juga dari perpustakaan lain yang disiapkan pada waktu yang sama) untuk menentukan apakah komponen LLM dapat dijelaskan oleh campuran dari sampel tertentu. Kami juga menggunakan database seperti Phylotree [26] untuk menentukan apakah alel minor kemungkinan berasal dari satu haplogroup tertentu. Dalam penelitian kami, kami dapat mendeteksi kontaminasi hingga 2 hingga 3%, dan hampir setengah dari alel minor yang diharapkan secara akurat pulih pada tingkat itu dengan cakupan rata-rata sekitar 500×. Hal ini menunjukkan kemungkinan untuk menemukan kontaminasi pada tingkat yang lebih rendah dengan cakupan yang lebih tinggi. Namun, kemampuan untuk mendeteksi kontaminasi bergantung pada jumlah posisi variabel antara sampel yang berkontribusi pada campuran: jika mereka sangat mirip, maka akan sangat sulit untuk membedakan apakah itu LLM atau kontaminasi nyata. Pemeriksaan wilayah genomik lainnya akan diperlukan.

Pembacaan chimeric juga merupakan masalah potensial dengan pengurutan multipleks, karena pembacaan tidak hanya berasal dari sampel target, tetapi juga dari sampel lain di perpustakaan pengurutan yang sama. Indeks ganda memungkinkan pembacaan chimeric untuk dideteksi, dan dengan menerapkan indeks ganda di empat perpustakaan, kami menemukan 10 hingga 15% pembacaan memiliki indeks yang tidak cocok (Gambar 6). Ini jauh lebih tinggi daripada 0,3% yang dilaporkan sebelumnya [22], mungkin karena kepadatan klaster dalam penelitian kami 1,5 kali lipat lebih tinggi daripada di mereka dan lebih banyak sampel (heterogen) digandakan di perpustakaan kami. Kontaminasi indeks adalah sumber potensial pembacaan chimeric lainnya, tetapi tidak mungkin menjadi faktor yang berkontribusi dalam penelitian kami karena indeks P5 yang tak tertandingi tampaknya berasal secara acak dari indeks lain (Gambar 6). Dengan mempertimbangkan komposisi perpustakaan di setiap posisi, kami menemukan hingga sekitar 70% alel minor dapat dijelaskan oleh pembacaan chimeric. Meskipun tidak semua LLM adalah positif palsu, pembacaan chimeric tetap menjadi perhatian serius, dan indeks ganda disarankan.


Ucapan Terima Kasih

Kami berterima kasih kepada John M. Coffin, Richard A. Neher, dan Boris I. Shraiman atas komentar dan diskusi yang bermanfaat. Pekerjaan ini didukung sebagian oleh National Science Foundation Graduate Research Fellowship (B.H.G.), Max Planck Society (OH), dan James S. Mcdonnell Foundation dan Harvard Milton Fund (M.M.D). I.M.R. didukung oleh National Institute of Health Grants R01AI 063926 (kepada I.M.R.) dan R37CA 089441 (kepada John M. Coffin). D.J.B. didukung oleh National Institutes of Health Grant R01GM 086793 (kepada Boris I. Shraiman). Simulasi dalam makalah ini dilakukan pada cluster Odyssey yang didukung oleh Research Computing Group di Universitas Harvard.


Strategi untuk Meminimalkan Genetik Drift

Konten bersponsor dipersembahkan oleh

Pentingnya stabilitas genetik dalam penelitian tikus

Bagi rata-rata peneliti ilmu kehidupan, latar belakang genetik tikus mungkin hanya menjadi renungan, jika bahkan sebuah pemikiran, sama sekali. Prioritas utama seorang peneliti mungkin adalah memahami penyakit, mempublikasikan, dan mendapatkan pendanaan. Namun, untuk berhasil mencapai tujuan ini, menjaga stabilitas genetik, atau mencegah penyimpangan genetik, dalam koloni tikus harus sangat penting.

Tikus laboratorium adalah elemen unik dan hidup dalam penelitian ilmiah yang berubah sepanjang hidupnya, dan yang terpenting, dari satu generasi ke generasi berikutnya. Bagaimanapun, perubahan urutan DNA yang diwariskan adalah dasar keanekaragaman dan evolusi spesies di alam liar. Bahkan tanpa adanya tekanan evolusi, perubahan urutan DNA terjadi. Sepintas, mutasi-mutasi ini tampak diam, fluktuasi yang tidak penting dalam susunan genetik individu. Namun, mutasi yang tampaknya tidak signifikan ini dapat menjadi sumber ireprodusibilitas eksperimental yang tidak dapat dijelaskan.

Peneliti tikus, kemudian, bertemu dengan teka-teki. Menghasilkan tikus untuk penelitian membutuhkan pemuliaan. Tetapi, dengan pemuliaan muncul risiko yang melekat untuk menyebarkan keragaman genetik dan dengan demikian, untuk menyebarkan keragaman eksperimental. Dari satu eksperimen ke eksperimen berikutnya dan dari satu publikasi ke publikasi berikutnya, keragaman data tidak kondusif bagi kemajuan ilmiah.

Tujuan dari makalah ini adalah untuk mendidik peneliti tikus tentang potensi penyimpangan genetik untuk mempengaruhi kemajuan penelitian, untuk menyoroti praktik terbaik untuk meminimalkan penyimpangan, dan memberikan solusi untuk penyimpangan terbalik jika muncul dalam koloni tikus. Penggunaan nomenklatur galur tikus resmi yang lengkap dan pelaporan yang cermat tentang informasi generasi pemuliaan dalam publikasi dan proposal hibah adalah beberapa praktik sederhana yang dapat dilakukan peneliti yang mempromosikan reproduktifitas dan penggunaan hewan yang bertanggung jawab.

Bagaimana penyimpangan genetik muncul dan prevalensinya di koloni tikus

Perkawinan sedarah, atau kawin saudara, adalah metode yang ampuh untuk mengurangi heterozigositas di setiap lokus genetik dalam genom tikus, memungkinkan keseragaman dalam fenotipe dan membentuk dasar untuk reproduktifitas eksperimental. Homozigositas genetik memungkinkan perbandingan variabel tunggal antara kontrol dan kelompok eksperimen, dan dengan demikian, untuk dapat mengaitkan perbedaan apa pun dalam pembacaan ke variabel itu.

Sama seperti spesies di alam liar, dua populasi strain tikus laboratorium inbrida yang dipelihara dalam isolasi satu sama lain akan berubah seiring waktu. Mutasi spontan dapat terjadi dalam bentuk polimorfisme nukleotida tunggal (SNP), delesi, inversi, duplikasi, dan kesalahan lainnya selama replikasi DNA dan meiosis. Proses mutasi spontan yang muncul, menghilang, atau menjadi tetap dalam suatu populasi secara acak disebut pergeseran genetik (Lee Silver, 1995).

Jumlah penyimpangan genetik yang terjadi di setiap koloni yang sedang berkembang biak secara aktif bervariasi, tetapi diperkirakan cukup sering. Generasi berkembang biak rata-rata adalah 3-4 bulan dengan tikus menjadi dewasa secara seksual sekitar usia 5-8 minggu. Keturunan biasanya lahir sekitar 3 minggu setelah kawin. Berdasarkan tingkat mutasi spontan yang dihitung dari mutasi warna bulu yang diukur pada lebih dari 1 juta tikus, 1 mutasi fenotipik dapat muncul setiap 1,8 generasi pemuliaan (Drake et al., 1998 Russell dan Russell, 1996).

Risiko membiakkan tikus yang membawa mutasi spontan pada garis germinal, dan dengan demikian menyebarkan mutasi ini, lebih tinggi di koloni kecil daripada di koloni besar (Gambar 1A). Untuk setiap mutasi garis germinal tertentu pada tikus, kira-kira setengah dari keturunannya akan heterozigot untuk mutasi ini (Gambar 1B). Dalam koloni pemuliaan inbrida, ada kemungkinan 25% mutasi ini akan menjadi tetap (homozigot) dalam populasi (Chamary dan Hurst, 2004 Drake et al., 1998).

Gambar 1. Risiko penyebaran mutasi spontan lebih tinggi pada koloni kecil dibandingkan koloni besar. A) Kemungkinan menggunakan tikus yang membawa mutasi tertentu (biru muda) untuk berkembang biak lebih tinggi di koloni kecil daripada koloni besar. B) Dalam setiap putaran pemuliaan, ada kemungkinan 25% bahwa mutasi baru akan menjadi lebih mapan dalam populasi. Misalnya, pewarisan Mendel memprediksi bahwa generasi F1 akan terdiri dari 50% tipe liar (abu-abu) dan 50% heterozigot untuk mutasi (biru muda). Jika kebetulan 2 heterozigot digunakan sebagai breeder, maka generasi F2 akan terdiri dari 25% wildtype, 50% heterozigot, dan 25% homozigot (biru tua). Ini dapat berlanjut sampai seluruh koloni tetap homozigot untuk mutasi (F3, F4). Namun, genom dapat melayang di kedua arah tergantung pada genotipe tikus yang digunakan untuk berkembang biak – probabilitas bahwa mutasi menjadi tetap sama dengan probabilitas akan hilang seluruhnya dari koloni.

Indikasi bahwa pergeseran genetik telah terjadi: Penunjukan substrain

Tabel 1. Kode laboratorium umum yang ditemukan dalam nomenklatur substrain tikus. Institute for Laboratory Animal Research (ILAR) memberikan dan memelihara pengidentifikasi unik untuk lembaga, laboratorium, atau penyelidik individu yang membuat dan memelihara koloni tikus.

Substrain adalah cabang dari strain inbrida yang diduga atau diketahui berbeda secara genetik dari koloni induknya (www.informatics.jax.org/mgihome/nomen/strains.shtml#substrains). Karena penyimpangan genetik dapat terjadi secara berbeda dalam dua populasi dari setiap strain inbrida yang diberikan, penunjukan substrain adalah komponen penting dari tata nama. Substrain ditentukan dengan menambahkan kode lab unik yang ditetapkan oleh Institute for Laboratory Animal Research (ILAR) (dels.nas.edu/global/ilar/Lab-Codes). Kode lab mengidentifikasi lembaga, lab, atau peneliti yang memproduksi atau memelihara galur hewan tertentu (Tabel 1). Because lab codes accumulate in the nomenclature, the strain’s genealogy is understood from the name alone. For example, strain C57BL/6NJ was maintained for many years at the National Institutes of Health (N) and is now distributed by The Jackson Laboratory (J) (Gambar 3). By extension, the substrain nomenclature gives a general indication that genetic variation between two strains exists.

Suspected genetic differences: Generation number

Figure 2. Substrain development. Substrains develop after 20 consecutive generations of inbreeding. While these labs have not surpassed 20 breeding generations individually, Lab A and Lab B are separated from each other by 20 generations. Appending laboratory codes to strain names can give a general indication of whether genetic drift has occurred in one substrain versus another.

Any strain that has been maintained separately from the parental strain for 20 consecutive inbred generations (

5-6 years) is suspected to carry genetic differences, and is therefore considered a substrain. Additionally, breeding generations are cumulative, such that if two labs obtain mice from the same common ancestor and breed for 10 generations, each lab has a different substrain from one another because the two strains are considered 20 generations apart (Gambar 2).

The very first inbred mouse strains (including C57BL/6, DBA, C3H, BALB, CBA, and others) used for biological research were established almost 100 years ago and continue to be heavily published today. Because these strains exceed 200 inbred generations and because multiple institutions worldwide breed them, a considerable amount of genetic drift has occurred over time in all of these strains. Because of genetic drift, it is possible that observations made in existing substrains differ from observations made in the parental inbred strains from which they were derived.

Known genetic differences: Substrain designation by observed phenotypic differences

Additionally, substrains are designated when a difference in phenotype is observed between two groups of inbred mice. However, unless these spontaneous mutations manifest obvious phenotypes, frequently after they become fixed homozygous in the colony, and attentive colony managers or researchers recognize something “off” about the mice, the mutations may be carried in a strain unnoticed for years. Thus, identifying drift may depend on individual labs asking questions whose answers happen to rely on such mutations, to recognize that “unexpected results” are more than just “failed experiments,” and later to identify the mutation that is responsible for the aberrant phenotype.

For example, the parental inbred strain C3H gave rise to two substrains from two Jackson Laboratory researchers, which for many years, did not seem to differ. Dr. Walter Heston bred the strain in the 1930’s (now C3H/HeJ). In 1952, Heston transferred some of his mice to another Jackson Laboratory researcher, Dr. Henry Outzen (now C3H/HeOuJ). In the late 1960s, Heston’s strain was found to be resistant to lipopolysaccharide (LPS), whereas Outzen’s strain remained sensitive.

Later, the mutation was mapped to Tlr4, a gene involved in pathogen recognition and innate immune system activation (Poltorak et al., 1998a Watson et al., 1978). By the time the C to A substitution at nucleotide 2342 was identified in Tlr4, it had already become fixed in the Heston substrain, likely between 1958 and 1965 (Poltorak et al., 1998b). Had Heston’s C3H substrain never been treated with LPS, it is possible that the Tlr4 mutation would not have been identified and conclusions involving basic immunology in these strains may have become highly controversial.

Known genomic sequences are substrain-specific

Aside from chance discoveries, the only way to definitively identify whether genetic drift has occurred is to sequence the strain and compare to reference genomes. A C57BL/6J female was the first mouse to be completely sequenced by the Mouse Genome Sequencing Consortium (Chinwalla et al., 2002), www.ensembl.org/Mus_musculus). To date, 15 other major inbred mouse strains have been fully sequenced, all of which are “J” substrains, the official ILAR laboratory code for The Jackson Laboratory (Adams et al., 2015), www.ensembl.org/Mus_musculus/Info/Strains) (Meja 2).

An additional 20+ inbred strains have been sequenced using short-read approaches to identify SNPs, indels, and structural variations relative to the C57BL/6J mouse reference genome (Frazer et al., 2007 and www.sanger. ac.uk/science/data/mouse-genomes-project). Furthermore, known SNP data for specific substrains can be found and compared in the Mouse Phenome Database (MPD), a collaborative standardized collection of genotypic and phenotypic data on the most commonly published mouse strains (phenome.jax.org).

Table 2. Common laboratory codes found in mouse substrain nomenclature. The Institute for Laboratory Animal Research (ILAR) assigns and maintains unique identifiers for institutes, laboratories, or individual investigators who create and maintain mouse colonies.

Genetic background impacts research conclusions

As described earlier with the C3H example, substrains may acquire spontaneous mutations that have the potential to influence research conclusions. If these experiments are not properly controlled for, such as through use of appropriate substrain, disastrous consequences on experimental reproducibility may ensue. Whether these spontaneous mutations arise in a repository, from a vendor, or in individual laboratories, how can researchers know which is the “best” substrain to use for their experiments?

Unfortunately, there isn’t an easy answer. The best way to determine whether genetic background matters is to perform controlled, side-by-side experiments and compare. Since it is impossible to test every substrain that exists for a particular experimental readout, the next best way to understand the potential impact of genetic background on research conclusions is to rely on what other researchers have observed, in the form of peer-reviewed, published literature and to continue experiments that build on such knowledge using identical substrains.

Kesimpulan

Genetic drift is an inevitable reality in actively breeding mouse colonies and may deeply impact research conclusions and reproducibility. While genetic drift cannot be eliminated completely, colony management strategies can be implemented both in individual laboratories and in large mouse repositories and vendors to maintain genetic stability. Reproducibility and scientific discovery rely on careful reporting of complete mouse substrain 17


One gene, many mutations: Key that controls coat color in mice evolved nine times

For deer mice living in the Nebraska Sandhills, color can be the difference between life and death.

When the dark-coated mice first colonized the region, they stood out starkly against the light-colored, sandy soil, making them easy prey for predators. Over the next 8,000 years, however, the mice evolved a system of camouflage, with lighter coats, changes in the stripe on their tails, and changes in body pigment that allowed them to blend into their habitat.

Now Harvard researchers are using their example to answer one of the fundamental questions about evolution. Is it a process marked by large leaps -- single mutations that result in dramatic changes in an organism -- or is it the result of many smaller changes that accumulate over time?

As described in a March 15 paper in the journal Sains, a team of researchers, including former Harvard postdoctoral fellow Catherine Linnen, now an assistant professor at the University of Kentucky, and led by Hopi Hoekstra, Harvard professor of organismic and evolutionary biology and molecular and cellular biology, were able to show that the changes in mouse coat color were the result not of a single mutation but of at least nine mutations within a single gene.

"The findings demonstrate how the cumulative effect of natural selection, acting on many small genetic changes, can produce rapid and dramatic change," said Linnen, the first author of the paper. "This helps us to understand, from a genetic perspective, the uncanny fit between so many organisms and their environments. By acting on many small changes, rather than a handful of large ones, natural selection can produce very finely honed adaptations."

Surprisingly, Hoekstra said, that honing occurred in a single gene.

The role of this gene, called agouti, in camouflage was first discovered by Linnen, Hoekstra, and colleagues in 2009, and it is responsible for changes in pigmentation in the coats of many animals. Every domesticated black cat, for example, has a DNA deletion in the gene.

What surprised Hoekstra and her team, however, wasn't that the gene was involved, but that each of the nine mutations were tied to a unique change in the animal's coats, that all the new mutations led to more camouflaging color, and that the mutations occurred in a relatively short, 8,000-year timeframe.

"Essentially, it seems as though these mutations -- each of which makes the mouse a little lighter and more camouflaged -- have accumulated over time," Hoekstra said.

Focusing on these mutations, researchers then examined the DNA of natural populations of the mice to determine whether the mutations are actually beneficial.

"For each of the mutations associated with color change, we also find a signal that's consistent with positive selection," Hoekstra said. "That implies that each of the specific changes to pigmentation is beneficial. This is consistent with the story we are telling, about how these mutations are fine-tuning this trait."

While the findings offer valuable insight into the way that natural selection operates, Hoekstra said they also highlight the importance of following research questions to their ultimate end.

"The question has always been whether evolution is dominated by these big leaps or smaller steps," she said. "When we first implicated the agouti gene, we could have stopped there and concluded that evolution takes these big steps as only one major gene was involved, but that would have been wrong. When we looked more closely, within this gene, we found that even within this single locus, there are, in fact, many small steps."

Going forward, Hoekstra said, her team hopes to understand the order in which the mutations happened, which would allow it to reconstruct how the mice changed over time.

"For evolutionary biologists, this is exciting because we want to learn about the past, but we only have data from the present to study it," she said. "This ability to go back in time and reconstruct an evolutionary path is very exciting, and I think this data set is uniquely suited for this type of time travel."

Taking the time to understand not only which genes are involved but which specific mutations may be driving natural selection, Hoekstra said, can give researchers a much fuller picture of not only the molecular mechanisms by which mutations alter traits, but also the evolutionary history of an organism.

"By doing this, we've discovered all kinds of new things," she said. "While we often think about changes happening in the entire genome, our results suggest that even within a very basic unit -- the gene -- we can see evidence for evolutionary fine-tuning."


The Model

We consider a large population of haploid individuals with time-dependent population size nT. The population dynamics are modeled as a time-inhomogeneous birth–death process with birth and death rates B(T, nT) dan D(T, nT):

The impact of the changes in the external environment on the population size is reflected in the explicit time-dependence of the rates on T. The dependence on nT accounts for density-dependence [misalnya, logistic: ]. We call the growth parameter. Obviously, the expected change of nT over a small time interval dT reads

Consider now two alleles, a beneficial mutant allele A and the ancestral (resident) allele A, that segregate in the population at a single locus. Recurrent mutations in both directions are ignored. In general, birth and death rates might be different for residents and mutants. These rates can depend on time and on the (absolute) frequencies of both allelic types, allowing for general frequency-dependent selection. As a consequence, also the population dynamics depend on the allelic composition and cannot be described by Equation 1 anymore. We discuss this model in the Lampiran. For the main part of the article, however, we assume that the rates are the same for mutants and residents and that all model parameters are independent of allele frequencies. This means in particular that selection is soft yaitu, changes in the allelic composition due to selection or drift do not interfere with the population dynamics. Population growth and decline of the polymorphic population are then correctly described by Equation 1.

In this setting, selection is modeled as competitive replacement between individuals, which does not change the population size, and is implemented as follows: At per capita rate ξ(T, nT) + S(T, nT), a mutant additionally reproduces and succeeds in replacing a randomly chosen individual from the population by its offspring. Residents do the same at rate ξ(T, nT). Again, the selective advantage S(T, nT) of the mutant may thus depend on the external environment (modeled by the dependence of S(T, nT) on T) and the population size (modeled by the dependence on nT). Changes in the number of mutants then occur at rates

The model corresponds to a continuous-time Moran model, but with a population size that may change in time. Putting B(T, nT) = D(T, nT) = 0, ξ(T, nT) = 1, and S(T, nT) = S = const. reproduces the standard Moran model (Moran 1958a,b Novozhilov dkk. 2006). The free parameter ξ(T, nT) has been introduced to our model to allow for easy interpolation to other models (see below) and additionally to make the analysis of density-dependent competition possible.

To further clarify the relation to other models, we calculate how the frequency of mutants xT := nT/nT changes over time. Let Δx be its change in an infinitesimal time interval dT. The expectation and the variance of Δx are calculated to be (4a) (4b) with the time-dependent variance effective population size (5) In the last step we approximated nT + 1 ≈ nT dan nT − 1 ≈ nT (see section S3 of File S1 for the derivation of Equations 4a and 4b).

We see that the strength of drift, measured as , is proportional to the total rate of events in the model. The choice coincides with the strength of drift in the standard Moran model, while is consistent with the scaling in the Wright–Fisher model. In contrast to many diffusion or coalescent approaches, we do not rescale time with the effective population size (which would be impractical since itself depends on T). Generation time in the continuous-time Moran model is defined as the inverse of the total death rate of an individual, , and may again depend on time in our model.


Referensi

Cabot EL, Davis AW, Johnson NA, Wu CI (1994). Genetics of reproductive isolation in the Drosophila simulans clade: complex epistasis underlying hybrid male sterility. Genetika 137: 175–189.

Coyne JA, Orr HA (2004). Speciation. Sinauer Associates Inc.: Sunderland, MA.

Gavrilets S (2003). Models of speciation: What have we learned in 40 years? Evolusi 57: 2197–2215.

Gavrilets S (2004). Fitness Landscapes and the Origin of Species. Princeton University Press: Princeton, New Jersey.

Gillespie JH (1984). Molecular evolution over the mutational landscape. Evolusi 38: 1116–1129.

Gillespie JH (1991). The Causes of Molecular Evolution. Oxford University Press: New York.

Haldane JBS (1927). A mathematical theory of natural and artificial selection, part V: selection and mutation. Proc Camb Phil Soc 28: 838–844.

Joyce P, Rokyta DR, Beisel CJ, Orr HA (2008). A general extreme value theory model for the adaptation of DNA sequences under strong selection and weak mutation. Genetika 180: 1627–1643.

Kondrashov AS (2003). Accumulation of Dobzhansky–Muller incompatibilities within a spatially structured population. Evolusi 57: 151–153.

Muller HJ (1942). Isolation mechanisms, evolution and temperature. Biol Symp 6: 71–125.

Navarro A, Barton NH (2003). Accumulating postzygotic isolation genes in parapatry: a new twist on chromosomal speciation. Evolusi 57: 447–459.

Nei M (1976). Mathematical models of speciation and genetic distance. In: Karlin S, Nevo E (eds). Population genetics and ecology. Academic Press Inc.: New York.

Orr HA (1995). The population genetics of speciation: the evolution of hybrid incompatibilities. Genetika 139: 1805–1813.

Orr HA (2003). The distribution of fitness effects among beneficial mutations. Genetika 163: 1519–1526.

Orr HA (2005). The probability of parallel evolution. Evolusi 59: 216–220.

Orr HA, Masly JP, Phadnis N (2007). Speciation in Drosophila: from phenotypes to molecules. J Hered 98: 103–110.

Wood TE, Burke JM, Rieseberg LH (2005). Parallel genotypic evolution: when evolution repeats itself. Genetika 123: 157–170.