Informasi

Mengapa sudut Ramachandran dari asam amino pertama dan terakhir tidak diperlukan untuk menentukan struktur 3D penuh dari rantai protein?

Mengapa sudut Ramachandran dari asam amino pertama dan terakhir tidak diperlukan untuk menentukan struktur 3D penuh dari rantai protein?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Saya telah menemukan slide ppt online dari algoritma bioinformatika di mana dikatakan bahwa sudut Ramachandran asam amino pertama dan terakhir tidak perlu untuk memberi tahu semua koordinat internalnya. Apakah benar-benar tidak perlu untuk simulasi apa pun saat memprediksi struktur 3D protein? Misalnya, jika kita memiliki rantai protein urutan asam amino N, akan ada sudut dihedral 2N. Yang perlu kita tentukan hanya 2N-2 (terlepas dari sudut dihedral asam amino pertama dan terakhir) sudut dihedral. Mengapa kedua sudut diabaikan? Mari kita asumsikan semua sudut ikatan dan panjang ikatan disediakan untuk seluruh rantai.

Saya telah melihat pernyataan ini di ppt berikut, slide nomor -9, berjudul representasi koordinat internal, di bawah poin 3.

https://www.cs.umb.edu/~nurith/cs612/Manipulation.pdf


Pikirkan tentang kasus rantai N=3 titik di ruang angkasa. Hanya ada sudut yang terkait dengan titik tengah, kedua titik akhir tidak memiliki sudut yang terkait dengannya karena mereka hanya memiliki satu segmen insiden daripada dua.


Gen NKCC dan NCC

E. Topologi yang Diprediksi tetapi Tidak Ditunjukkan dari Protein SLC12A1, 2 dan 3

Sebuah protein topologi diprediksi dalam silikon adalah setengah jalan dari urutan peptida ke struktur tiga dimensi nyata dari protein (von Heijne, 2006). Oleh karena itu, algoritma komputer yang dikembangkan untuk memprediksi topologi atau struktur protein berdasarkan sifat fisikokimia urutan asam amino serta dengan perbandingan dengan struktur protein yang diketahui (misalnya pemodelan threading dan homologi) adalah alat yang sangat berharga untuk menyimpulkan topologi dan/atau hubungan fungsi-struktur.

Sebagian besar protein SLC12A tampaknya memiliki struktur prediksi serupa dengan beberapa domain transmembran dan N- atau C-termini intraseluler yang panjang. Asumsi ini didasarkan pada perkiraan profil hidrofilisitas/hidrofobisitas dari rangkaian protein SLC12A yang dideduksi menurut algoritma Kyte-Doolittle (Kyte dan Doolittle, 1982). Fitur kunci dari algoritma ini adalah apa yang disebut "ukuran jendela", yaitu jumlah asam amino yang diperiksa pada suatu waktu untuk menentukan titik karakter hidrofobik (Kyte dan Doolittle, 1982). Oleh karena itu, sangat penting untuk memilih ukuran jendela yang sesuai dengan ukuran yang diharapkan dari motif struktural yang sedang diselidiki (yaitu ukuran jendela 19-21 (kira-kira seukuran membran yang membentang -helix) akan membuat hidrofobik, rentang membran domain menonjol pada skala Kyte-Doolittle (biasanya >1.6)). Namun, ukuran jendela mulai dari 11 hingga 15 asam amino digunakan untuk menghasilkan plot hidropati yang memprediksi 12 domain transmembran (TM) pada anggota mamalia dari keluarga SLC12A (Caron et al., 2000 Delpire et al., 1994 Gamba et al., 1994 Gillen dkk., 1996 Hiki dkk., 1999 Moore-Hoon dan Turner, 1998 Payne dan Forbush, 1994 Payne dkk., 1996 Yerby dkk., 1997). Meskipun model topologi alternatif untuk anggota keluarga SLC12A telah diusulkan (Park dan Saier, 1996) dan beberapa keluarga protein transpor termasuk anggota yang mungkin memiliki lebih atau kurang dari 12 domain TM (Espanol dan Saier, 1995 Paulsen dan Skurray, 1993), diterima bahwa keluarga SLC12A adalah protein dari 12 domain TM.

Sekarang jelas bahwa faktor terpenting dalam menentukan penyisipan membran adalah hidrofobisitas dari 19-21 urutan asam amino (Zhao dan London, 2006). Konsep ini lebih baik direpresentasikan dengan menggunakan energi bebas transfer yang ditentukan secara eksperimental (ΔG) untuk setiap asam amino (yaitu skala termodinamika hidrofobisitas) awalnya diusulkan oleh Wimley dan White (Wimley dan White, 1996). Oleh karena itu, plot hidrofobisitas Wimley-White (juga dikenal sebagai oktanol plot) mengidentifikasi posisi transmembran -heliks dalam urutan protein dengan ambiguitas yang lebih sedikit daripada plot Kyte-Doolittle. Seperti yang ditunjukkan pada Gambar. 11.3 , oktanol plot yang diperoleh untuk SLC12A1 (NKCC2), SLC12A2 (NKCC1) dan SLC12A3 (NCC) berbeda dengan yang awalnya diusulkan untuk produk gen ini menggunakan algoritma Kyte-Doolittle dengan ukuran jendela 11–15 ( Delpire et al., 1994 Gamba dkk., 1994 Payne dan Forbush, 1994 Yerby dkk., 1997). Namun, oktanol plot berkorelasi sangat baik dengan plot Kyte-Doolittle jika yang terakhir dibangun menggunakan ukuran jendela 19-21 asam amino (Gbr. 11.3).

Gambar 11.3. Plot Kyte-Doolittle dan White-Wimley dari sekuens protein NKCC2 dan NKCC1. A. Topologi protein NKCC yang diprediksi. Domain transmembran diduga (TM) ditunjukkan sebagai kotak abu-abu di seluruh lapisan ganda lipid. Posisi asam amino NKCC2 yang diprediksi terlokalisasi pada domain TM diberi nomor di bawah setiap domain TM potensial. Garis abu-abu kontinu mewakili rantai asam amino dari protein NKCC2. Titik-titik berwarna yang terletak di bagian terminal-N sitoplasma dan terminal-C dari NKCC2 mewakili lokasi residu yang diprediksi akan terfosforilasi (biru: Ser, hijau: Thr dan hitam: Tyr) dan situs N-glikosilasi potensial (titik merah). Situs potensial untuk sulfinasi tirosin di N-terminus NKCC2 ditunjukkan dengan panah. Situs fosforilasi dan sulfinasi pada protein NKCC2 diprediksi menggunakan NetPhos ( www.cbs.dtu.dk/services/NetPhos ) dan Sulfinator ( www.expasy.ch/tools/sulfinator ), masing-masing. B. Plot hidropati hNKCC2A (ABU69043) (atas), rNKCC2A (ABU63482) (tengah) dan hNKCC1a (AAC50561) (bawah). Analisis ini dilakukan dengan menggunakan ukuran jendela 19 residu. Ukuran jendela 19 atau 21 membuat domain hidrofobik, rentang membran menonjol dengan jelas (biasanya, nilai &gt 1,6 pada skala Kyte dan Doolittle). Dalam kondisi ini, protein hNKCC2 diperkirakan memiliki 10 wilayah TM: 174–198, 208–228, 259–279, 298–318, 323–349, 380–402, 413–441, 489–512, 551–579 dan 604–627. Setiap TM memiliki panjang 20 residu dan sangat identik antar spesies. Semua TM yang diprediksi dalam NKCC2 memiliki preferensi energik untuk berada di lingkungan lipid yang ditandai dengan total energi bebas (ΔG) di atas nol pada plot hidropati antarmuka White-Wimley. Muatan rata-rata asam amino dihitung dengan memberikan residu D (Asp) dan E (Glu) muatan −1, K (Lys) dan R (Arg) muatan +1, dan residu H (His) biaya +0,5. Data yang diwakili diperoleh dengan menggunakan JEMBOSS untuk Linux (emboss.sourceforge.net/Jemboss), tmap, TMPredProtScale (di server biologi molekuler ExPASy) dan Server Prediksi Struktur PROTEUS v2.0 ( wks16338.biology.ualberta.ca/proteus ).

Algoritma prediksi hanya berdasarkan plot hidrofobisitas (Kyte dan Doolittle, 1982) atau skala termodinamika hidrofobisitas (Wimley dan White, 1996) agak tidak lengkap dan tidak akurat. Fakta bahwa 5% dari -heliks transmembran dalam struktur yang diketahui sangat pendek (<15 residu) dan hanya menjangkau sebagian membran, bersama dengan kurangnya data termodinamika kritis, telah membuat algoritme prediksi transmembran agak tidak memuaskan. Baru-baru ini kontribusi energi bebas dari asam amino individu dalam posisi yang berbeda di sepanjang membran dilaporkan (Hessa et al., 2007). Oleh karena itu, keakuratan algoritma yang memprediksi heliks TM baru-baru ini ditingkatkan dengan pengembangan alat baru seperti: MemBrain (Shen dan Chou, 2008), TopPred G (Hessa dkk., 2007), SCAMPI ( Bernsel et al., 2008 ), ZPRED (Granseth et al., 2006) dan PRO/PRODIV-TMHMM (Viklund dan Elofsson, 2004). Sebagian besar algoritma ini adalah bagian dari TOPCONS server prediksi topologi protein (topcons.cbr.su.se). Dengan menggunakan MemBrain atau SCAMPI, protein SLC12A1, SLC12A2 dan SLC12A3 manusia (yaitu NKCC2, NKCC1 dan NCC) dapat diprediksi bahwa protein ini mungkin memiliki 13 domain TM, sedangkan PRODIV, PRO atau oktupus memprediksi 12 domain TM (Gbr. 11.4). Harus disebutkan bahwa model yang memiliki 13 domain TM menempatkan N- dan C-termini di kompartemen yang berbeda (masing-masing di dalam dan di luar), yang tidak didukung oleh bukti eksperimental saat ini.

Gambar 11.4. Prediksi konsensus topologi protein membran. Informasi topologi protein hNKCC2A, hNKCC1a dan hNCCa (GenBank ABU69043, AAC50561 dan AAC50355, masing-masing) dihasilkan dengan menggunakan lima algoritma yang berbeda: SCAMPI, oktupus, ZPRED, PRO/PRODIV-TMHMM ( topcons.cbr.su.se/ ) dan MemBrain, algoritma yang digunakan untuk memprediksi ujung domain TM yang lebih pendek dari 15 residu. A. Prediksi topologi protein NKCC dan NCC sesuai dengan algoritma yang digunakan (MemBrain (merah), SCAMPI (biru), PRO/PRODIV dan TOPCONS (hijau)). Domain TM yang diprediksi ditunjukkan sebagai kotak abu-abu di seluruh lapisan ganda lipid. Lokasi asam amino NKCC/NCC yang diprediksi berada di setiap TM diberi nomor di bawah setiap domain transmembran dan bervariasi sesuai dengan algoritma yang digunakan. Garis abu-abu kontinu mewakili rantai asam amino dari protein NKCC/NCC sedangkan garis putus-putus mewakili topologi potensial sesuai dengan algoritma yang digunakan. Bagian N-terminal dan C-terminal sitoplasma dari NKCCs/NCC ditunjukkan. B. Energi bebas total yang diprediksi (ΔG) nilai masing-masing residu dalam urutan protein hNKCC2A (atas), hNKCC1a (tengah) dan hNCCa (bawah).


Latar belakang

Taksonomi protein [1-5] mengungkapkan bahwa struktur protein kristalografi memiliki keragaman konformasi yang sangat kecil. Mungkin sebagian besar konformasi yang berbeda telah ditemukan [6, 7]. Konvergensi yang jelas dalam struktur protein ini memberikan alasan untuk pengembangan model komparatif atau teknik threading [8-12]. Pendekatan ini mencoba untuk memprediksi struktur tersier dari protein terlipat menggunakan perpustakaan struktur protein yang dikenal sebagai templat. Menurut tes Penilaian Kritis untuk Prediksi Struktural (CASP) di seluruh komunitas [13], saat ini metode semacam ini memiliki kekuatan prediksi terbaik untuk menentukan konformasi terlipat.

Di daerah loop, pendekatan pemodelan komparatif masih terus kurang presisi [14, 15]. Tidak jarang terdapat celah pada daerah loop yang perlu diisi dengan berbagai teknik penyisipan. Keberhasilan dalam pemodelan loop juga sering terbatas pada struktur super-sekunder di mana: α-heliks dan β-untai terhubung satu sama lain dengan putaran dan belokan yang relatif pendek [16, 17]. Dalam kasus loop yang sangat pendek, dengan tidak lebih dari tiga residu, bentuknya dapat ditentukan dengan kombinasi pertimbangan geometris dan batasan stereokimia [18]. Dalam kasus loop yang lebih panjang, baik metode template based dan template independent sedang dikembangkan untuk memprediksi bentuknya [19-21]. Asumsi yang mendasari adalah bahwa jumlah konformasi loop yang dapat diakomodasi oleh urutan yang diberikan harus dibatasi. Fragmen yang berbeda yang sudah tersedia di database Protein Data Bank (PDB) [22] kemudian dapat digunakan seperti: Batu bata lego, sebagai blok bangunan struktural dalam membangun loop. Urutan asam amino yang diberikan hanya dibagi menjadi fragmen pendek, dan bentuk loop berikutnya disimpulkan menggunakan fragmen homologis terkait yang memiliki struktur yang diketahui. Seluruh protein kemudian dirakit dengan menggabungkan fragmen-fragmen ini bersama-sama. Untuk proses penggabungan fragmen, fungsi energi semua atom dan perbandingan dengan struktur template yang homolog erat di Bank Data Protein dapat digunakan [8, 9, 12, 14].

Dalam artikel ini kami mengusulkan metode baru yang sistematis, murni kuantitatif untuk mengidentifikasi dan mengklasifikasikan blok bangunan modular dari loop PDB, kami mengidentifikasi loop mengikuti konvensi DSSP [23]. Pendekatan kami didasarkan pada fungsi energi prinsip pertama [24-29]. Itu dibangun di atas konsep keuniversalan [30–36] untuk memodelkan fragmen loop protein yang bahkan panjang dalam hal parameterisasi yang berbeda dari yang unik berbelit yang memecahkan varian [37, 38] dari persamaan nonlinier Schrödinger (DNLS) diskrit [39, 40]. Titik awal kami adalah pengamatan yang dibuat di [41] bahwa lebih dari 92% loop dalam struktur PDB yang telah diukur dengan resolusi lebih baik dari 2,0 , dapat terdiri dari 200 parameterisasi berbeda dari profil ketegaran, dengan lebih baik dari 0,65 ngström RMSD (root-mean-square-distance) akurasi. Di sini kami menyempurnakan pengamatan ini, dengan tujuan untuk mengembangkannya menjadi skema klasifikasi fragmen loop sistematis. Untuk ini, kami hanya mempertimbangkan struktur PDB presisi sangat tinggi yang telah diukur dengan resolusi lebih baik dari 1,0 . Ini memastikan bahwa faktor-B di daerah loop kecil, dan khususnya bahwa struktur tidak mengalami prosedur penyempurnaan yang ekstensif. Memang, dua fragmen loop harus dianggap berbeda hanya, ketika jarak interatomik rata-rata lebih besar dari rata-rata jarak fluktuasi faktor-B Debye-Waller. Jika faktor-B besar, setiap upaya sistematis untuk mengidentifikasi dan/atau membedakan dua fragmen menjadi ambigu. Dalam kasus struktur resolusi intra-tinggi ini, kami dapat menargetkan presisi RMSD 0,2 . Kami memperkirakan ini sebagai tingkat fluktuasi titik nol yaitu jarak sekitar 0,2 sesuai dengan hakiki ketidakpastian dalam penentuan posisi atom berat di sepanjang tulang punggung protein. Jadi setiap perbedaan kurang dari 0,2 antara koordinat atom rata-rata pada dasarnya adalah tidak terdeteksi. Dengan konstruksi eksplisit, kami menunjukkan bagaimana dalam kasus subset struktur protein PDB resolusi sangat tinggi ini, loop dapat dimodelkan secara sistematis menggunakan kombinasi ketegaran unik dari persamaan DNLS umum. Dengan demikian, pendekatan kami memberikan dasar untuk pendekatan umum untuk mengklasifikasikan loop dalam struktur PDB kristalografi presisi tinggi, dalam hal konsep matematika prinsip pertama berbasis fungsi energi.


Hasil

Global lebih baik daripada model lokal untuk kopling residu

Informasi timbal balik tidak cukup berkorelasi dengan kedekatan residu.

Kami pertama-tama mencoba prediksi hubungan kedekatan residu-residu menggunakan ukuran informasi timbal balik lokal (MI) langsung. MI(i,j) untuk setiap pasangan residu Saya, J adalah perbedaan entropi yang membandingkan frekuensi kejadian bersama yang diamati secara eksperimental Faku j(ASaya,AJ) pasangan asam amino ASaya, AJ dalam posisi Saya, J dari keselarasan ke distribusi FSaya(ASaya)FJ(AJ) yang tidak memiliki kopling pasangan residu (detail dalam Teks S1): (1) Peta kontak dibuat dari pasangan residu yang ditetapkan tinggi MI nilai, dan dengan demikian ditafsirkan sebagai kontak yang diprediksi, berbeda secara substansial dari peta kontak yang benar yang disimpulkan dari struktur asli, konsisten dengan karya Fodor et al. [9] (Gambar S1). Inspeksi visual dari MI-diprediksi kontak sebagai garis yang menghubungkan pasangan residu yang ditumpangkan pada struktur kristal yang diamati menegaskan bahwa kontak yang diprediksi dari MI sering salah dan/atau tidak merata (Gambar 3, kiri, garis biru). Agaknya ini muncul karena sifat lokal dari MI, yang dihitung secara independen untuk setiap pasangan residu Saya,J. Masuk akal, faktor perancu utama adalah transitivitas korelasi pasangan, di mana kasus paling sederhana melibatkan triplet residu misalnya, jika residu B ko-variasi dengan A dan C, karena B secara spasial dekat dengan A dan C, maka A dan C dapat bervariasi bahkan tanpa kedekatan fisik (A–C adalah korelasi pasangan transitif). Setiap ukuran korelasi lokal, bukan hanya informasi timbal balik, dibatasi oleh efek transitivitas ini.

Ekstraksi informasi evolusioner tentang kopling residu dan kontak yang diprediksi dari beberapa urutan keselarasan bekerja jauh lebih baik menggunakan model statistik global (kanan, Informasi Langsung, DI, Persamaan 3) daripada model statistik lokal (kiri, Informasi Reksa, MI, Persamaan 1). Kontak yang diprediksi untuk DI (garis merah yang menghubungkan residu yang diprediksi akan digabungkan dari informasi urutan) diposisikan lebih baik dalam struktur yang diamati secara eksperimental (diagram pita abu-abu), daripada untuk MI (kiri, garis biru), yang ditunjukkan di sini untuk protein RAS ( atas) dan protein ELAV4 (bawah). Pasangan residu DI juga lebih merata di sepanjang rantai dan tumpang tindih lebih akurat dengan kontak dalam struktur yang diamati (bintang merah [diprediksi, lingkaran abu-abu [diamati] di pusat peta kontak, segitiga kanan atas) daripada yang menggunakan MI (biru [ diprediksi], lingkaran abu-abu [diamati] tengah, segitiga kiri bawah). Rincian peta kontak untuk semua protein yang membandingkan kontak yang diprediksi dan diamati ada di Gambar S1 dan S2, Teks S1.

Kopling residu yang efektif dari model entropi maksimum global.

Untuk menguraikan efek korelasi langsung dan tidak langsung seperti itu, kami menggunakan model statistik global untuk menghitung satu set kopling residu langsung yang paling menjelaskan semua korelasi pasangan yang diamati dalam penyelarasan urutan ganda (lihat Metode dan Teks S1) [15], [47]. Lebih tepatnya, kami mencari model umum, P(A1…AL), untuk probabilitas urutan asam amino tertentu A1…AL panjang L menjadi anggota keluarga iso-struktural yang dipertimbangkan, sehingga probabilitas tersirat Paku j(ASaya,AJ) untuk kemunculan pasangan (marginal) konsisten dengan data. Dengan kata lain, kita membutuhkan Paku j(ASaya,AJ)∼faku j(ASaya,AJ), di mana Faku j(ASaya,AJ) adalah frekuensi pasangan yang diamati dari asam amino pada posisi Saya dan J dalam urutan yang diketahui dalam keluarga dan marjinal Paku j(ASaya,AJ) dihitung dengan menjumlahkan P(A1…AL) atas semua jenis asam amino di semua posisi urutan selain Saya dan J. Karena spesifikasi sifat pasangan residu (mengabaikan suku orde yang lebih tinggi) membuat urutan asam amino kurang ditentukan, ada banyak model probabilitas yang akan konsisten dengan frekuensi pasangan yang diamati. Oleh karena itu, seseorang dapat memaksakan kondisi tambahan, kondisi entropi maksimum, yang membutuhkan distribusi probabilitas yang merata secara maksimal - sambil tetap membutuhkan konsistensi dengan data.Distribusi probabilitas yang merupakan solusi dari masalah optimasi terkendala ini berbentuk [11], [45], [49]: (2) Berikut ASaya dan AJ adalah asam amino tertentu pada posisi urutan Saya dan J, dan Z adalah konstanta normalisasi. Pengganda Lagrange eaku j(ASaya,AJ) dan HSaya(ASaya) membatasi kesepakatan model probabilitas dengan pasangan dan kejadian residu tunggal, masing-masing. Model statistik global ini analog dengan ekspresi fisika statistik untuk kemungkinan konfigurasi sistem partikel ganda, seperti dalam model Ising atau Potts. Dalam analogi ini, posisi urutan Saya sesuai dengan partikel, seperti spin, dan dapat berada di salah satu dari 21 keadaan (ASaya = 1..21) dan, Hamiltonian (ekspresi dalam kurung kurawal) terdiri dari jumlah energi kopling partikel-partikel eaku j(ASaya,AJ) dan energi kopling partikel tunggal ke medan eksternal HSaya(ASaya).

Untuk masalah urutan protein kami, eaku j(ASaya,AJ) dalam persamaan 2 adalah kopling residu penting yang digunakan dalam prediksi kendala lipat dan HSaya(ASaya) adalah istilah residu tunggal yang mencerminkan konsistensi dengan frekuensi residu tunggal yang diamati. Parameter ini dengan demikian optimal sehubungan dengan dua kondisi utama, (1) konsistensi dengan data yang diamati (frekuensi pasangan dan residu tunggal) dan (2) entropi maksimum dari probabilitas global atas himpunan semua urutan yang mungkin. Dalam praktiknya, setelah parameter ini ditentukan oleh inversi matriks (Persamaan M4, M5), seseorang dapat langsung menghitung probabilitas pasangan efektif Paku j Dir (ASaya,AJ) (Persamaan M6), dan dari ini kopling residu efektif ('informasi langsung', dalam analogi dengan istilah 'informasi timbal balik') DIaku j dengan menjumlahkan semua kemungkinan pasangan asam amino ASaya,AJ di posisi Saya,J: (3) Perbedaan penting antara ungkapan ini untuk informasi langsung DIaku j (Persamaan 3) dan persamaan untuk informasi timbal balik MIaku j (Persamaan 1) adalah untuk menggantikan probabilitas pasangan yang diperkirakan berdasarkan jumlah frekuensi lokal Faku j(ASaya,AJ), dengan probabilitas pasangan terkendala ganda Paku j Dir (ASaya,AJ), yang secara global konsisten untuk semua pasangan Saya,J.

Model statistik entropi maksimum global mengungkapkan kedekatan residu.

Kami sekarang memeriksa apakah skor kopling residu DIaku j (Persamaan 3 Persamaan 22, Teks S1) dari model entropi maksimum memberikan informasi tentang kedekatan spasial. Apakah pasangan residu dengan yang lebih tinggi DIaku j skor lebih mungkin untuk menjadi dekat satu sama lain dalam struktur 3D? Pemeriksaan peta kontak yang menampilkan pasangan residu dengan peringkat tinggi DIaku j nilai, dilapiskan ke peta kontak untuk struktur (kristal) yang diamati, mengungkapkan kecocokan yang sangat akurat. Pasangan residu dengan skor tinggi sering kali berdekatan dalam struktur yang diamati, dan pasangan ini terdistribusi dengan baik di seluruh urutan dan struktur protein, berbeda dengan pasangan dengan skor tinggi. MIaku j nilai, (Gambar 3, Gambar S2). Tingkat prediksi kontak yang benar yang luar biasa ini berlaku untuk semua kasus uji kami (Tabel 1, Tabel S1) di empat kelas lipatan utama.

Yang lain telah menunjukkan bahwa dengan memberikan kontak yang benar (positif benar) yang cukup dikombinasikan dengan kurangnya kontak yang salah (positif palsu), kontak yang diprediksi dapat diimplementasikan sebagai pembatasan jarak residu-residu untuk melipat protein dari empat kategori lipatan utama hingga 200 residu di bawah 3 CαKesalahan -RMSD dari struktur kristal [50] dan, dalam pekerjaan selanjutnya, hingga 365 residu dengan akurasi di bawah 3 Cα-RMSD kesalahan [50], [51]. Oleh karena itu kami didorong untuk menggunakan hubungan kedekatan yang diprediksi secara membabi buta sebagai batasan jarak residu-residu untuk melipat protein de novo dari rantai polipeptida yang diperpanjang.

Struktur semua-atom protein disimpulkan dari kendala evolusi

Terlepas dari analisis elegan menggunakan himpunan bagian dari kontak nyata [50], [51], itu tidak sebuah prioritas jelas sejauh mana akurasi prediksi kontak diterjemahkan menjadi akurasi prediksi struktur 3D dan, khususnya, seberapa kuat prediksi tersebut terhadap keberadaan positif palsu. Oleh karena itu kami memutuskan untuk menilai keakuratan prediksi kontak dengan kriteria akurasi yang sangat ketat dari struktur 3D yang diprediksi.

Membuat struktur model.

Mulai dari rantai polipeptida yang diperluas dengan urutan asam amino dari protein dari famili (Tabel S1), kami menggunakan algoritma geometri jarak yang mapan, seperti yang digunakan untuk penentuan struktur dengan spektroskopi resonansi magnetik nuklir (NMR) [52] (Teks S1) . Batasan jarak dibangun menggunakan pasangan residu dengan pasangan skor DI tinggi dan batasan struktur sekunder yang diprediksi dari urutan (Teks S1, Lampiran A1, Tabel S2). Protokol menghasilkan konformasi 3D awal dan kemudian menerapkan simulasi anil [48] (langkah-langkah yang diuraikan dalam Teks S1 dan Lampiran A2). Kami beralasan bahwa jumlah kendala jarak (nC) yang dibutuhkan harus berskala monoton dengan panjang protein L, seperti yang terlihat pada rekonstruksi lipatan dari peta kontak yang diamati [50], [51]. Untuk mengeksplorasi variabilitas struktur yang diprediksi menggunakan serangkaian batasan jarak tertentu, kami menghasilkan 20 kandidat struktur untuk rentang nC nilai yang dimulai pada nC = 30 dan bertambah dalam langkah 10 ke kelipatan terdekat dari 10 ke L, misalnya, dari nC = 30 ke nC = 160 untuk protein Hras yang memiliki 160 residu inti dalam penyelarasan PFAM. Jadi, secara total kami menghasilkan pada urutan 2 * L kandidat struktur tiga dimensi untuk setiap keluarga protein sebagai kandidat prediksi, lebih tepatnya, antara 400 dan 560, tergantung pada ukuran protein (Tabel 1, Lampiran A3). Dalam praktiknya, sejumlah kecil struktur kandidat mungkin sudah cukup. Setiap kandidat adalah prediksi struktur semua-atom untuk protein referensi tertentu yang menarik yang dipilih dari famili. Struktur model memenuhi fraksi maksimal dari batasan jarak yang diprediksi dan memenuhi kondisi stereokimia yang baik dan konsistensi dengan potensi antarmolekul yang tidak terikat. Struktur prediksi teratas untuk setiap protein dipilih dengan peringkat buta dari struktur kandidat ini menggunakan kriteria objektif, terutama geometris, (Gambar 2, Gambar S2, Lampiran A3).

Inferensi struktur 3D untuk protein kecil dan lebih besar dari beragam jenis lipatan

Untuk mengevaluasi kandungan informasi korelasi pasangan residu sehubungan dengan prediksi lipatan protein, kami menerapkan metode ini pada kasus yang semakin sulit. Kami mulai dengan protein domain tunggal kecil dan beralih ke target yang lebih besar dan lebih sulit, akhirnya mencakup satu set domain protein yang dipelajari dengan baik dengan minat biologis yang luas, dari kelas lipatan yang berbeda. Kami melaporkan hasil terperinci untuk empat famili contoh, dan hasil ringkasan untuk 11 famili uji lebih lanjut, dan memberikan tampilan 3D terperinci dari 15 famili protein uji pada Gambar S3 dan koordinat 3D terperinci dan file sesi Pymol untuk inspeksi interaktif di Lampiran A3 dan A4, http ://cbio.mskcc.org/foldingproteins.

Kecil: domain pengikatan RNA (RRM).

Prediksi buta domain RRM 71-residu dari protein Elav4 manusia (Uniprot ID: Elav4_human) adalah contoh khas dari protein yang lebih kecil. Kendala jarak berasal dari korpus kaya 25K contoh protein dalam keluarga PFAM. Struktur prediksi peringkat tertinggi memiliki (sangat baik) rendah 2,9 Cα Penyimpangan -RMSD dari struktur kristal lebih dari 67 dari 71 residu, skor TM 0,57 dan GDT_TS 54,6, menunjukkan kesamaan struktural yang baik secara keseluruhan dengan struktur kristal yang diamati, [53], [54], (Gambar 2 atas, Tabel 1) . Ini memiliki topografi yang benar dari lima untai dan dua -heliks, hanya dirusak oleh pola ikatan-H yang hilang antara untai 1 dan 3, setidaknya sebagian karena pemotongan untai 1, konsekuensi dari pendeknya panjang urutan dalam keselarasan PFAM. Untai 2 dan 3 sejajar hanya dengan 1,6 CαPenyimpangan -RMSD sepanjang untaian yang diprediksi dan diposisikan cukup baik untuk ikatan hidrogen, dengan beberapa registrasi yang benar. Menariknya, 4 th -strand (dari belakang) yang terlewatkan oleh metode prediksi struktur sekunder ditempatkan di wilayah yang benar dalam 3D: ini adalah salah satu dari beberapa contoh di mana informasi kopling residu mengesampingkan prediksi lokal yang salah. Domain peringkat teratas yang diprediksi dari Elav4 kemungkinan besar terletak di dalam cekungan penyempurnaan dari struktur asli.

Ukuran sedang: Ras onkogen (domain G), domain /β dengan situs aktif GTPase.

Keluarga domain-G di PFAM, dengan protein proto-onkogen Ras Manusia (Uniprot-ID: hras_human) dipilih sebagai protein yang diinginkan, memiliki inti multiple sequence alignment (MSA) dari 161 residu. Strukturnya memiliki lipatan /β dengan 6-untai -sheet, dikelilingi oleh 5 -heliks, salah satunya (α-2) terlibat dalam transisi sakelar GTPase setelah hidrolisis GTP. Peringkat tertinggi, struktur yang diprediksi secara membabi buta adalah 3,6 Cα-RMSD dari struktur kristal, lebih dari 161 residu (Gambar 2 tengah) dan memiliki skor TM tinggi 0,7 (kisaran 0,0-1,0, dengan 1,0 menyiratkan 100% residu berada dalam jarak tertentu dari posisi yang benar [53]). Enam untai dan lima -heliks ditempatkan pada posisi spasial yang benar dan diulir dengan benar (Lampiran A3 dan A4). 6 untai , yang membuat 5 pasangan untai tidak berada dalam jarak ikatan hidrogen untuk semua ikatan tulang punggung, tetapi register yang benar dapat dengan mudah diprediksi untuk 26/30 pasangan residu, Teks S1. Keakuratan topografi keseluruhan dari struktur berperingkat tertinggi luar biasa (Tabel 1) dan, sejauh yang kami ketahui, saat ini tidak dapat dicapai untuk protein sebesar ini oleh de novo metode prediksi struktur [27].

Lebih besar: tripsin, enzim dengan struktur -barrel dua domain.

Keluarga protein (non-membran) terbesar yang diuji dalam uji buta adalah keluarga protease serin tripsin-lipat, dengan tripsin tikus dipilih sebagai protein representatif. Ukurannya, pada 223 asam amino, secara signifikan lebih besar daripada protein yang dapat diprediksi dengan metode komputasi de novo lainnya. Tripsin terdiri dari -untai dalam dua domain -barrel isomorfis struktural. Struktur prediksi peringkat tertinggi memiliki 4,3 Cα-RMSD error lebih dari 186 dari 223 residu (Gambar 2 bawah, Tabel 1, Lampiran A3 dan A4). Distribusi keseluruhan elemen struktur sekunder di ruang angkasa kira-kira benar dan metode kami memprediksi dengan tepat 5 pasangan sistein terikat disulfida, yang terletak dalam keselarasan kami, Teks S1. Topografi -barrel pertama (domain 1) baik dan masuk akal dalam kisaran penyempurnaan dari struktur yang diamati. Lima pasangan untai yang benar diidentifikasi (satu tidak ada) dan 70% residu pasangan ikatan hidrogen diprediksi dengan register yang benar, Teks S1. Namun, domain 2 memiliki sejumlah progresi loop yang salah (lihat sesi Pymol di Lampiran A3), dan mungkin (dengan inspeksi) tidak berada dalam kisaran penyempurnaan struktur yang benar. Memprediksi struktur protein dalam keluarga tripsin sangat menantang, karena strukturnya diketahui mengalami perubahan konformasi setelah pembelahan peptida aktivasi [55] dan, ketika peptida terminal-N dan terminal-C menyilang dari satu domain ke domain lain. lainnya.

Menyimpulkan konfigurasi residu di situs aktif tripsin.

Terlepas dari kualitas prediksi struktur yang terbatas di domain 2 tripsin, menarik bahwa struktur peringkat teratas menempatkan Cα atom dari residu triad situs aktif yang sangat terkonservasi Ser-His-Asp dengan benar relatif kedekatan spasial, yaitu, dalam 0,64 3 Cα-RMSD (dan 1,3 semua atom-RMSD) kesalahan, setelah superimposisi dari tiga residu situs katalitik dengan tiga residu yang sama dari struktur eksperimental (Gambar S4). Ini mungkin mencerminkan kendala evolusi yang kuat di dekat situs fungsional dan mungkin menyiratkan bahwa konfigurasi tempat tinggal di sekitar situs aktif dapat diprediksi lebih akurat daripada aspek detail lainnya dari struktur 3D. Kemampuan untuk memprediksi konstelasi situs aktif pada tingkat akurasi ini akan sangat menarik untuk desain obat pada templat struktural yang diprediksi.

Eksplorasi: rhodopsin, protein transmembran -heliks.

Rhodopsin adalah protein membran pertama yang diprediksi menggunakan metode ini. Kelas protein membran yang penting ini memiliki 7 heliks dan famili PFAM dari mana pembatasan jarak disimpulkan mengandung banyak subfamili reseptor berpasangan G-protein kelas A [56]. Untuk struktur rhodopsin yang diprediksi peringkat tertinggi (4,84 Cα-RMSD error dari struktur kristal representatif lebih dari 171 residu), topografi keseluruhan heliks akurat (skor TM 0,5), dengan sebagian besar penyimpangan posisi muncul untuk heliks 1 dan 7, yang tidak sejajar relatif terhadap arah tegak lurus terhadap permukaan membran, (Tabel 1, Gambar S3). Struktur prediksi dengan skor TM tertinggi (0,55), dan 4,29 Cα-RMSD lebih dari 180 residu, juga menyelaraskan heliks terminal tetapi merekapitulasi jaringan jarak dekat (<4,5 ) antara rantai samping Arg135 (helix III) dan Glu247, Thr251 (helix VI) serta yang terkenal lainnya kedekatan antar-heliks seperti Asn78 (helix II) hingga Trp161 (helix IV) dan Ser127 (helix III) [57]. Mengingat bahwa versi metode saat ini tidak memiliki informasi tentang orientasi membran untuk protein membran, ini merupakan titik awal yang sangat baik untuk penerapan metode di masa depan untuk prediksi struktur 3D untuk protein membran.

Peringkat struktur yang disimpulkan.

Untuk sampai pada prediksi buta yang berguna dan objektif, kumpulan struktur yang disimpulkan untuk setiap keluarga diberi peringkat berdasarkan kriteria objektif berdasarkan prinsip-prinsip fisik dan pengetahuan apriori tentang prinsip-prinsip umum struktur protein. Dalam implementasi saat ini, kami menggunakan konsistensi dengan pengamatan empiris yang mapan dari putaran rantai tangan kanan di -heliks dan putaran antar-untai tangan kanan untuk pasangan -untai [58] (Teks S1). Dihedral virtual dari -heliks dan prediksi -twist dalam struktur kandidat digabungkan bersama sebagai skor, ditimbang dengan jumlah relatif residu dalam -untai dan -heliks untuk setiap protein, lihat skor untuk semua struktur di Lampiran A5. Kami menemukan kriteria geometris ini efektif dalam menghilangkan artefak yang muncul dari fakta bahwa batasan jarak tidak memiliki informasi kiral, sehingga struktur awal sebelum penyempurnaan menggunakan dinamika molekul, sementara konsisten dengan batasan jarak, mungkin memiliki kiralitas yang salah, baik secara global atau lokal. Kami juga menghilangkan struktur kandidat dengan simpul (seperti prediksi tripsin peringkat teratas) menurut metode Mirny et al. [59].

Struktur model semua atom dengan peringkat tertinggi diambil sebagai struktur yang diprediksi secara membabi buta (Tabel 1, Tabel S1). Struktur berperingkat lebih rendah diharapkan memiliki akurasi yang lebih rendah dari struktur 3D, tetapi ini harus diuji setelah prediksi buta dengan membandingkan dengan struktur yang diketahui. Sebagai pengujian dari seluruh prosedur dan kriteria peringkat, kami menilai prediksi buta kami dengan membandingkan skor peringkat dari struktur yang diprediksi dengan struktur yang diamati secara eksperimental, dari kristalografi sinar-X, dari protein referensi yang dipilih, (Teks S1, Gambar 4A , Gambar S5 dan Lampiran A5). Untuk protein seperti RAS dan Tripsin (Gambar 4B), kriteria objektif berhasil mengurutkan struktur yang diprediksi dengan C terendahαKesalahan -RMSD ke struktur kristal sebagai skor tertinggi. Saat kita menghilangkan protein yang terikat [59], kita akan kehilangan protein yang benar-benar terikat [60] yang, bagaimanapun, jarang diamati.

A. Kinerja keseluruhan dari prediksi struktur de novo yang dilaporkan di sini berdasarkan kontak yang disimpulkan dari informasi evolusioner (EIC), berkisar dari baik hingga sangat baik untuk 15 protein uji (di sebelah kiri: tipe struktur 3D [α = -helix-containing, = -strand-containing, 7tm-α = mengandung tujuh heliks trans-membran] dalam tanda kurung: ukuran domain protein/jumlah residu yang digunakan untuk Cα-Penghitungan kesalahan RMSD pada bilah: ID basis data Uniprot). Batang yang lebih besar berarti kinerja yang lebih baik, yaitu, C . yang lebih rendahα- Kesalahan koordinat RMSD. Kiri: kinerja untuk struktur peringkat teratas untuk setiap protein target dari 400–560 (tergantung pada ukuran protein, 20 struktur per nC tempat sampah, nC dalam langkah 10, rincian dalam Lampiran A3 dan A6) struktur kandidat dalam mode prediksi buta kanan: kinerja struktur terbaik, di belakang, dari 20 struktur kandidat yang dihasilkan, untuk 20 set kendala mulai dari 10∶200, dalam langkah 10. Hal ini mencerminkan apa yang dapat dicapai dengan kriteria peringkat yang lebih baik atau validasi pasca-prediksi independen dari kualitas struktur (Tabel 1 rincian skor peringkat buta di Web Appendix A5). Metode lain yang diterima dengan baik untuk penilaian kesalahan, seperti skor GDT-TS dan TM berguna untuk tujuan perbandingan (Tabel S1, Web Appendix A6). B. Skor peringkat setiap struktur kandidat (mengukur kualitas struktur yang diharapkan) versus Cα-RMSD kesalahan. Idealnya, skor peringkat yang lebih tinggi sesuai dengan kesalahan yang lebih rendah. Distribusi struktur kandidat (titik hitam) untuk Elav4, Ras dan Trypsin menunjukkan, dalam retrospeksi, bahwa kriteria peringkat yang digunakan di sini relatif berguna dan membantu dalam mengantisipasi struktur mana yang mungkin terbaik (plot untuk semua protein yang diuji pada Gambar S5 ). Dalam mode prediksi buta, daftar struktur 3D kandidat yang diprediksi harus diberi peringkat berdasarkan kriteria objektif dan otomatis, dengan satu struktur peringkat teratas atau satu set struktur peringkat teratas dinominasikan sebagai prediksi pilihan.

Penilaian akurasi prediksi: struktur 3D

Ringkasan akurasi 3D buta untuk 15 protein uji struktur yang diketahui.

Kami terkejut dengan luas dan nilai tinggi informasi dalam batasan jarak turunan tentang lipatan 3D contoh dari semua kelas lipatan utama yang berisi berbagai proporsi -heliks dan -lembar. Kandungan informasi yang tinggi dalam kopling residu ini, yang diturunkan dari model statistik entropi maksimum, sejauh ini meluas ke protein sebesar domain-G, seperti H-ras, dengan 161 residu, dan protease serin, seperti tripsin, dengan 223 residu, serta keluarga rhodopsin, protein trans-membran, dengan 258 residu selaras. Ukuran ini sejauh ini di luar jangkauan untuk state-of-the-art de novo metode prediksi bahkan ketika fragmen tiga dimensi digunakan [22], [61].Secara umum kami menemukan bahwa prediksi lipatan /β, di antara 15 protein yang diselidiki secara rinci, menghasilkan topografi keseluruhan yang paling akurat (Tabel 1, Tabel S1, Gambar S5). Kami mengantisipasi bahwa hasil ini kemungkinan akan meluas ke banyak keluarga protein dan bahwa struktur yang akurat dapat dihasilkan untuk banyak dari ini menggunakan batasan jarak yang berasal dari informasi evolusi dan struktur sekunder yang diprediksi saja, diikuti oleh penyempurnaan energi. Untuk 12 dari kumpulan 15 famili protein (Tabel 1), struktur peringkat teratas memiliki kesalahan koordinat dari 2,7 –4,8 untuk setidaknya 75% residu, menggunakan praktik yang diterima untuk menghilangkan fraksi sedang dari ketidaksesuaian yang buruk residu untuk menghindari pengaruh berlebihan dari outlier yang dihasilkan dari kuadrat dalam definisi Cα-RMSD (menggunakan paket MaxCluster [62]). Untuk sebagian besar tujuan praktis, orang mungkin menganggap ini berada di dalam cekungan tarik-menarik di mana seseorang kemungkinan besar dapat mengidentifikasi lipatan tertentu yang benar, yang kami perkirakan secara kasar memiliki radius sekitar 5 Cα-RMSD. Pengecualian parsial adalah rhodopsin (OPD) yang relatif rendah 4,8 Cα-RMSD error terbatas pada 171 dari 258 residu (66%) dan PCBP1 pada 4,7 untuk 46/63 residu (73%). Untuk protein-protein ini, kesepakatannya terbatas pada fraksi protein yang lebih kecil, meskipun masih cukup besar, dan kecil kemungkinannya bahwa lipatan keseluruhan yang benar akan dikenali. Pengecualian utama adalah SPTB2 pada 4,0 untuk 47/108 residu (44%), yang kami anggap tidak memuaskan. Skor TM yang biasa dalam CASP mencerminkan perbedaan ini dan masuk akal bahwa prediksi peringkat teratas untuk 11 dari 15 protein uji akan dianggap sangat baik untuk struktur model de novo dengan ukuran ini (Tabel S1) [27], [61] , [63].

Pemeriksaan rinci dari kontak dekat struktur prediksi peringkat teratas mengungkapkan pelanggaran yang menarik, (Gambar 5). Untuk kendala DI positif palsu Ras dan Tripsin (antara Ser145 dan Asp57 untuk Ras, dan Ser127 dan Ala37 untuk tripsin) tidak terpenuhi dalam struktur prediksi teratas sehingga meningkatkan akurasi. Sebaliknya, kontak dibuat di N-terminal -strand dan C-terminal helix di RAS dan C-terminal -strand di ELAV4, meskipun faktanya tidak ada kendala yang digunakan di sekitar kontak ini (lingkaran abu-abu, Gambar). 5).

Struktur peringkat teratas secara membabi buta dievaluasi dalam hal kualitas prediksi kontak (NC = 40 untuk Elav4, NC = 130 untuk Ras, NC = 160 untuk Tripsin). Batasan yang diprediksi (bintang merah) benar ketika mereka bertepatan dengan kontak yang berasal dari struktur yang diamati (lingkaran abu-abu) dan sebaliknya salah (positif palsu, merah di atas putih). Kontak yang berasal dari struktur 3D yang diprediksi (biru tua) secara umum sesuai dengan kontak dari struktur yang diamati (abu-abu). Sifat kooperatif dari proses prediksi pelipatan memungkinkan situasi yang menguntungkan, di mana daerah kontak yang tidak tersentuh oleh kendala yang diprediksi (merah) masih diprediksi dengan benar (lingkaran hitam untuk RAS, biru tua pada abu-abu, tidak ada merah) dan kendala positif palsu tidak kuat cukup untuk mengarah ke kontak yang salah (lingkaran hitam kiri Elav4, bintang merah, tidak ada biru tua atau abu-abu). Namun, dalam situasi yang tidak menguntungkan, kendala yang hilang dapat menyiratkan bahwa wilayah kontak terlewatkan sepenuhnya atau sebagian (lingkaran hitam, tripsin) atau sebagian besar tidak terjawab (lingkaran hitam kanan untuk Elav4, abu-abu berdekatan dan lebih lebar dari biru tua).

Akurasi prediksi 3D terbaik di 400 kandidat struktur teratas.

Untuk menilai potensi metode dan dengan pandangan ke arah perbaikan masa depan kriteria peringkat untuk set struktur kandidat, seseorang dapat mengajukan pertanyaan, dari belakang, yang mana, katakanlah, 400 struktur kandidat memiliki akurasi tertinggi. Pertanyaan ini analog dengan laporan prediksi struktur protein yang membahas hubungan (plot pencar), misalnya, energi model terhadap kesalahan model. Di sini, struktur kandidat terbaik berdasarkan skor TM, dipilih dari antara 400 kandidat struktur untuk setiap protein (nC = 10–200), memiliki skor TM dari 0,5 hingga 0,76 dan biasanya kesalahan yang lebih rendah daripada struktur peringkat teratas yang membabi buta, mulai dari 2,8 hingga 4,6 Cα-RMSD untuk semua 15 keluarga, mencakup setidaknya 80% residu, dengan pengecualian OPSD di mana kami mencapai 4,3 untuk 180/258 residu (66%), (Gambar 4B, Tabel1, Tabel S1). Fakta bahwa dalam kebanyakan kasus, struktur 3D yang lebih baik ditemukan di 400 kandidat teratas adalah indikasi positif yang tidak sepele, karena ruang pencarian konformasi lipatan protein begitu besar, sehingga metode acak, atau metode yang cukup efektif, akan memiliki hasil yang sangat rendah. probabilitas mencapai kesalahan dalam kisaran rendah ini dalam sedikitnya 400 struktur. Namun, beberapa struktur yang dihasilkan di sini di antara 400 teratas tampak tidak benar secara topologi, dengan rantai polipeptida melewati loop dengan cara yang, menurut intuisi visual, atipikal dari struktur yang sepenuhnya benar. Struktur topologi yang salah seperti itu tidak akan berada dalam cekungan daya tarik penyempurnaan energi konvensional, misalnya, dengan anil simulasi. Hal ini menunjukkan bahwa tidak ada C . yang rendahα-RMSD sebagai ukuran akurasi keseluruhan, atau skor pemodelan template (TM) yang lebih baru dikembangkan, atau tes jarak global - skor total (GDT-TS), merupakan indikator kualitas struktur yang sepenuhnya informatif. Metrik perbandingan struktur klasik ini perlu dilengkapi dengan ukuran yang lebih canggih, yang mengukur perbedaan topografi dalam perkembangan rantai dalam ruang 3D, arah untuk pekerjaan di masa depan [64], [65], bersama dengan analisis pelanggaran kendala dalam semangat Miller dkk. [3]. Bagaimanapun, akurasi lipatan yang sangat tinggi yang kami hasilkan di antara jumlah kandidat yang relatif kecil menyiratkan bahwa kriteria peringkat yang ditingkatkan dapat mengarah pada serangkaian prediksi peringkat teratas yang lebih baik.

Batas teknis akurasi prediksi 3D saat ini.

Sebagai perkiraan akurasi yang dapat dicapai secara maksimal dengan metode ini dan implementasi khususnya, kami melakukan perhitungan referensi menggunakan batasan jarak buatan, sepenuhnya benar, yang diturunkan dari struktur yang diamati secara eksperimental. Dengan rangkaian kendala yang ideal ini, kita dapat membangun model struktur protein dengan kesalahan tidak lebih rendah dari sekitar 2,0 Cα-RMSD (Teks S1, Tabel S3, nilai yang lebih besar untuk beberapa protein yang lebih besar). Ini menempatkan batas bawah pada kesalahan yang diharapkan, yang melekat pada geometri jarak dan bagian penyempurnaan metode dan kesalahan ini akan berskala sampai batas tertentu dengan panjang protein seperti yang telah dicatat orang lain [50]. Bahwa kami mencapai struktur kandidat yang dekat dengan batas-batas ini dengan batasan jarak yang diprediksi konsisten dengan gagasan bahwa kopling residu yang disimpulkan mengandung hampir semua informasi yang diperlukan untuk menemukan struktur protein asli, setidaknya untuk 15 keluarga protein yang diperiksa di sini. Batas bawah teknis ini juga merupakan tantangan untuk peningkatan metode generik untuk perhitungan struktur semua atom yang akurat dari batasan jarak.

Penilaian akurasi prediksi

Akurasi prediksi kontak.

Keakuratan prediksi struktur 3D sangat bergantung pada keakuratan prediksi kontak dan pilihan batasan jarak dari sekumpulan kontak yang diprediksi. Perhatikan bahwa kedekatan residu-residu adalah persyaratan yang berbeda dari kontak residu-residu, karena residu mungkin berdekatan satu sama lain dalam ruang tanpa atom mereka, berada dalam kontak antar-atom (didefinisikan sebagai jarak antar-atom mendekati minimum non-atomik). potensial antar atom yang terikat ('van der Waals'), katakanlah, sekitar 3,5 ). Di sini, kami menggunakan istilah kontak antar residu secara bergantian dengan kedekatan antar residu, yaitu jarak atom minimum kurang dari 5 Angstrom. Kami menilai keakuratan prediksi kontak dalam hal jumlah positif benar dan positif palsu di antara kontak yang diprediksi, yaitu kontak yang setuju dan tidak setuju dengan kontak yang diamati dalam struktur protein 3D yang diketahui.

Kami menemukan bahwa pasangan skor tertinggi memberikan informasi yang sangat akurat tentang kedekatan residu-residu (Gambar 6A, Gambar S6 dan S7). Misalnya, tingkat positif sejati di atas 0,8 untuk 50 pasangan pertama HRAS dan masih di atas 0,5 untuk 200 pasangan pertama untuk protein lain, lebih rendah tetapi masih relatif tinggi, misalnya di atas 0,7 dan 0,4 untuk 50 dan 50 pertama. 200 untuk ELAV4. Hasil ini konsisten dengan evaluasi paralel kami terhadap akurasi prediksi kontak untuk sejumlah besar domain protein bakteri [47] dan menunjukkan peningkatan yang signifikan atas metode prediksi kontak lokal dari mutasi atau ko-evolusi yang berkorelasi. Tidak mengherankan, ada kecenderungan umum untuk tingkat prediksi kontak positif sejati yang lebih tinggi untuk menghasilkan struktur 3D yang diprediksi lebih baik. Struktur protein yang diprediksi seperti Ras dan CheY dengan proporsi kontak prediksi positif sejati yang tinggi cenderung lebih akurat daripada mereka dengan tingkat yang lebih rendah, misalnya domain KH dari PCBP1 dan domain homologi calponin dari SPTB2. Namun, hubungan antara proporsi positif sejati dan akurasi struktur prediksi terbaik ini tidak sesederhana yang diharapkan, Gambar S6, S8 dan S9. Misalnya struktur prediksi thioredoxin secara keseluruhan lebih akurat daripada prediksi struktur domain lektin (A8MVQ9_HUMAN) meskipun faktanya thioredoxin memiliki tingkat positif sejati yang lebih rendah daripada domain lektin untuk kontak yang diprediksi. Karena kualitas struktur 3D dapat bergantung juga pada distribusi kontak melalui rantai, untuk setiap protein kami juga menghitung jarak kontak eksperimental ke kontak terdekat yang diprediksi dan 'penyebaran' ini menunjukkan korelasi yang baik dengan CαAkurasi -RMSD tercapai, (Gambar S10 dan Teks S1).

Evaluasi akurasi dalam hal kontak yang diprediksi (A) dan struktur 3D yang diprediksi (B). (A) Dua model global, model jaringan Bayesian (BNM, green [13]) dan model informasi langsung (DI, red, this work and [47]) memiliki tingkat prediksi kontak yang benar (true positives) yang tinggi secara konsisten di antara pasangan residu peringkat NC teratas dua model lokal, informasi timbal balik (MI, hijau, persamaan 1) dan SCA (hitam, [66]) memiliki tingkat positif sejati yang lebih rendah secara konsisten. Di sini, lokal mengacu pada independensi statistik dari setiap pasangan i,j, sedangkan global mengacu pada konsistensi statistik semua pasangan. Dalam (B), hanya struktur 3D yang diprediksi (hijau, BNM merah, EIC) untuk model global yang sesuai dengan struktur yang diamati (abu-abu) Cα-RMSDs dihitung berdasarkan jumlah atau residu dalam tanda kurung (sesi Pimol untuk semua struktur di Web Lampiran A4). Upaya untuk menghasilkan struktur 3D untuk dua metode lokal MI dan SCA gagal (tidak ditampilkan). Membandingkan (A) dan (B) menegaskan bahwa tingkat positif sejati yang lebih tinggi untuk prediksi kontak mengarah ke struktur 3D yang lebih baik dan bahwa untuk DI seseorang membutuhkan setidaknya tingkat positif sejati sekitar 0,5 untuk sekitar 100 kontak yang diprediksi, tergantung pada ukuran dan lainnya rincian keluarga protein tertentu. Menariknya, tingkat positif palsu setinggi sekitar 0,3-0,5 masih dapat konsisten dengan prediksi struktur 3D yang baik.

Perbandingan akurasi prediksi kontak antara model global dan lokal.

Seberapa baik metode prediksi kontak lainnya bekerja? Dua model global, Model Jaringan Bayesian (BNM, [13], [46]) dan model DI (pekerjaan ini dan [15] memiliki tingkat kontak yang diprediksi dengan benar secara konsisten (tingkat positif benar) di antara yang teratas nC peringkat pasangan residu dalam perbandingan dua model lokal, MI (Persamaan 1) dan analisis kopling statistik (SCA, [66]), keduanya memiliki tingkat positif sejati yang lebih rendah (Gambar 6A, Gambar S6, S7, S11, S12, S13, S14 , dan S15). Keakuratan prediksi kontak yang relatif tinggi dalam model BNM mendorong kami untuk menghasilkan struktur 3D yang diprediksi berdasarkan pasangan residu peringkat BNM sebagai dasar untuk batasan jarak yang disimpulkan, mengikuti protokol yang dikembangkan untuk model DI. Untuk sepuluh protein uji, struktur 3D all-atom terlipat untuk BNM sangat sesuai dengan struktur yang diamati (struktur hijau pada Gambar 6B dan data tidak ditampilkan). Secara keseluruhan, CαKesalahan -RMSD agak lebih tinggi untuk struktur dari model BNM daripada untuk model DI (struktur merah pada Gambar 6B). Secara khusus, menggunakan notasi [pengidentifikasi protein/kesalahan untuk BNM/kesalahan untuk DI], kami memiliki: [RASH/5.6 /2.8 ], [ELAV4/3.8 /2.6 ], [YA/4.6 /3.6 ] [CADH/4.7 /3.9 ] dan tripsin tidak mencapai akurasi lebih rendah dari 12 Cα-RMSD dengan batasan BNM (Gambar 6B dan data tidak ditampilkan). Di sisi lain, prediksi BNM dan DI untuk OMPR berada dalam kisaran akurasi yang sama jika dibandingkan dengan struktur eksperimental, karena hasil BNM lebih dari 74 atom dibandingkan dengan 63 atom untuk metode DI [OMPR/4.4 /4.0 A].

Hasil ini mengkonfirmasi bahwa secara umum tingkat positif sejati yang lebih tinggi untuk prediksi kontak mengarah ke prediksi struktur 3D yang lebih baik dan, bahwa untuk metode global seseorang membutuhkan setidaknya tingkat positif sejati sekitar 0,5 dan pada urutan sekitar 100 kontak yang diprediksi, tergantung pada ukuran dan rincian lain dari keluarga protein tertentu. Menariknya, tingkat positif palsu setinggi sekitar 0,3-0,5 masih dapat konsisten dengan prediksi struktur 3D yang baik. Jelas, model statistik global memberikan peningkatan substansial dalam akurasi prediksi kontak residu dan struktur 3D.

Persyaratan informasi untuk prediksi struktur 3D yang lebih baik

Persyaratan cakupan rentang urutan yang cukup dengan penyelarasan beberapa urutan.

Di antara set uji dua belas keluarga protein, akurasi terendah diperoleh untuk protein SPBT2 dan rhodopsin, (lihat Tabel 1, Tabel S1, Gambar S3). Dalam kasus ini sejumlah besar residu kunci tidak termasuk dalam model Markov tersembunyi PFAM (HMM) dan dengan demikian dikeluarkan dari analisis kami. Jika penjajaran hanya mencakup sebagian struktur, model statistik dari urutan dibatasi pada bagian struktur ini dan tidak memberikan informasi untuk daerah yang tidak tercakup. Karena daerah yang tidak tercakup oleh penyelarasan PFAM sering berada di ujung-N atau ujung-C protein dan ini bersentuhan di banyak struktur protein, ini akan secara signifikan merusak keakuratan prediksi yang mungkin dilakukan. Analisis kami juga menunjukkan bahwa prediksi cenderung tidak akurat bahkan di dalam wilayah yang dicakup ketika ujung penyelarasan tidak ada. Berapa banyak informasi urutan tambahan yang diperlukan untuk membangun keselarasan untuk seluruh urutan protein dalam setiap kasus? Pertanyaan ini tidak sepele karena keragaman yang diambil sampelnya pada setiap posisi urutan oleh evolusi sangat bervariasi. Memang kekuatan kendala evolusi struktural dapat berkurang ke arah protein termini, analog dengan 'ujung berjumbai' yang diamati di banyak struktur yang ditentukan NMR.

Lipat yang benar dengan batasan jarak yang sangat kecil.

Berapa jumlah minimum batasan jarak yang diprediksi yang diperlukan untuk menghasilkan perkiraan lipatan 3D? Parameter penting dari protokol lipat kami adalah jumlah batasan jarak yang disimpulkan, NC, digunakan untuk menghasilkan struktur kandidat. Sementara residu dengan korelasi pasangan berperingkat tertinggi biasanya dekat dalam struktur 3D (Gambar S6 dan S7), keandalan menurun dengan menurunnya nilai DIaku j. Kami menilai keakuratan lipatan protein yang diprediksi untuk 15 keluarga evaluasi sebagai fungsi NC (Gambar 7A dan S16, Tabel S1).

A. Berapa banyak batasan jarak yang diperlukan untuk prediksi lipatan? Berapa fraksi positif palsu yang dapat ditoleransi? Dengan meningkatnya jumlah kendala jarak esensial yang diprediksi (NC, sumbu horizontal), kesalahan prediksi 3D berkurang dengan cepat, seperti yang dinilai oleh Cα-RMSD antara yang terbaik dari 20 (di setiap NC bin) struktur yang diprediksi dan struktur yang diamati (di sini, untuk 15 protein uji, menggunakan Pymol). Hebatnya, hanya NRES/2 (∼L/2) batasan jarak Daku j (dengan jarak rantai |i−j|>5) cukup untuk prediksi berkualitas baik di bawah 5 Cα-RMSD, di mana nRES adalah jumlah residu asam amino dalam penjajaran sekuens ganda protein. Oleh karena itu kami secara rutin menghasilkan struktur protein kandidat hingga NC = NRES batasan jarak untuk peringkat buta (dan hingga NC = 200 untuk tes lainnya). Akhirnya jumlah positif palsu menurunkan kualitas prediksi, misalnya, untuk 58 protein residu BPTI sekali NC adalah sekitar 80 (1,5 NRES) kualitas prediksi hilang. Dalam praktiknya, kami tidak merekomendasikan penggunaan NC>NRES, yaitu, lebih dari satu kendala Daku j dengan |i−j|>5, per residu. B. Kapan mungkin untuk melipat dari urutan? Peningkatan jumlah sekuens yang tersedia di database publik (di sini, dari rilis arsip berturut-turut dari koleksi PFAM dari keberpihakan keluarga protein) adalah salah satu dari dua elemen kunci dalam kemampuan untuk memprediksi lipatan protein dari mutasi yang berkorelasi. Namun demikian, memplot jumlah urutan dan tanggal menunjukkan bahwa mungkin untuk menghitung struktur hingga 10 tahun yang lalu untuk beberapa protein dan bahwa beberapa urutan yang luar biasa sudah cukup. Misalnya, meskipun kesalahan prediksi retrospektif (sumbu vertikal, Cα-RMSD, menggunakan Pymol) untuk struktur 3D terbaik (masing-masing dari 400 kandidat) dalam empat keluarga protein (Ras, domain SH3 (YES_human) dan RnaseH dari Ecoli) telah menurun seiring waktu, penurunan tersebut tidak sepenuhnya monoton, sebagai hasil dari pertumbuhan database yang tidak sistematis. Titik di mana struktur protein yang diprediksi dari keluarga tertentu mencapai di bawah 4 Cα-RMSD sangat bervariasi. Misalnya, sementara RnaseH membutuhkan sekitar 6000 urutan untuk turun di bawah kesalahan 4 , mencapai sekitar tahun 2008, struktur CheY bisa diprediksi menjadi 3,3 Cα-RMSD, dengan hanya 600 sekuens yang tersedia pada tahun 1999.

Mulai dari 10 hingga 200 batasan jarak, kami menemukan bahwa kesalahan prediksi turun tajam saat batasan EIC ditambahkan, hingga positif palsu secara bertahap mulai menurunkan kualitas prediksi. Kami menyimpulkan bahwa seseorang membutuhkan sekitar 0,5 hingga 0,75 perkiraan kendala per residu, atau sekitar 25–35% dari total jumlah kontak, untuk mencapai prediksi struktur 3D yang masuk akal. Jumlah ini mendekati yang dilaporkan oleh kelompok lain, yang menggunakan pasangan residu dekat yang sepenuhnya benar untuk memaksakan jarak yang tidak tepat sebagai kendala [50], [51], [67]. Misalnya, Elav4 (panjang 71) terlipat di bawah 5 Cα-RMSD dengan hanya 20 kendala, sementara Trypsin (panjang 223) membutuhkan 130 kendala. Namun, jumlah kendala per residu untuk mencapai di bawah 5 Cα-RMSD tidak konstan (kolom 15 Tabel S1), dan protein seperti OMPR pada batasan 0,66 per residu, dan Ras pada batasan 0,25 per residu menunjukkan bahwa ini akan bergantung pada faktor lain, seperti jenis lipatan dan tingkat positif palsu. Sementara akurasi prediksi struktur untuk beberapa protein jelas menurun seiring dengan jumlah positif palsu, misalnya Cadh1, Elav4 dan Ya, protein lain, seperti Ras dan CheY tetap sama atau bahkan meningkatkan akurasi dengan meningkatnya proporsi positif palsu, ( Gambar S8). Hasil ini menggarisbawahi perlunya menggunakan batasan untuk mencoba melipat protein, untuk menguji kualitas kontak yang diprediksi, daripada mengandalkan tingkat prediksi kontak positif yang sebenarnya saja.

Meningkatkan akurasi prediksi dari waktu ke waktu, tetapi jumlah urutan yang dibutuhkan lebih rendah dari yang diharapkan.

Karena kami tidak memerlukan standar komputasi kinerja tinggi saat ini, kami bertanya-tanya berapa lama yang lalu memungkinkan untuk membuat prediksi struktural yang baik. Bagaimana keakuratan lipatan yang diprediksi bergantung pada jumlah urutan dalam penyelarasan beberapa urutan dan keragaman evolusionernya? Untuk mulai mengeksplorasi pertanyaan-pertanyaan ini, kami menghitung akurasi pelipatan menggunakan batasan jarak untuk empat protein representatif, menggunakan penyelarasan dari 20 rilis PFAM yang berbeda [1] yang mencakup 13 tahun terakhir. Untuk setiap keselarasan beberapa urutan kami menghitung 20 struktur untuk berbagai kendala 30-200, (Gambar 7B). Selama periode ini, informasi sekuens yang tersedia telah meningkat secara dramatis sebagai hasil dari teknologi sekuensing baru dan proyek genom skala besar, jadi kami memeriksa struktur terbaik yang dicapai sebagai fungsi dari jumlah sekuens. Meskipun ada tren keseluruhan yang jelas untuk Cα-RMSD dari struktur yang diprediksi turun secara monoton ketika jumlah urutan dalam keluarga meningkat (misalnya, RnaseH, 4 CαAmbang -RMSD tercapai pada tahun 2009 ketika jumlah sekuens mencapai 5000), tidak semua keluarga protein berperilaku dengan cara yang sama. Struktur Ras yang diprediksi mencapai di bawah 4 Cα-RMSD pada tahun 2002 dengan sedikitnya 1200 sekuens, kemudian, secara mengejutkan, naik lagi karena lebih banyak sekuens dimasukkan, hingga akhirnya turun menjadi 2,5 Cα-RMSD pada tahun 2009. Demikian pula, meskipun struktur prediksi CheY dan domain SH3 dari protein Ya meningkat dengan jumlah sekuens yang tersedia, struktur yang diprediksi memiliki Cα-RMSD dalam kesalahan serendah 3,3 dan 4,7 masing-masing pada tahun 1999, dengan 600 urutan untuk keduanya. (Gambar 7B). Yang paling mengejutkan, struktur OMPR yang diprediksi dengan kesalahan di bawah 5 Cα-RMSD akan mungkin menggunakan sesedikit 170 urutan (rilis PFAM 1999).

Oleh karena itu, hasil kami menyoroti hubungan keseluruhan akurasi lipatan yang diprediksi dengan jumlah urutan yang tersedia. Namun, hubungan ini tidak langsung. Distribusi urutan dalam ruang urutan keluarga tertentu pasti akan berpengaruh. Dalam implementasi algoritme kami saat ini, urutan dengan lebih dari 70% identitas residu ke tetangga keluarga diturunkan bobotnya (Teks S1). Oleh karena itu jumlah urutan efektif yang digunakan untuk perhitungan kopling DI jauh lebih sedikit daripada ukuran keluarga. Kira-kira hanya 12-40% dari urutan yang tersedia dalam keluarga yang benar-benar digunakan untuk perhitungan (Tabel S1). Pengurangan jumlah sekuens efektif ini sangat bervariasi antar famili, menyoroti distribusi yang berbeda pada ruang sekuens yang dicakup oleh famili individu (kolom 18 pada Tabel S1). Kami berspekulasi bahwa pekerjaan di masa depan akan meningkatkan pemahaman kami tentang yang, sebaik berapa banyak urutan optimal untuk inferensi kontak dari informasi evolusioner.


Latar belakang

Metode validasi struktur protein seperti MolProbity [1] dan Procheck [2] membantu ahli kristalografi untuk menemukan dan memperbaiki masalah potensial yang terjadi selama pemasangan dan penyempurnaan. Metode ini biasanya didasarkan pada sebuah prioritas pengetahuan kimia dan memanfaatkan berbagai paradigma stereokimia yang teruji dengan baik dan diterima secara luas. Demikian juga, paket prediksi dan analisis struktur berbasis template [3] dan medan gaya dinamika molekuler [4] biasanya dibangun di atas paradigma tersebut. Di antaranya, peta Ramachandran [5,6] memiliki peran sentral. Ini digunakan secara luas baik untuk berbagai analisis struktur protein, dan sebagai alat dalam visualisasi protein. Peta Ramachandran menggambarkan distribusi statistik dari dua sudut dihedral φ dan ψ yang berdekatan dengan Cα karbon di sepanjang tulang punggung protein. Perbandingan antara nilai yang diamati dari dihedral individu dalam protein tertentu dengan distribusi statistik peta Ramachandran adalah metode yang dinilai untuk memvalidasi geometri tulang punggung.

Dalam kasus atom rantai samping, metode analisis visual seperti peta Ramachandran telah diperkenalkan. Misalnya, peta Janin [7] dapat digunakan untuk membandingkan dihedral rantai samping yang diamati seperti χ1 dan χ2 dalam protein tertentu, terhadap distribusi statistik mereka, dengan cara yang analog dengan peta Ramachandran.

Perbaikan kristalografi dan program validasi seperti Phenix [8], Refmac [9] dan lainnya, sering menggunakan data statistik yang diperoleh dari perpustakaan Engh dan Huber [10,11]. Library ini dibangun dengan menggunakan struktur molekul kecil yang telah ditentukan dengan resolusi yang sangat tinggi. Pada tingkat seluruh protein, pengekangan rantai samping biasanya berasal dari analisis struktur kristalografi resolusi tinggi [12,13] di Bank Data Protein (PDB) [14]. Pustaka rotamer independen tulang punggung [15] tidak membuat referensi ke konformasi tulang punggung. Tetapi kemungkinan bahwa populasi rotamer rantai samping bergantung pada konformasi tulang punggung protein lokal, telah dipertimbangkan oleh Chandrasekaran dan Ramachandran [16]. Selanjutnya kedua struktur sekunder tergantung [17], lihat juga [7] dan [15], dan perpustakaan rotamer yang bergantung pada tulang punggung [18,19] telah dikembangkan. Kami mencatat bahwa subjek tetap dalam penyelidikan aktif [20-25].

Isi informasi dalam perpustakaan yang bergantung pada struktur sekunder dan perpustakaan independen tulang punggung pada dasarnya bertepatan [13]. Kedua jenis perpustakaan digunakan secara ekstensif selama pembuatan dan penyempurnaan model struktur protein kristalografi. Tetapi untuk prediksi konformasi rantai samping, misalnya dalam kasus pemodelan homologi dan desain protein, ada keuntungan untuk menggunakan pustaka rotamer yang bergantung pada tulang punggung yang lebih terbuka.

Dalam eksperimen struktur protein kristalografi sinar-x, kerangka peta kerapatan elektron adalah teknik umum untuk menginterpretasikan data dan membangun model awal [26]. Cα atom terletak di titik cabang antara tulang punggung dan rantai samping. Karena itu mereka tunduk pada batasan stereokimia yang relatif ketat, inilah alasan mengapa pembuatan model sering dimulai dengan identifikasi awal kerangka Cα jejak. Peran sentral Cα atom secara luas dieksploitasi dalam skema klasifikasi struktural seperti CATH [27] dan SCOP [28], dalam berbagai teknik pemodelan threading seperti I-Tasser [29] dan pendekatan dasar homologi termasuk SWISS-MODEL [30] dan metode terkait lainnya [31 ], di dalam de novo pendekatan [32], dan dalam pengembangan fungsi energi berbutir kasar untuk prediksi lipat [33]. Akibatnya apa yang disebut Cα-trace masalah telah menjadi subyek penyelidikan ekstensif [34-38]. Penyelesaian masalah akan terdiri dari rantai utama yang akurat dan/atau model semua-atom dari protein terlipat, berdasarkan pengetahuan tentang posisi C pusat.α atom saja. Kedua pendekatan berbasis pengetahuan seperti dan MAXSPROUT [34] dan de novo metode termasuk PULCHRA [37] dan REMO [38] telah dikembangkan, untuk mencoba dan menyelesaikan Cα- masalah jejak. Dalam kasus atom tulang punggung, algoritma geometrik yang diperkenalkan oleh Purisima dan Scheraga [39], atau beberapa variannya, biasanya digunakan dalam pendekatan ini. Untuk atom rantai samping, sebagian besar pendekatan ke Cα melacak masalah bergantung baik pada statistik atau pada perpustakaan rotamer konformer dalam kombinasi dengan kendala sterik, dilengkapi dengan analisis yang didasarkan pada fungsi penilaian yang beragam. Untuk penyempurnaan akhir model, simulasi dinamika molekul semua atom juga dapat digunakan.

Dalam artikel ini kami memperkenalkan dan mengembangkan teknik visualisasi generasi baru yang kami harap akan menjadi pelengkap yang bermanfaat bagi metode yang ada untuk analisis, penyempurnaan, dan validasi struktur protein. Kami menggunakan Cα Bingkai Frenet [40,41] untuk memvisualisasikan rantai samping. Output yang kami tuju, adalah peta visual tipe 3D “what-you-see-is-what-you-have” dari model semua atom yang disukai secara statistik, dapat dihitung dalam Cα koordinat. Dengan demikian, pendekatan kami harus memiliki nilai misalnya selama konstruksi dan validasi model tulang punggung awal dan semua atom dari struktur protein kristalografi.

Pendekatan kami didasarkan pada perkembangan visualisasi tiga dimensi dan realitas virtual, yang terjadi setelah peta Ramachandran diperkenalkan. Sebagai pengganti sudut dihedral tulang punggung yang muncul sebagai koordinat di peta Ramachandran dan sesuai dengan topologi toroidal, kami menggunakan geometri bola virtual yang mengelilingi setiap atom berat. Kami menggambarkan secara visual semua tulang punggung berat tingkat yang lebih tinggi dan atom rantai samping pada permukaan bola, tingkat demi tingkat di sepanjang tulang punggung dan rantai samping, persis dengan cara mereka dilihat oleh imajiner, ditentukan secara geometris dan Cα pengamat miniatur berbasis yang meluncur di sepanjang tulang punggung dan memanjat rantai samping, melanjutkan dari satu Cα atom ke yang berikutnya. Di lokasi masing-masing Cα pengamat virtual kita mengarahkan dirinya secara konsisten sesuai dengan C . yang ditentukan secara geometris murniα berdasarkan frame Frenet diskrit [40,41]. Jadi visualisasi hanya bergantung pada Cα koordinat, dan tidak ada referensi ke atom lain dalam inisialisasi konstruksi. Atom-atom lain - termasuk C . berikutnyaα atom di sepanjang rantai tulang punggung - semuanya dipetakan pada permukaan bola yang mengelilingi pengamat, seolah-olah atom ini adalah bintang di langit.

Pada setiap Cα atom, konstruksi berlangsung di sepanjang rantai samping berikutnya, sampai posisi semua atom berat telah ditentukan. Dengan demikian, peta kami memberikan informasi visual langsung yang murni geometris dan adil tentang struktur semua atom yang diharapkan secara statistik dalam protein tertentu.

Metode yang kami uraikan dalam artikel ini, dapat menjadi dasar bagi pengembangan pendekatan baru untuk C . di masa depanα masalah jejak. Sebagai pelengkap pendekatan yang ada seperti MAXSPROUT [34], PULCHRA [37] dan REMO [38], metode yang kami bayangkan menjelaskan ketergantungan struktur sekunder pada posisi atom berat, yang kami ungkapkan di sini. Metode yang bergantung pada struktur sekunder untuk menyelesaikan Cα masalah jejak harus mengarah pada peningkatan akurasi dalam posisi atom berat, dalam hal Cα koordinat. Secara khusus, karena status rotamerik menunjukkan ketergantungan struktur sekunder yang jelas, sebuah fakta yang terkadang diabaikan dalam pengembangan perpustakaan rotamer. Artikel ini berfungsi sebagai bukti konsep.


Biokimia/Protein Struktural

Protein adalah molekul biologis fungsional yang terdiri dari satu atau lebih polipeptida yang dilipat/digulung menjadi struktur tertentu [1]. Protein adalah makromolekul penting yang berfungsi sebagai elemen struktural, saluran transportasi, reseptor dan pemancar sinyal, dan enzim. Protein adalah polimer linier yang dibangun dari unit monomer yang disebut asam amino. Ada 20 asam amino yang berbeda dan mereka dihubungkan oleh ikatan peptida antara gugus karboksil dan gugus amino dalam rantai linier yang disebut polipeptida. Setiap protein memiliki rantai samping yang berbeda atau kelompok "R". Protein memiliki banyak gugus fungsi aktif yang berbeda yang melekat padanya untuk membantu menentukan sifat dan fungsinya. Protein mencakup berbagai fungsi, mulai dari elemen struktural yang sangat kaku hingga transmisi informasi antar sel. Setiap orang memiliki beberapa ratus ribu protein berbeda di dalam tubuhnya. Protein terlipat menjadi struktur sekunder, tersier, dan kuaterner berdasarkan ikatan intramolekul antara gugus fungsi atau ikatan antarmolekul (kuartener saja) dan dapat diperoleh pada berbagai bentuk tiga dimensi tergantung pada urutan asam amino. Semua protein memiliki struktur primer, sekunder dan tersier tetapi struktur kuartener hanya muncul ketika protein terdiri dari dua atau lebih rantai polipeptida [1]. Pelipatan protein juga didorong dan diperkuat oleh pembentukan banyak ikatan antara berbagai bagian rantai. Pembentukan ikatan ini tergantung pada urutan asam amino. Studi tentang strukturnya penting karena protein sangat penting untuk setiap aktivitas dalam tubuh manusia serta merupakan komponen kunci dari bahan biologis. Struktur primer adalah ketika asam amino dihubungkan bersama oleh ikatan peptida untuk membentuk rantai polipeptida. Struktur sekunder adalah ketika rantai polipeptida terlipat menjadi struktur biasa seperti lembaran beta, heliks alfa, belokan, atau loop. Protein fungsional lebih dari sekadar polipeptida, itu adalah satu atau lebih polipeptida yang telah dilipat secara tepat menjadi molekul dengan bentuk yang sangat spesifik dan unik yang sangat penting untuk fungsinya [1].


Protein biasanya digambarkan dalam struktur 3D dan dikategorikan ke dalam empat karakteristik dan level yang berbeda:

Utama: Struktur primer suatu protein adalah tingkat struktur protein yang mengacu pada urutan spesifik asam amino [1] . Ketika dua asam amino berada dalam posisi sedemikian rupa sehingga gugus karboksil dari masing-masing asam amino saling berdekatan, mereka dapat digabungkan dengan menjalani reaksi dehidrasi yang menghasilkan pembentukan ikatan peptida [1]. Asam amino dalam polipeptida (protein) dihubungkan oleh ikatan peptida yang dimulai dengan N-terminal dengan gugus amino bebas dan berakhir di C-terminal dengan gugus karboksil bebas. rts. Ikatan peptida bersifat planar dan tidak dapat berputar bebas karena karakter ikatan rangkap parsial. Meskipun ada rotasi terbatas pada ikatan peptida, ada dua rotasi bebas pada ikatan (N-C) dan ikatan (C-C), yang disebut sudut puntir, atau lebih khusus lagi sudut phi dan psi. Kebebasan rotasi kedua ikatan ini juga dibatasi karena halangan sterik. Gen membawa informasi untuk membuat polipeptida dengan urutan asam amino yang ditentukan. Sebuah polipeptida rata-rata memiliki panjang sekitar 300 asam amino, dan beberapa gen mengkode polipeptida yang panjangnya beberapa ribu asam amino. Penting untuk mengetahui struktur primer protein karena struktur primer mengkode motif yang memiliki kepentingan fungsional dalam fungsi biologisnya. Struktur dan fungsi berkorelasi pada semua tingkat organisasi biologis [1] .

Sekunder: Urutan asam amino polipeptida, bersama dengan hukum kimia dan fisika, menyebabkan polipeptida terlipat menjadi struktur yang lebih kompak. Asam amino dapat berputar di sekitar ikatan dalam protein. Inilah alasan mengapa protein fleksibel dan dapat dilipat menjadi berbagai bentuk. Lipatan bisa tidak beraturan atau daerah tertentu bisa memiliki pola lipatan berulang. Gulungan dan lipatan yang dihasilkan dari ikatan hidrogen antara segmen berulang dari tulang punggung polipeptida disebut struktur sekunder [1] . Meskipun ikatan hidrogen individu lemah, mereka mampu mendukung bentuk spesifik untuk bagian protein itu karena fakta bahwa mereka diulang berkali-kali pada bagian rantai yang panjang [1]. Struktur sekunder protein diusulkan oleh Pauling dan Corey. Strukturnya dibentuk oleh asam amino yang terletak dalam jarak pendek satu sama lain. Karena sifat planar dari ikatan peptida, hanya jenis struktur sekunder tertentu yang ada. Tiga struktur sekunder yang penting adalah -helix, -sheets, dan -turns. Juga, lembar beta bisa paralel, antiparalel, atau campuran. Lembaran beta antiparalel lebih stabil karena ikatan hidrogen berada pada sudut sembilan puluh derajat. A-helix adalah struktur melingkar yang distabilkan oleh ikatan hidrogen intrachain.

Karakteristik Struktur Sekunder:

1. -heliks: Dalam -helix, tulang punggung polipeptida membentuk struktur heliks berulang yang distabilkan oleh ikatan hidrogen antara oksigen karbonil dan hidrogen amina. Ikatan hidrogen ini terjadi pada interval reguler satu ikatan hidrogen setiap asam amino keempat dan menyebabkan tulang punggung polipeptida membentuk heliks [1]. Struktur heliks yang paling umum adalah heliks tangan kanan dengan ikatan hidrogen sejajar dengan sumbunya. Ikatan hidrogen terbentuk antara oksigen karbonil dan gugus hidrogen amina dari empat residu asam amino. Setiap asam amino memajukan heliks, sepanjang sumbunya, sebesar 1,5 . Setiap putaran heliks terdiri dari 3,6 asam amino sehingga nada heliks adalah 5,4 . Ada rata-rata sepuluh residu asam amino per heliks dengan rantai sampingnya berorientasi di luar heliks. Asam amino yang berbeda memiliki kecenderungan yang berbeda untuk membentuk heliks-x, namun prolin adalah pemutus heliks karena prolin tidak memiliki gugus amino bebas. Asam amino yang lebih memilih untuk mengadopsi konformasi heliks dalam protein termasuk metionin, alanin, leusin, glutamat dan lisin (malek).

2. -lembar: -sheet distabilkan oleh ikatan hidrogen antara untaian peptida. Dalam lembaran-, daerah tulang punggung polipeptida terletak sejajar satu sama lain dan dihubungkan oleh ikatan hidrogen [1] . Ikatan hidrogen terbentuk antara oksigen karbonil dan hidrogen amina dari asam amino dalam untaian yang berdekatan dalam polipeptida, yang berarti bahwa ikatan hidrogen saling berdiri. Daerah -sheet lebih memanjang daripada -helix, dan jarak antara asam amino yang berdekatan adalah 3,5 . Ikatan hidrogen pada -strand dapat terjadi secara paralel, antiparalel, atau campuran. Residu asam amino dalam konfigurasi - paralel berjalan dalam orientasi yang sama.Lembaran berlipit membentuk inti dari banyak protein globular dan juga dominan pada beberapa protein berserat seperti jaring laba-laba [1]. Aromatik besar seperti: triptofan, tirosin dan fenilalanin, dan asam amino bercabang beta seperti: isoleusin, valin, dan treonin lebih memilih untuk mengadopsi konformasi untai . Orientasi ini secara energetik kurang menguntungkan karena ikatan hidrogennya yang miring dan tidak vertikal. . Trytophan, tirosin, dan fenilalanin bersifat hidrofobik sedangkan asam amino lainnya bersifat hidrofilik.

3. -berputar: Rantai polipeptida dapat berubah arah dengan membuat putaran dan putaran terbalik. Daerah loop yang menghubungkan dua untai anti-paralel dikenal sebagai putaran balik atau putaran . Daerah loop ini memiliki panjang dan bentuk yang tidak teratur dan biasanya ditemukan pada permukaan protein. Gilirannya distabilkan oleh ikatan hidrogen antara tulang punggung oksigen karbonil dan hidrogen amina. Gugus CO dari residu, dalam banyak putaran terbalik, yang terikat pada gugus NH dari residu i + 3 . Interaksi menstabilkan perubahan mendadak dalam arah rantai polipeptida. Tidak seperti heliks alfa dan untai , loop tidak memiliki struktur periodik yang teratur. Namun, mereka biasanya kaku dan terdefinisi dengan baik. Karena loop terletak di permukaan protein, mereka dapat berpartisipasi dalam interaksi antara protein dan molekul lain. Plot Ramachandran adalah plot yang menunjukkan sudut puntir yang tersedia di mana protein dapat ditemukan. Namun, dalam plot, jika ada banyak titik yang tersebar di semua tempat, itu berarti ada lingkaran.

Tersier: Ketika struktur sekunder terbentuk karena struktur primer, polipeptida terlipat dan terlipat kembali untuk mengambil bentuk tiga dimensi kompleks yang disebut struktur tersier protein. Struktur tersier adalah bentuk keseluruhan dari polipeptida. [1] Struktur tersier dihasilkan dari interaksi antara rantai samping (gugus R) dari berbagai asam amino [1] . Struktur tiga dimensi ini disebabkan oleh interaksi intramolekul antara gugus samping di sepanjang rantai polipeptida. Domainnya biasanya mengandung 300 – 400 asam amino, dan mengadopsi struktur tersier yang stabil ketika diisolasi dari protein induknya. Ketika polipeptida terlipat menjadi bentuk fungsionalnya, asam amino yang memiliki rantai samping hidrofobik cenderung berakhir mengelompok pada inti protein sehingga tidak kontak dengan air [2]. Ikatan kovalen yang disebut jembatan disulfida juga dapat mempengaruhi bentuk suatu protein [1] . Jembatan disulfida terbentuk di mana dua asam amino yang mengandung gugus sulfhidril pada rantai sampingnya disatukan oleh cara protein terlipat [1]. Untuk beberapa protein, seperti ribonuklease, struktur tersier adalah struktur akhir dari protein fungsional. Protein lain terdiri dari dua atau lebih polipeptida dan mengadopsi struktur kuaterner.

Kuarter: Sementara semua protein mengandung struktur primer, sekunder dan tersier, struktur kuaterner dicadangkan untuk protein yang terdiri dari dua atau lebih rantai polipeptida [1] . Protein yang memiliki struktur kuartener mengandung lebih dari satu polipeptida dan masing-masing mengadopsi struktur tersier dan kemudian berkumpul satu sama lain melalui interaksi antarmolekul. Struktur kuartener suatu protein merupakan keseluruhan struktur yang merupakan hasil penambahan subunit polipeptida tersebut [1]. Polipeptida individu disebut subunit protein, yang berarti polipeptida yang berbeda dilipat secara terpisah. Subunit mungkin polipeptida identik atau mungkin berbeda. Ketika protein terdiri dari lebih dari satu rantai polipeptida, mereka dikatakan memiliki struktur kuartener dan juga dikenal sebagai protein multimerik, artinya protein yang terdiri dari banyak bagian. Struktur kuarter juga dapat didefinisikan sebagai ketika lebih dari satu protein berkumpul untuk membuat dimer, trimer, tetramer, dll. [2] . Hemoglobin adalah contoh struktur kuartener yang terdiri dari dua subunit alfa dan dua subunit beta.

Protein berserat: Protein berserat juga dikenal sebagai Schleroprotein adalah rantai protein panjang yang berbentuk seperti kawat batang. Tidak seperti Protein Globular, mereka tidak mudah terdenaturasi, dan mengandung banyak pengulangan struktur sekunder. Mereka sebagian besar protein struktural yang bertanggung jawab untuk organisme dalam mendukung dan melindungi seperti membentuk jaringan ikat, serat otot, tulang, dan tendon. Dua contoh protein berserat adalah:

1. –keratin: –keratin (penting pada rambut, kuku, tanduk, kuku, dan lain-lain) adalah protein gulungan-gulungan yang terdiri dari dua heliks yang saling terkait. Struktur gulungan-gulungan ditemukan dalam protein struktural lain, misalnya, miosin otot rangka yang memiliki pengulangan heptads sesuai dengan 3,5 asam amino per putaran. Residu pada posisi a, d, a’ dan d’ dalam heliks protein ini biasanya bersifat hidrofobik. Kedua untai dalam gulungan-koil disatukan oleh interaksi hidrofobik serta interaksi ionik dan ikatan disulfida.

2. Kolagen: Kolagen (tendon, tulang rawan, dinding pembuluh darah) merupakan protein yang paling melimpah dalam tubuh manusia. Kolagen adalah triple helix yang tidak seperti -helix, ia memiliki 3,3 asam amino dan 10 per putaran. Kolagen distabilkan oleh ikatan hidrogen, yang terbentuk antara oksigen karbonil dan hidrogen amina dari asam amino yang terletak pada rantai tetangga dan tegak lurus terhadap sumbu serat. Ini berlimpah dalam prolin, dan mengandung hidroksiprolin dan hidroksilisin. Namun, karena banyaknya prolin, tidak ada ikatan hidrogen intrachain, dan hidroksilasi prolin dan lisin membutuhkan Vitamin C. Kekurangan vitamin C menyebabkan penyakit kudis. Sepertiga asam amino kolagen adalah glisin karena terlalu padat hanya glisin yang ditemukan di tengah molekul kolagen. Molekul kolagen dapat dihubungkan silang dengan ikatan kovalen dari serat dan lembaran yang lebih besar.

Protein Bulat: Protein globular dilipat untuk mengubur rantai samping hidrofobik. Semua protein globular memiliki bagian dalam di mana inti hidrofobik diatur. Ini memiliki luar ke arah mana kelompok hidrofilik diarahkan. Residu asam amino polar yang tidak bermuatan biasanya ditemukan pada permukaan protein tetapi juga dapat terjadi di bagian dalam. Dalam kasus terakhir, itu akan hidrogen terikat pada kelompok lain, yaitu ser, thr, tyr semuanya polar, tidak bermuatan.

Beberapa faktor menentukan cara polipeptida mengadopsi struktur sekunder, tersier, dan kuaternernya. Urutan asam amino polipeptida adalah fitur yang membedakan struktur satu protein dari yang lain. Saat polipeptida disintesis dalam sel, polipeptida melipat menjadi struktur sekunder dan tersier, yang berkumpul menjadi struktur kuaterner untuk sebagian besar protein. Seperti disebutkan, hukum kimia dan fisika, bersama dengan urutan asam amino, mengatur proses ini. Lima faktor penting untuk pelipatan dan stabilitas protein:

1. Ikatan hidrogen: Ikatan hidrogen terbentuk antara donor ikatan hidrogen dan akseptor ikatan hidrogen. Untuk asam amino, ikatan hidrogen akan terjadi antara tulang punggung gugus amina dan oksigen dari gugus karbonil.

2. Ikatan ionik: Interaksi elektrostatik terjadi antara dua molekul bermuatan berlawanan. Interaksi ionik lebih lemah di dalam air daripada di ruang hampa, hal ini disebabkan oleh konstanta dielektrik yang berbeda yang dihadapi dalam air antara muatan yang berlawanan dalam struktur protein.

3. Efek hidrofobik: Interaksi hidrofobik berasal dari kecenderungan molekul non-polar untuk meminimalkan interaksinya dengan air. Ketika molekul non-polar berinteraksi dengan air, molekul-molekul ini cenderung mengelompok bersama di tengah untuk membentuk misel.

4. Gaya van der waals: Gaya van der waals ada antara molekul non-polar pada jarak dekat. Dari ketiga interaksi van der waals, interaksi antara dipol permanen paling kuat, interaksi dipol induksi dipol lebih lemah daripada dipol permanen dan gaya dispersi London paling lemah. Sementara gaya van der waals antara atom individu lemah, jumlah gaya van der waals yang dihasilkan dari interaksi antara banyak atom dalam makromolekul besar dapat menjadi substansial. Kekuatan interaksi van der waals bervariasi dengan jarak antara atom dan maksimal pada jarak kontak van der waals.

5. Jembatan disulfida: Ikatan disulfida dapat terbentuk antara dua sistein melalui oksidasi. Ini juga merupakan ikatan kovalen terkuat dalam struktur tersier protein.

Denaturasi protein: adalah hilangnya konformasi asli dari struktur tersier. Protein yang mengalami denaturasi mengalami kerusakan akibat gangguan struktur tersier internal atau sekunder. Denaturasi bagaimanapun, tidak memutuskan ikatan peptida antara asam amino yang berdekatan, sehingga tidak mempengaruhi struktur primer protein. Denaturasi bagaimanapun, akan mengganggu lembaran alfa-heliks dan beta normal dalam protein yang pada akhirnya mendistorsi bentuk 3D-nya.

Denaturasi menyebabkan gangguan ikatan hidrogen antara asam amino yang berdekatan, sehingga mengganggu struktur sekunder dan tersier protein. Dalam struktur tersier ada empat jenis interaksi ikatan antara "rantai samping" termasuk: ikatan hidrogen, jembatan ionik, ikatan disulfida, dan interaksi antarmolekul hidrofobik. Dengan kata lain, ada beberapa kondisi berbeda untuk mendenaturasi konformasi protein.

Kondisi yang mendenaturasi protein:

1. pH ekstrim (pH < 4 atau pH > 9) : mengubah ikatan-H

2. Panas (temp & gt70oC): efek termal, mengganggu kekuatan lemah ikatan non-kovalen

3. Deterjen atau pelarut organik : mengganggu interaksi hidrofobik

4. Agen Chaotropic (konsentrasi tinggi): misalnya, urea dan guanidinium klorida

Ketika para ilmuwan mulai menemukan lebih banyak aspek kimia, mereka sebenarnya menemukan besarnya kompleksitas dalam kimia/biologi sel. Meskipun para ilmuwan menemukan bahwa protein memiliki peran penting dalam tubuh, mereka juga menemukan bahwa protein berkumpul sendiri di tempat tertentu di dalam sel, yang diaktifkan hanya bila diperlukan. Menggunakan protein bertanda GFP (fluoresensi) dalam sel hidup, pemosisian dan pemosisian ulang protein diamati sebagai respons terhadap sinyal spesifik. Ketika molekul sinyal ekstraseluler berikatan dengan protein reseptor, ia menggulung protein yang berbeda menuju area bagian dalam membran plasma untuk membuat peralatan protein yang akan meneruskan sinyal.

Manusia memiliki 10 enzim PKC yang berbeda baik dalam regulasi maupun fungsinya. Ketika PKC diaktifkan, ia akan berpindah dari sitoplasma ke berbagai lokasi intraseluler dan pada akhirnya akan membentuk kompleks spesifik dengan protein lain sehingga memungkinkan mereka memfosforilasi substrat protein yang berbeda. Berbagai ligase mengekspresikan perilaku semacam ini seperti ligase ubiquitin SCF. Mekanisme ini melibatkan kolaborasi antara fosforilasi protein dan protein perancah yang menghubungkan protein pengaktif, penghambat, adaptor, dan substrat spesifik ke bagian sel yang terpisah.

Kejadian ini disebut induced proximity, yang menjelaskan alasan mengapa bentuk-bentuk kecil enzim dengan tempat reaksi yang sama dapat memiliki fungsi yang berbeda. Ini dapat dilakukan dengan memodifikasi lokasi protein secara kovalen dengan berbagai cara. Perubahan ini membangun situs pengikatan pada protein sehingga akan mengikat protein perancah, membuat mereka mengelompok bersama sehingga reaksi yang berbeda dapat terjadi dalam lokasi tertentu dari sel. Oleh karena itu, perancah memungkinkan sel untuk mengelompokkan reaksi tanpa membutuhkan membran.

Protein perancah dianggap menahan protein di lokasi tertentu relatif satu sama lain tetapi dalam kenyataannya, daerah rantai polipeptida yang tidak terstruktur menghubungkan protein yang berinteraksi. Hal ini memungkinkan protein untuk sering berbenturan satu sama lain dalam orientasi acak, beberapa mengarah ke reaksi yang sukses. Penambatan protein memungkinkan laju reaksi yang lebih cepat terjadi. Protein perancah karena itu menyediakan metode yang fleksibel untuk mengendalikan Kimia Sel.

Protein kotak MATI terdiri dari RNA helikase, mereka terlibat dalam proses metabolisme RNA, dan mereka dilestarikan dalam sembilan domain yang ditemukan pada bakteri dan virus hingga manusia. Panjangnya 350 asam amino. Protein kotak MATI terlibat dalam pemrosesan pra-mRNA, pembentukan splicesosome, dan penataan ulang kompleks ribonucleoprotein (RNP). Protein kotak MATI diperlukan dalam penyambungan pra-mRNA dan proses penyambungan in vivo. Selama pemrosesan pra-mRNA, protein kotak DEAD terlepas untuk menyediakan energi untuk mengatur ulang lima snRNP (U1, U2, U4, U5, dan U6) yang diperlukan dalam penyambungan pra-mRNA. Dalam splicing in vivo, tiga protein kotak MATI, Sub2, Prp28, dan Prp5, diperlukan. Prp5 membantu mengatur ulang konformasi U2, yang memungkinkan urutan U2 mengikat urutan titik cabang. Prp28 membantu pengenalan lokasi penyambungan 5 '.

Protein kotak DEAD pertama, faktor inisiasi translasi ElF4A, bergantung pada aktivitas RNA ATPase. Protein ini membantu melepaskan struktur sekunder, yang menghentikan pemindaian


Kesimpulan

Telah ditunjukkan bahwa protomer protein yang membentuk kompleks hetero-oligomer cenderung memiliki struktur yang lebih mirip satu sama lain daripada protein yang tidak membentuk jenis rakitan supramolekul ini. Serangkaian pendekatan berbeda telah berkontribusi pada pengamatan ini: jarak pada plot Ramachandran proteomik, superposisi struktur protein, dan perbandingan berdasarkan dua basis data struktur domain (CATH dan SCOP).

Sesuai dengan penelitian sebelumnya, masuk akal untuk menganggap bahwa kesamaan yang mengejutkan antara protomer kompleks hetero-oligomer ini disebabkan oleh hubungan evolusioner antara hetero-oligomer dan homo-oligomer sebelumnya, meskipun duplikasi gen dan evolusi paralog (Archibald et al. 1999 Ispolatov dkk. 2005 Lukatsky dkk. 2007 Lukatsky dkk. 2006 Pereira-Leal dkk. 2007). Namun, menurut pendapat saya, penelitian lebih lanjut diperlukan untuk mengevaluasi kepentingan relatif dari pengekangan evolusioner dan fisiko-kimiawi pada struktur dan dinamika protein.


Mempelajari dinamika torsi tulang punggung dari protein yang tidak teratur secara intrinsik menggunakan kinetika depolarisasi fluoresensi

Protein yang tidak teratur secara intrinsik (IDP) tidak secara otonom mengadopsi struktur 3D unik yang stabil dan ada sebagai ansambel struktur yang saling berkonversi dengan cepat. Mereka dicirikan oleh plastisitas konformasi yang signifikan dan dikaitkan dengan beberapa fungsi dan disfungsi biologis. Fluktuasi konformasi yang cepat diatur oleh dinamika segmental tulang punggung yang timbul karena fluktuasi sudut dihedral pada ruang konformasi –ψ Ramachandran. Kami menemukan bahwa mobilitas torsi tulang punggung intrinsik dapat dipantau oleh pembacaan fluoresensi sensitif, yaitu kinetika depolarisasi fluoresensi, triptofan dalam IDP pola dasar seperti -synuclein. Metodologi ini memungkinkan kami untuk memetakan mobilitas torsional spesifik lokasi dalam ruang dihedral dalam rentang waktu picosecond-nanosecond pada konsentrasi protein rendah di bawah kondisi asli. Skala waktu karakteristik dari

1,4 ns, tidak tergantung pada posisi residu, mewakili dinamika torsi kolektif sudut dihedral (ϕ dan ) dari beberapa residu dari triptofan dan tidak tergantung pada penurunan global protein secara keseluruhan. Kami percaya bahwa metodologi kinetika depolarisasi fluoresensi akan menemukan aplikasi luas untuk mempelajari gerakan berkorelasi jarak pendek dan jarak jauh, gesekan internal, lipatan yang diinduksi pengikatan, transisi gangguan-ke-urutan, kesalahan lipatan, dan agregasi IDP.

Ini adalah pratinjau konten langganan, akses melalui institusi Anda.


Latar belakang

Biofuel adalah sumber energi yang bersih dan terbarukan, meningkat sebagai alternatif bahan bakar fosil, seperti yang berasal dari minyak bumi [1, 2]. Mereka dihasilkan dari bahan-bahan pertanian, misalnya tebu, jagung, tanah, rumput laut, dan sebagainya. Produksi biofuel generasi kedua terjadi dalam beberapa tahap, seperti pra-pemrosesan, sakarifikasi, dan fermentasi. Tahap sakarifikasi terjadi oleh aksi sinergis dari tiga jenis enzim: endoglukanase (EC 3.2.1.4), eksoglukanase, juga disebut selobiohidrolase (EC 3.2.1.91), dan -glukosidase (EC 3.2.1.21) [4, 5]. Endoglukanase bekerja dalam struktur selulosa, melepaskan oligosakarida dengan panjang yang berbeda. Cellobiohydrolases menghidrolisis terminal oligosakarida ini, melepaskan terutama molekul selobiosa. Kemudian, -glukosidase menghidrolisis ikatan glikosidik selobiosa, melepaskan dua molekul glukosa [4,5,6,7]. Namun, sebagian besar -glukosidase sangat dihambat oleh konsentrasi glukosa yang tinggi [8,9,10]. Dengan demikian, enzim ini telah dipertimbangkan oleh beberapa penelitian sebagai target untuk meningkatkan toleransi konsentrasi glukosa yang tinggi dengan mutagenesis langsung situs atau desain enzim baru [8,9,10,11,12,13,14,15,16,17, 18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42] . Juga, banyak ulasan telah melaporkan pentingnya toleransi glukosa untuk meningkatkan proses sakarifikasi [4, 7, 43].

Baru-baru ini, Salgado et al. [43] mengusulkan sistem klasifikasi -glukosidase dibagi menjadi empat kelompok: (i) -glukosidase sangat dihambat oleh glukosa (kebanyakan dari mereka) (ii) -glukosidase toleran terhadap glukosa (iii) -glukosidase dirangsang oleh konsentrasi glukosa rendah tetapi dihambat dalam konsentrasi tinggi dan (iv) -glukosidase tidak dihambat oleh konsentrasi glukosa yang tinggi. Sejauh pengetahuan kami, kelompok ii, iii, dan iv terdiri dari beberapa enzim. Oleh karena itu, banyak penelitian yang bertujuan untuk mentransfer karakteristiknya ke enzim lain yang tidak efisien untuk hidrolisis biomassa. Misalnya, Yang dkk. [9] mengevaluasi pentingnya satu set posisi asam amino melalui mutagenesis langsung situs. Mereka melaporkan bahwa mutasi H228T dan N301Q/V302F dapat menyebabkan -glukosidase laut yang tidak resisten menjadi toleransi glukosa. Juga, Giuseppe et al. [10] melaporkan bahwa bentuk dan keberadaan residu hidrofobik di tengah saluran substrat dapat dikaitkan dengan dasar struktural toleransi glukosa. Selanjutnya, mutasi pada posisi 174, 404, dan 441 dari -glukosidase yang diekstraksi dari metagenom Depresi Turpan, telah dilaporkan diperlukan untuk meningkatkan suhu optimal dan mengurangi pH optimal [12]. Studi Cao et al. [12] menunjukkan bahwa -glukosidase dari metagenom Depresi Turpan dapat diklasifikasikan sebagai toleran glukosa. Namun, enzim liar menyajikan K . yang rendahkucing/KM nilai ketika menggunakan selobiosa sebagai substrat. Juga, waktu paruh enzim liar pada 50 °C hanya 1 jam. Oleh karena itu, ini dapat menghambat kerja enzim ini dalam hidrolisis selulosa. Kombinasi tiga mutasi yang menguntungkan (W174C/A404V/L441F) sangat penting untuk memperpanjang waktu paruh hingga 48 jam, menjaga IC50 dan, akibatnya, toleransi glukosa. Penggunaan enzim mutan memungkinkan peningkatan konversi ampas tebu sebesar 14-35%, yang menunjukkan bahwa banyak aspek harus dipertimbangkan untuk mengusulkan mutasi yang meningkatkan aktivitas -glukosidase.

Pendekatan komputasi juga telah digunakan dalam pencarian asam amino penting untuk mengubah non-toleran menjadi -glukosidase yang toleran. Misalnya, satu set 15 mutasi telah diusulkan untuk meningkatkan aktivitas -glukosidase yang tidak toleran dari metagenom laut [44]. Dari 15 mutasi yang diusulkan ini, penelitian sebelumnya telah memberikan bukti eksperimental peningkatan aktivitas -glukosidase bahkan dalam konsentrasi glukosa tinggi untuk tiga di antaranya: H228C, H228T, dan H228V [9]. Residu yang bermutasi V302F, N301Q/V302F, F172I, V227M, G246S, T299S, dan H228T juga menjadi target studi komputasi lain yang menggunakan simulasi dinamika molekul klasik dan dipercepat untuk menyoroti peran mereka dalam pelepasan glukosa [45, 46]. Terlepas dari semua upaya ini, desain rasional -glukosidase yang lebih efisien masih menjadi tantangan.

Sebelumnya, database yang berisi struktur -glukosidase toleran glukosa, yang disebut Betagdb, telah diusulkan [4]. Basis data betagdb dikembangkan berdasarkan makalah yang melaporkan -glukosidase toleran glukosa dengan validasi eksperimental dan data struktural dari basis data publik (hanya 23 kejadian yang ditemukan pada saat itu). Dengan meningkatnya dan mempopulerkan platform sekuensing generasi berikutnya, ribuan -glukosidase dari beberapa organisme disimpan dalam basis data sekuens, seperti UniProt. Data ini dapat dieksplorasi lebih baik untuk membawa wawasan baru ke dalam mekanisme -glukosidase. Dalam makalah ini, kami mengusulkan database enzim -glukosidase yang disebut Glutantβase. Basis data kami mencakup 3842 sekuens yang dikumpulkan dari UniProt -glucosidases dari keluarga GH1 (Glycoside Hydrolase Family 1), keluarga yang paling menjanjikan untuk produksi biofuel generasi kedua. Untuk semua sekuens, kami melakukan pemodelan komparatif, memprediksi struktur sekundernya, mendeteksi residu yang terlibat dalam jaringan koevolusi, merinci residu yang dilestarikan, glutamat katalitik, dan residu yang ada di saluran substrat yang memandu ke situs aktif. Juga, kami berhipotesis bahwa mutasi yang dijelaskan dalam literatur bermanfaat untuk meningkatkan aktivitas -glukosidase dapat diekstrapolasi ke -glukosidase lainnya. Untuk memverifikasi ini, kami memodelkan 5607 protein mutan berdasarkan posisi analog dari enam mutasi menguntungkan yang dijelaskan dalam literatur: H228T [9], V174C [12], A404V [12], L441F [12], H184F [27], dan E96K [ 47]. Kami melakukan docking molekul glukosa dan selobiosa di alam liar dan protein mutan untuk memverifikasi variasi skor afinitas. Hasil kami menunjukkan bahwa hanya mutasi pada posisi analog H228T yang berdampak pada interaksi glukosa dan selobiosa, yang sesuai dengan studi komputasi dan eksperimental sebelumnya [9, 44, 45]. Kami berharap Glutantβase dapat membantu merekayasa enzim -glukosidase yang toleran untuk membawa perbaikan dalam produksi biofuel generasi kedua.


Metode

Prediksi Berbasis Pergeseran Kimia dari Kecenderungan Struktur Sekunder.

Pada langkah pertama prosedur CHESHIRE, pergeseran kimia digunakan untuk memprediksi struktur sekunder protein. Metode yang kami kembangkan, disebut 3PRED, menggunakan inferensi Bayesian untuk memprediksi struktur sekunder asam amino dari pergeseran kimia yang diketahui dalam kombinasi dengan struktur sekunder intrinsik kecenderungan triplet asam amino Distribusi probabilitas P δ mengukur kemungkinan asam amino individu membentuk struktur sekunder tertentu S diberikan satu set pergeseran kimia yang diukur secara eksperimental (δH , …,C ). Himpunan distribusi probabilitas kedua P 3 memperhitungkan kecenderungan intrinsik dari fragmen tiga asam amino berturut-turut (Q 1, Q 2, Q 3) untuk membentuk struktur sekunder yang diberikan (S 1, S 2, S 3). NS P 3 distribusi bertindak sebagai potensi pemulusan untuk meningkatkan akurasi tugas yang berasal dari pergeseran kimia saja melalui P δ distribusi.

Kecenderungan P 3 dihitung dengan mempertimbangkan semua struktur dalam database ASTRAL SCOP (35) yang memiliki <25% identitas urutan menurut klasifikasi struktur sekunder yang disediakan oleh program STRIDE (36). Untuk perhitungan probabilitas P δ, pergeseran kimia dihitung dengan menerapkan SHIFTX (17) ke kumpulan struktur yang sama untuk mendapatkan database ekstensif (3PRED-DB), yang terdiri dari 939.639 pergeseran kimia yang dihitung untuk setiap jenis atom.

Setelah probabilitas P 3 dan P δ diketahui, untuk kenyamanan komputasi mereka dapat disusun kembali menjadi energi semu sebagai Jadi, energi semu E dari tugas struktur sekunder S untuk protein urutan Q dan pergeseran kimia Δ dapat didekati sebagai Struktur sekunder yang paling mungkin S dan kecenderungan tunggal (P H, P B, P C) kemudian dihitung dengan merata-ratakan penugasan dengan fungsi pseudoenergi E. Kami menggunakan skema Monte Carlo di mana E diminimalkan dengan pencarian di ruang n-dimensi vektor S di mana pada setiap gerakan penetapan struktur sekunder dari satu asam amino diubah. Prediksi diperoleh dengan mempertimbangkan 10 6 langkah seperti itu pada suhu semu T = 1.

Prediksi Berbasis Pergeseran Kimia dari Pengekangan Dihedral: TOPOS.

Pada langkah kedua dari prosedur CHESHIRE, kecenderungan struktur sekunder yang dihitung oleh 3PRED digunakan sebagai input di TOPOS, sebuah algoritma berdasarkan pendekatan yang mirip dengan TALOS (2), untuk memprediksi sudut puntir tulang punggung yang paling sesuai dengan pergeseran kimia eksperimental. Di TOPOS, untuk setiap segmen protein dari tiga residu berpusat pada posisi Saya dalam urutan (target), kesamaan dengan triplet berpusat pada posisi J secara berurutan dalam database ASTRAL SCOP (sumber) dievaluasi dengan menghitung fungsi kesamaan (Saya, J) di mana adalah pergeseran kimia sekunder dari atom tertentu dari segmen protein sumber dan target, parameternya k H dan k S keduanya diatur ke 0,2, dan nilai parameter yang tersisa dan matriks kesamaan asam aminoTipeRes diambil dari Cornilescu dkk. (2). Istilah pertama dalam Persamaan. 3 mirip dengan fungsi penilaian TALOS, satu-satunya perbedaan substansial adalah bahwa kami tidak mempertimbangkan H N pergeseran kimia. Sebaliknya, istilah k S catatan P n+J(S n+J) adalah bias struktur sekunder yang ada di TOPOS tetapi tidak di TALOS. Untuk menghindari masalah overfitting karena penggunaan database yang terbatas, TOPOS menggunakan database ekstensif yang sama dari 3PRED.

Fragmen dengan skor tertinggi, biasanya 200-500, kemudian dikelompokkan bersama sesuai dengan jarak sudut torsi tulang punggung asam amino pusat. Akhirnya, rata-rata sudut dihedral dan untuk tiga kelompok skor terbaik dilaporkan sebagai prediksi.

Prediksi Struktur Fragmen.

Metode CHESHIRE didasarkan pada pendekatan penggantian fragmen molekul, yang telah terbukti berhasil untuk penentuan struktur protein dengan RDC (27) dan dalam ab initio penentuan struktur (37). Dalam metode ini, dua jenis fragmen, masing-masing dari tiga dan sembilan asam amino, dipilih dari database ASTRAL SCOP PDB. Fungsi penilaian memperhitungkan tiga kontribusi: (Saya) nilai E shift antara pergeseran kimia eksperimental dari fragmen protein yang dipertimbangkan dan pergeseran kimia struktur dalam database, (ii) nilai E restr untuk kompatibilitas dengan pengekangan sudut dihedral yang diperoleh dengan TOPOS, dan (aku aku aku) nilai E seksi untuk kecocokan antara struktur sekunder yang diprediksi dan struktur sekunder dari fragmen di mana bobotnya ditetapkan sebagai

Skor pergeseran kimia.

Skor pergeseran kimia yang digunakan dalam pemilihan fragmen mirip dengan skor yang digunakan oleh TOPOS, satu-satunya perbedaan adalah bahwa (Saya)TipeRes tidak termasuk dan (ii) efek residu Saya 1 dan Saya +1 pada residu Saya tidak diperhitungkan. di mana E menggeser(Saya, J) diberikan oleh

Skor pengekangan sudut dihedral.

Syarat E restr menghukum fragmen yang memiliki sudut puntir yang tidak sesuai dengan prediksi TOPOS. Sebuah fragmen kompatibel jika jaraknya, pada plot Ramachandran, dengan setidaknya salah satu nilai prediksi adalah <60°.

Skor struktur sekunder.

Skor struktur sekunder menghukum segmen basis data dengan struktur sekunder yang berbeda dari yang diprediksi oleh 3PRED: di mana P(S J, Saya) adalah probabilitas untuk memiliki penugasan struktur sekunder S J di posisi Saya.

Langkah prosedur CHESHIRE ini memberikan pada setiap posisi di sepanjang urutan sepuluh fragmen dengan panjang tiga dan lima fragmen dengan panjang sembilan. Fragmen ini digunakan untuk menghasilkan struktur resolusi rendah, seperti yang dijelaskan di bawah ini.

Generasi Struktur Resolusi Rendah.

Representasi molekuler.

Dalam generasi struktur resolusi rendah awal, representasi kasar dari rantai protein digunakan di mana hanya atom tulang punggung yang dimodelkan secara eksplisit (H, N, C , C′, O) rantai samping diwakili oleh satu C atom. Panjang dan sudut ikatan, dan sudut puntir tulang punggung dijaga tetap, sedangkan torsi dan diberikan kebebasan untuk bergerak.

Fungsi energi.

Fungsi energi yang digunakan untuk pembangkitan struktur resolusi rendah adalah kombinasi linear dari istilah-istilah yang memodelkan fitur-fitur berbeda dari protein terlipat: Dalam teks berikut, kami mengilustrasikan arti dari istilah-istilah energi ini.

Interaksi berpasangan.

E vdw, E listrik, dan E EEF1 model van der Waals, elektrostatik, dan solvasi, masing-masing. Dua yang pertama diadaptasi dari CHARMM PARAM19 (38) dan yang ketiga dari ref. 39. Potensi berpasangan dari gaya rata-rata E PMF diimplementasikan dengan menggunakan semua struktur PDB yang diketahui dalam database ASTRAL SCOP mengikuti Zhou dan Zhou (40).

Pengepakan struktur sekunder.

Untuk memodelkan pengemasan elemen struktur sekunder dengan benar, potensi Baker dan rekan kerja (41) (E SS, E NS, dan E HH) diimplementasikan.

Ikatan hidrogen kooperatif.

Istilah ini (E CHB) dilaksanakan sesuai dengan ref. 42 untuk mendukung pembentukan -sheets oleh -strands jauh secara berurutan.

Protokol pembuatan struktur.

Struktur resolusi rendah dihasilkan dengan menggunakan algoritma Monte Carlo yang dilakukan dalam ruang konfigurasi yang diperluas yang diberikan oleh produk Cartesian dari koordinat rantai protein dan string "struktur sekunder virtual" di mana n dan M adalah, masing-masing, jumlah atom dan asam amino dalam rantai protein. Ini M derajat kebebasan diskrit tambahan digunakan untuk menghidupkan dan mematikan istilah energi yang bergantung pada struktur sekunder protein.

Mulai dari rantai yang sepenuhnya diperpanjang, konformasi dihasilkan oleh 20.000 gerakan Monte Carlo menggunakan protokol anil yang disimulasikan. Dua jenis gerakan diterapkan. Dalam (substitusi fragmen) pertama, sudut puntir dan string struktur sekunder dalam jendela tiga atau sembilan residu yang dipilih secara acak dari rantai protein diganti dengan yang berasal dari fragmen struktur yang diketahui. Dalam gerakan kedua, tulang punggung lokal, sudut puntir, tetapi bukan struktur sekunder, dari jendela empat asam amino secara acak terganggu. Skor konformasi baru dihitung, dan langkah tersebut diterima sesuai dengan kriteria Metropolis. Untuk setiap protein yang dipelajari di sini, 10.000 struktur percobaan dihasilkan dengan cara ini.

Perbaikan.

Representasi molekuler.

Pada tahap ketiga dari prosedur CHESHIRE, semua atom, termasuk atom hidrogen polar, direpresentasikan secara eksplisit dari struktur percobaan yang dihasilkan dari tahap resolusi rendah sebelumnya. Pada fase pertama, panjang ikatan, sudut, dan sudut puntir tulang punggung dijaga tetap, sedangkan sudut puntir , , dan rantai samping dibiarkan bebas bergerak. Struktur kemudian dioptimalkan dengan menggunakan fungsi energi yang dijelaskan di bawah ini. Akhirnya, struktur skor terbaik disempurnakan lebih lanjut dengan minimalisasi berulang dan optimisasi rantai samping menggunakan perpustakaan rotamer Dunbrack dan Cohen (43).

Struktur awal diperoleh dengan menambahkan atom yang hilang ke struktur resolusi rendah sesuai dengan protokol berikut. (Saya) Rantai protein semua atom yang diperpanjang sepenuhnya dihasilkan dengan menggunakan geometri ideal. (ii) Sudut target dan diatur ke sudut rantai sumber. (aku aku aku) Minimisasi energi 10.000 langkah dilakukan untuk menghilangkan bentrokan sterik. (iv) Sebuah minimalisasi energi tambahan 10.000 langkah dilakukan dengan menahan jarak antar tulang punggung ke yang asli. (v) Minimisasi energi final sebanyak 10.000 langkah dilakukan tanpa pengekangan apapun.

Penyaringan struktur.

Semua struktur yang mengandung benturan sterik serta yang memiliki radius girasi lebih besar dari R maksimal = 2.83 × M 0,34 , dimana M adalah jumlah asam amino dalam protein (44), yang dibuang.

Fungsi energi.

Fungsi energi CHESHIRE adalah kombinasi dari istilah fisikokimia (E FF) dan istilah yang menjelaskan korelasi (C) antara pergeseran kimia eksperimental dan yang diprediksi: di mana E FF adalah medan gaya latar belakang yang diberikan oleh dan log(1 + C)capp diberikan oleh mana Di sini, corrx adalah korelasi antara percobaan dan pergeseran kimia yang dihitung kembali untuk atom tipe X, k Ha = 18, dan k n = k ca = k cb = 1. Istilah C dibatasi pada 3,5 untuk menghindari korelasi antara pergeseran kimia eksperimental dan perhitungan balik yang melebihi kesalahan SHIFTX. Dengan pilihan nilai ini, korelasi menjadi bias hingga mencapai ambang batas 0,8 untuk atom H dan 0,9 untuk atom N, C , dan C .

Medan gaya.

Semua istilah dalam E FF kecuali E hb didefinisikan sama dalam Persamaan. 10 NS E hb model istilah tulang punggung ikatan hidrogen mengikuti Kortemme dkk. (45).

Pembatasan korelasi pergeseran kimia.

Istilah korelasi pergeseran kimia C dibatasi pada 3,5 untuk menghindari korelasi antara pergeseran kimia eksperimental dan perhitungan balik yang lebih baik daripada kesalahan SHIFTX. Dengan pilihan nilai ini, korelasi menjadi bias hingga mencapai ambang batas 0,8 untuk atom H dan 0,9 untuk atom N, C , dan C .

Protokol pembuatan struktur.

Setelah penambahan atom rantai samping, E skor dari semua struktur dihitung, dan 500 struktur terbaik dipilih untuk penyempurnaan. Penyempurnaan terdiri dari simulasi anil Monte Carlo menjalankan 10.000 langkah. Penggunaan strategi Monte Carlo memungkinkan kita untuk menggunakan bias pada pergeseran kimia tanpa memerlukan turunan dari fungsi biaya seperti yang diperlukan dalam skema dinamika molekul. Setelah penyempurnaan, struktur diurutkan berdasarkan skornya, dan yang memiliki skor terbaik dipilih sebagai hasil akhir.


Tonton videonya: TEDxDelMar -. Ramachandran - Our Place in the Cosmos and What Makes Us Unique (Agustus 2022).