Informasi

Bagaimana kemungkinan urutan yang terjadi dengan BLAST dihitung?

Bagaimana kemungkinan urutan yang terjadi dengan BLAST dihitung?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Berapa probabilitas bahwa urutan nukleotida/asam amino yang diberikan akan terjadi di seluruh pencarian program database BLAST? Bagaimana probabilitas ini dihitung?


Menurut statistik dokumentasi BLAST dari penyelarasan urutan lokal, saat melakukan pencarian basis data, selesai

dengan memperlakukan database sebagai urutan panjang tunggal panjang N.

Oleh karena itu N adalah jumlah dari semua urutan dengan berbagai ukuran dari database yang diberikan.

Asumsi yang mendasarinya adalah bahwa

pertanyaan adalah sebuah prioritas lebih mungkin terkait dengan urutan panjang daripada urutan pendek, karena urutan panjang sering kali terdiri dari beberapa domain yang berbeda.

Untuk menghitung probabilitas, kita perlu memilih skema penilaian (untuk contoh tanpa celah: pilih penalti ketidakcocokan), yang untuk urutan kueri memberi kita skor signifikansi statistik $S$. Jumlah keberpihakan yang diharapkan dengan skor minimal $S$ mengikuti distribusi nilai ekstrim Gumbel:

$$ E = Kmncdot e^{-lambda S} $$

di mana M adalah panjang kueri, $n=N$ dan $K$ dan $lambda$ adalah parameter distribusi.

Sekali lagi, menurut dokumen dan referensinya, kemungkinan menemukan setidaknya satu seq seperti itu adalah $P=1-e^{-E_{(N)}}$, di mana $E_{(N)}$ adalah E-number untuk urutan N dan urutan kueri yang digabungkan.


Probabilitas adalah ukuran kemungkinan terjadinya suatu peristiwa. Itu dikuantifikasi sebagai angka antara 0 dan 1, dengan 1 menandakan kepastian, dan 0 menandakan bahwa peristiwa itu tidak dapat terjadi. Oleh karena itu, semakin tinggi probabilitas suatu peristiwa, semakin pasti bahwa peristiwa itu akan terjadi. Dalam kasus yang paling umum, probabilitas dapat didefinisikan secara numerik sebagai jumlah hasil yang diinginkan dibagi dengan jumlah total hasil. Hal ini lebih lanjut dipengaruhi oleh apakah peristiwa yang dipelajari adalah independen, saling eksklusif, atau kondisional, antara lain. Kalkulator yang disediakan menghitung probabilitas bahwa suatu peristiwa A atau B tidak terjadi, probabilitas A dan/atau B terjadi ketika keduanya tidak saling eksklusif, probabilitas bahwa kedua peristiwa A dan B terjadi, dan probabilitas bahwa salah satu peristiwa A atau peristiwa B terjadi, tetapi tidak keduanya.

Komplemen A dan B

Diberikan kemungkinan A, dilambangkan dengan P(A), mudah untuk menghitung komplemen, atau probabilitas bahwa peristiwa yang dijelaskan oleh P(A) tidak terjadi, P(A'). Jika misalnya P(A) = 0,65 menyatakan probabilitas Bob tidak mengerjakan pekerjaan rumahnya, gurunya Sally dapat memprediksi probabilitas Bob mengerjakan pekerjaan rumahnya sebagai berikut:

Dengan skenario ini, maka ada kemungkinan 35% Bob mengerjakan pekerjaan rumahnya. Setiap P(B') akan dihitung dengan cara yang sama, dan perlu dicatat bahwa dalam kalkulator di atas, dapat independen yaitu jika P(A) = 0,65, P(B) tidak harus sama 0.35, dan dapat sama dengan 0.30 atau nomor lain.

Persimpangan A dan B

Persimpangan peristiwa A dan B, ditulis sebagai P(A ∩ B) atau P(A DAN B) adalah peluang gabungan dari setidaknya dua peristiwa, yang ditunjukkan di bawah ini dalam diagram Venn. Dalam kasus di mana A dan B adalah peristiwa yang saling lepas, P(A ∩ B) = 0. Pertimbangkan kemungkinan pelemparan 4 dan 6 pada satu pelemparan sebuah dadu adalah tidak mungkin. Oleh karena itu, peristiwa-peristiwa ini akan dianggap saling eksklusif. Komputasi P(A ∩ B) sederhana jika kejadiannya bebas. Dalam hal ini, peluang kejadian A dan B dikalikan. Untuk mencari peluang dua pelemparan dadu yang terpisah menghasilkan 6 setiap kali:

Kalkulator yang disediakan mempertimbangkan kasus di mana probabilitasnya independen. Menghitung probabilitas sedikit lebih terlibat ketika kejadian bergantung, dan melibatkan pemahaman tentang probabilitas bersyarat, atau probabilitas kejadian. A mengingat peristiwa itu B telah terjadi, P(A|B). Ambil contoh sebuah kantong berisi 10 kelereng, 7 di antaranya berwarna hitam, dan 3 di antaranya berwarna biru. Hitung peluang terambilnya kelereng hitam jika kelereng biru diambil tanpa pengembalian (kelereng biru dikeluarkan dari kantong, mengurangi jumlah kelereng dalam kantong):

Peluang terambilnya kelereng biru:

Peluang terambilnya kelereng hitam:

Peluang terambilnya kelereng hitam jika diambil kelereng biru :

Seperti dapat dilihat, peluang terambilnya kelereng hitam dipengaruhi oleh kejadian sebelumnya dimana kelereng hitam atau biru terambil tanpa pengembalian. Jadi, jika seseorang ingin menentukan peluang mengambil kelereng biru dan kelereng hitam dari kantong:

Peluang terambilnya kelereng biru dan kemudian hitam dengan menggunakan peluang yang dihitung di atas:

Persatuan A dan B

Dalam probabilitas, penyatuan peristiwa, P(A U B), pada dasarnya melibatkan kondisi di mana salah satu atau semua peristiwa yang dipertimbangkan terjadi, ditunjukkan pada diagram Venn di bawah ini. Perhatikan bahwa P(A U B) dapat juga ditulis sebagai P(A ATAU B). Dalam hal ini, "ATAU inklusif" digunakan. Ini berarti bahwa sementara setidaknya salah satu kondisi dalam serikat harus benar, semua kondisi dapat secara bersamaan benar. Ada dua kasus untuk penyatuan peristiwa, peristiwa yang saling eksklusif, atau peristiwa yang tidak saling eksklusif. Dalam kasus di mana peristiwa saling eksklusif, perhitungan probabilitas lebih sederhana:

Contoh dasar dari peristiwa yang saling eksklusif adalah pelemparan dadu di mana peristiwa A adalah peluang terambilnya bilangan genap, dan kejadian B adalah peluang terambilnya bilangan ganjil. Jelas dalam kasus ini bahwa kejadian-kejadiannya saling lepas karena suatu bilangan tidak mungkin genap dan ganjil, jadi P(A U B) akan menjadi 3/6 + 3/6 = 1, karena dadu standar hanya memiliki angka ganjil dan genap.

Kalkulator di atas menghitung kasus lain, di mana peristiwa A dan B tidak saling eksklusif. Pada kasus ini:

Dengan menggunakan contoh pelemparan sebuah dadu lagi, carilah peluang terlemparnya sebuah bilangan genap atau bilangan yang merupakan kelipatan dari 3. Di sini himpunan diwakili oleh 6 nilai dadu, ditulis sebagai:

S =
Peluang munculnya bilangan genap:P(A) = <2,4,6>= 3/6
Peluang kelipatan 3:P(B) = <3,6>= 2/6
Persimpangan A dan B: P(A ∩ B) = <6>= 1/6
P(A U B) = 3/6 + 2/6 -1/6 = 2/3

Eksklusif OR dari A dan B

Skenario lain yang mungkin yang dihitung oleh kalkulator di atas adalah P(A XOR B), ditunjukkan pada diagram Venn di bawah ini. Operasi "Eksklusif ATAU" didefinisikan sebagai peristiwa A atau B terjadi, tetapi tidak secara bersamaan. Persamaannya adalah sebagai berikut:

Sebagai contoh, bayangkan itu adalah Halloween, dan dua ember permen diletakkan di luar rumah, satu berisi Snickers, dan yang lainnya berisi Reese. Beberapa tanda neon berkedip ditempatkan di sekitar ember permen bersikeras bahwa setiap trik-atau-treater hanya membutuhkan satu Snickers ATAU Reese tetapi tidak keduanya! Namun tidak mungkin, bahwa setiap anak mematuhi tanda-tanda neon yang berkedip. Mengingat kemungkinan Reese terpilih sebagai P(A) = 0,65, atau Snickers dipilih dengan P(B) = 0,349, dan P(tidak mungkin) = 0,001 bahwa seorang anak menahan diri sambil mempertimbangkan kerugian dari rongga potensial di masa depan, hitung probabilitas bahwa Snickers atau Reese dipilih, tetapi tidak keduanya:

0.65 + 0.349 - 2 × 0.65 × 0.349 = 0.999 - 0.4537 = 0.5453

Oleh karena itu, ada kemungkinan 54,53% bahwa Snickers atau Reese dipilih, tetapi tidak keduanya.


Bagaimana Menggabungkan Peluang Dua Kejadian

Probabilitas suatu peristiwa adalah peluang bahwa peristiwa itu akan terjadi dalam situasi tertentu. Probabilitas mendapatkan "ekor" pada satu lemparan koin, misalnya, adalah 50 persen, meskipun dalam statistik nilai probabilitas seperti itu biasanya ditulis dalam format desimal sebagai 0,50. Nilai probabilitas individu dari beberapa peristiwa dapat digabungkan untuk menentukan probabilitas urutan kejadian tertentu yang terjadi. Namun, untuk melakukannya, Anda harus tahu apakah peristiwa itu independen atau tidak.

Pertama, tonton video di bawah ini untuk penyegaran cepat tentang probabilitas dasar:

  1. Tentukan peluang individu (P) dari setiap kejadian yang akan digabungkan. Hitung rasio m/M di mana m adalah jumlah hasil yang terjadi pada peristiwa yang diinginkan dan M adalah semua hasil yang mungkin. Misalnya, peluang munculnya angka enam pada satu lemparan dadu dapat dihitung dengan menggunakan m = 1 (karena hanya satu wajah yang menghasilkan enam) dan M = 6 (karena ada enam kemungkinan wajah yang muncul) untuk P = 1/6 atau 0,167.
  2. Tentukan apakah dua peristiwa individu independen atau tidak. Peristiwa independen tidak dipengaruhi satu sama lain. Probabilitas kepala pada lemparan koin, misalnya, tidak dipengaruhi oleh hasil lemparan koin yang sama sebelumnya dan begitu juga independen.
  3. Tentukan apakah kejadian-kejadian tersebut saling bebas. Jika tidak, sesuaikan probabilitas kejadian kedua untuk mencerminkan kondisi yang ditentukan untuk kejadian pertama. Misalnya, jika ada tiga tombol -- satu hijau, satu kuning, satu merah -- Anda mungkin ingin mencari peluang terambilnya tombol merah dan kemudian tombol hijau. P untuk memilih tombol merah pertama adalah 1/3 tetapi P untuk memilih tombol kedua hijau adalah 1/2 karena satu tombol sekarang hilang.
  4. Kalikan probabilitas individu dari dua peristiwa bersama-sama untuk mendapatkan probabilitas gabungan. Dalam contoh tombol, probabilitas gabungan untuk memilih tombol merah terlebih dahulu dan tombol hijau kedua adalah P = (1/3)(1/2) = 1/6 atau 0,167.

Tip: Pendekatan yang sama ini dapat digunakan untuk mencari peluang lebih dari dua kejadian.


Bagaimana Menghitung Probabilitas

Artikel ini ditulis bersama oleh Mario Banuelos, Ph.D. Mario Banuelos adalah Asisten Profesor Matematika di California State University, Fresno. Dengan pengalaman mengajar lebih dari delapan tahun, Mario berspesialisasi dalam biologi matematika, pengoptimalan, model statistik untuk evolusi genom, dan ilmu data. Mario meraih gelar BA dalam bidang Matematika dari California State University, Fresno, dan Ph.D. dalam Matematika Terapan dari University of California, Merced. Mario telah mengajar di tingkat sekolah menengah dan perguruan tinggi.

Ada 15 referensi yang dikutip dalam artikel ini, yang dapat ditemukan di bagian bawah halaman.

wikiHow menandai artikel sebagai disetujui pembaca setelah menerima cukup banyak umpan balik positif. Dalam hal ini, beberapa pembaca telah menulis untuk memberi tahu kami bahwa artikel ini bermanfaat bagi mereka, menjadikannya status yang disetujui pembaca kami.

Artikel ini telah dilihat 2.814.300 kali.

Saat Anda menghitung probabilitas, Anda mencoba mencari tahu kemungkinan terjadinya peristiwa tertentu, dengan sejumlah upaya tertentu. [1] X Sumber penelitian Probabilitas adalah kemungkinan terjadinya suatu peristiwa tertentu dan kita dapat mencari peluang suatu peristiwa menggunakan rasio jumlah hasil yang menguntungkan / jumlah total hasil. Menghitung probabilitas beberapa peristiwa adalah masalah memecah masalah menjadi probabilitas terpisah dan mengalikan kemungkinan terpisah satu sama lain.


Probabilitas yang lebih kompleks

Anda tahu bagaimana mereka mengatakan bahwa uang dapat membelikan Anda kebahagiaan? Yah, mungkin benar itu ada kalanya koin tidak cukup jika Anda ingin menghitung kemungkinan sesuatu terjadi. Jika masalah Anda masih berada di bawah payung probabilitas klasik - artinya Anda dapat menentukan berapa banyak hasil sukses yang ada dan berapa banyak kemungkinan yang ada secara umum - maka rumus probabilitas lempar koin dari bagian pertama akan bekerja dengan baik. Jika Anda mencari peluang untuk memenangkan lotre atau bertahan hidup di pulau terpencil, maka segalanya mulai menjadi lebih rumit daripada probabilitas lempar koin sederhana. Lihat bagian statistik kami untuk membantu Anda dalam perjalanan Anda dalam mencari kemungkinan yang paling mungkin!


Bagaimana kemungkinan urutan yang terjadi dengan BLAST dihitung? - Biologi

Keranjang Anda saat ini kosong. i <p>Saat menelusuri protein UniProt yang berbeda, Anda dapat menggunakan 'keranjang' untuk menyimpannya, sehingga Anda dapat kembali untuk menemukan atau menganalisisnya nanti.<p><a href='/help/basket' target='_top'> Lagi. </a></p>

Pilih item dan klik "Tambahkan ke keranjang" untuk membuat koleksi Anda sendiri di sini
(maks. 400 entri)

Pencarian kesamaan urutan

Terakhir diubah 30 April 2021

Pilih Ledakan tab toolbar untuk menjalankan pencarian kesamaan urutan dengan program BLAST (Basic Local Alignment Search Tool):

  1. Masukkan urutan protein atau nukleotida (urutan mentah atau format fasta) atau pengidentifikasi UniProt ke dalam bidang formulir.
  2. Klik Ledakan tombol.

Jenis pengidentifikasi UniProt berikut ini didukung:

P00750Entri UniProtKB
P00750-2Urutan isoform entri UniProtKB
P00750[1-20]Bagian dari urutan entri UniProtKB, dari residu asam amino ke-1 hingga ke-20 (inklusif)
A4_MANUSIANama entri UniProtKB
UPI0000000001Entri UniParc
UniRef100_P00750entri UniRef

Jika Anda memilih Ledakan tab bilah alat dari halaman entri UniProtKB, UniRef atau UniParc, urutan saat ini sudah diisi sebelumnya dalam formulir.


Aturan Perkalian untuk Kejadian Independen (Aturan Enam)

Kami sekarang beralih ke aturan untuk menghitung

dimulai dengan aturan perkalian untuk kejadian independen.

Menggunakan diagram Venn, kita dapat memvisualisasikan “A dan B,” yang diwakili oleh tumpang tindih antara peristiwa A dan B:

Aturan Probabilitas Enam (Aturan Perkalian untuk Kejadian Independen):

  • Ketika berhadapan dengan probabilitas aturan, kata “dan” akan selalu dikaitkan dengan operasi perkalian maka nama aturan ini, “Aturan Perkalian.”

Acara Saling Eksklusif dan Non-Eksklusif

Acara yang saling eksklusif adalah peristiwa yang tidak dapat terjadi bersama-sama. Misalnya dalam pelemparan sebuah dadu, angka 5 dan angka 6 bisa muncul bersamaan. Contoh lain adalah memetik permen berwarna dari stoples. jika suatu peristiwa memetik manisan merah, dan peristiwa lain memetik manisan biru, jika manisan biru dipetik, bisa juga manis merah dan sebaliknya.

Acara mutual non-eksklusifs adalah peristiwa yang dapat terjadi bersama-sama. Misalnya ketika kartu diambil dari paket dan acaranya adalah kartu hitam atau kartu as. Jika diambil hitam, ini tidak mengecualikannya dari kartu as. Demikian pula jika kartu as diambil, ini tidak mengecualikannya dari kartu hitam.


Pentingnya Myc, Max, dan Protein Gila

Jaringan transkripsi Myc-Max-Mad protein bHLH sangat penting untuk mengontrol pertumbuhan sel, proliferasi, diferensiasi, dan apoptosis (2-6). Myco adalah onkogen mapan yang ekspresi deregulasi bertanggung jawab untuk berbagai kanker manusia. Sekitar 70.000 kematian akibat kanker di A.S. setiap tahun timbul dari kesalahan pengaturan Myco. Interaksi protein-protein dengan Max adalah elemen kunci dalam berfungsinya jaringan faktor transkripsi Myc-Max-Mad. Heterodimer Mad-Max menekan ekspresi Myco dan memulai diferensiasi. Meskipun mampu melakukan homodimerisasi yang lemah, fungsi Myc yang tepat membutuhkan heterodimerisasi dengan Max (7). Upaya ekstensif telah berusaha untuk mengisolasi onkoprotein ini dalam berbagai organisme dengan menggunakan pendekatan molekuler dan komputasi. Memang, pengembangan motif prediktif untuk protein bHLH (1) telah sangat berhasil bila diterapkan pada beragam kelompok seperti Ascidian, Drosophila, cacing, dan tumbuhan (8-12).

Setidaknya enam jenis protein Myc mencerminkan garis keturunan evolusi yang terpisah (W.R.A., data tidak dipublikasikan). Yang paling banyak dipelajari adalah c-Myc, homolog seluler dengan onkoprotein virus (v-Myc) dari retrovirus myelocytomatosis burung (13). Selain itu, keluarga Myc termasuk L-Myc, N-Myc, S-Myc, dan B-Myc, yang diekspresikan dengan cara spesifik jaringan (5). L-Myc dikaitkan dengan karsinoma paru-paru, sedangkan N-Myc dikaitkan dengan neuroblastoma (13). B- dan S-Myc menunjukkan lebih banyak urutan dan perbedaan fungsional daripada c-, L-, dan N-Myc. B-Myc homolog dengan domain transaktivasi terminal-N tetapi tidak memiliki domain dimerisasi bHLH. Kami menganggap Myc dari protostoma (Drosophila dan Anopheles) sebagai clade terpisah dari garis keturunan deuterostoma karena atribut urutan divergen masing-masing kelompok (14).


Glosarium

Daftar istilah berikut memiliki beberapa definisi yang dipinjam dari glosarium di NCBI, yang lain asli, dan beberapa telah diambil dari buku, sebagaimana ditunjukkan satu per satu. Gambar, jika tidak asli, dipinjam dari University of Washington di: http://www.cs.washington.edu/education/courses/590bi/98wi .

Indeks Cepat: A-B, C-D, E-F, G-H, I-J, K-L, M-N, O-P, Q-R, S-T, U-Z.
Nomor Aksesi Kode unik yang mengidentifikasi urutan dalam database. Untuk pengguna yang lebih mahir, nomor aksesi utama adalah kunci utama dari sebuah tabel di database relasional genbank. Nomor aksesi sekunder adalah kode lain yang juga mengidentifikasi urutan tetapi tidak lagi digunakan sebagai kode utama. Nomor aksesi mungkin memiliki nomor versi terlampir di bagian akhir jika urutannya telah diperbarui (yaitu jika lebih banyak urutan telah ditambahkan ke dalamnya, atau dikoreksi). Nomor aksesi membawa pengguna ke urutan dalam bentuk terbaru (versi terbaru). Ini berbeda dengan gi-number.
Penyelarasan Proses penjajaran dua atau lebih sekuens untuk mencapai tingkat identitas yang maksimal (dan konservasi, dalam hal sekuens asam amino) untuk tujuan menilai tingkat kesamaan dan kemungkinan homologi. Lihat contoh sederhana dari penyelarasan huruf:

algoritma Prosedur tetap yang diwujudkan dalam program komputer. Dari buku Gusfield: "Deskripsi tingkat tinggi tentang cara mekanistik untuk memecahkan masalah atau menghitung suatu fungsi."
ASN.1 Dalam konteks NCBI, ASN.1 adalah representasi dari semua informasi yang menyertai urutan biologis (urutan molekul DNA-RNA-protein, bersama dengan semua data lain seperti penulis, tanggal, anotasi, dll), tetapi bertentangan dengan format GENBANK, ASN1 cocok untuk parsing oleh mesin (memanipulasi data) dan kurang tepat untuk dibaca manusia. ASN1 adalah standar untuk transmisi informasi, dan tidak terbatas pada informasi biologis, sebenarnya standar ini telah lama digunakan oleh industri telekomunikasi.
Bioinformatika Penggabungan bioteknologi dan teknologi informasi dengan tujuan mengungkap wawasan dan prinsip baru dalam biologi.
LEDAKAN Basik Lokal Aligamen Stelinga Tol. ( Altschul et al.) Sebuah algoritma perbandingan urutan dioptimalkan untuk kecepatan yang digunakan untuk mencari database urutan untuk keberpihakan lokal yang optimal untuk query. Pencarian awal dilakukan untuk kata dengan panjang "W" yang mendapat skor setidaknya "T" jika dibandingkan dengan kueri menggunakan matriks substitusi. Hit kata kemudian diperpanjang di kedua arah dalam upaya untuk menghasilkan keselarasan dengan skor melebihi ambang batas "S". Parameter "T" menentukan kecepatan dan sensitivitas pencarian. Untuk detail tambahan, lihat salah satu tutorial BLAST.
Skor bit Nilai S' diturunkan dari skor keselarasan mentah S di mana sifat statistik dari sistem penilaian yang digunakan telah diperhitungkan. Karena skor bit telah dinormalisasi sehubungan dengan sistem penilaian, mereka dapat digunakan untuk membandingkan skor keselarasan dari pencarian yang berbeda.
BLOSUM Block Sulembaga Matriks. Matriks substitusi di mana skor untuk setiap posisi diturunkan dari pengamatan dari frekuensi substitusi di blok keberpihakan lokal dalam protein terkait. Setiap matriks disesuaikan dengan jarak evolusioner tertentu. Dalam matriks BLOSUM62, misalnya, penyelarasan dari mana skor diturunkan dibuat menggunakan sekuens yang berbagi identitas tidak lebih dari 62%. Urutan yang lebih identik dari 62% diwakili oleh urutan tunggal dalam penyelarasan untuk menghindari pembobotan berlebihan pada anggota keluarga yang terkait erat. (Henikoff dan Henikoff)
Klien
Komputer, atau perangkat lunak yang berjalan di komputer, yang berinteraksi dengan komputer lain di situs jarak jauh (server). Konsep ini berbeda dengan "pengguna".
Konservasi Perubahan pada posisi tertentu dari asam amino atau (lebih jarang, DNA) urutan yang mempertahankan sifat fisiko-kimia dari residu asli.
Pemrograman dinamis Pemrograman dinamis adalah teknik optimasi yang sangat umum yang dapat diterapkan pada masalah yang dapat dibagi lagi menjadi submasalah serupa dengan ukuran yang lebih kecil sehingga solusi untuk masalah yang lebih besar dapat diperoleh dengan menggabungkan solusi ke submasalah. Metode "membagi dan menaklukkan" ini sering digunakan untuk menyelesaikan masalah keselarasan.

Dari http://www.mpri.lsu.edu/Chapter7.htm : "Pemrograman dinamis mengubah masalah optimasi yang besar dan rumit menjadi serangkaian masalah kecil yang saling berhubungan, masing-masing hanya berisi beberapa variabel. Hasilnya adalah serangkaian optimasi parsial membutuhkan upaya yang dikurangi untuk menemukan yang optimal".
Domain Porsi protein yang terpisah yang diasumsikan terlipat secara independen dari sisa protein dan memiliki fungsinya sendiri.
DEBU Sebuah program untuk menyaring daerah kompleksitas rendah dari urutan asam nukleat.
nilai E Nilai harapan. Jumlah align berbeda dengan skor yang setara atau lebih baik dari S yang diharapkan terjadi dalam pencarian database secara kebetulan. Semakin rendah nilai E, semakin signifikan skornya.
Est Singkatan dari "Expressed Sequence Tag", urutan dari salah satu ujung (baik dari ujung 5' dari 3') dari klon ekspresi, seperti klon cDNA dari perpustakaan ekspresi (snapshot mRNA dari jaringan pada waktu tertentu waktu dalam pengembangan).
Dengan sifat teknologi saat ini, urutan EST jarang mencakup urutan insert penuh. Tren sekarang adalah mengurutkan dari kedua ujung klon (dan bila memungkinkan, untuk mendapatkan seluruh urutan sisipan).
EST juga menyediakan posisi penanda dalam peta genom (ketika dipetakan dengan pemetaan frekuensi rekombinasi) dan dalam peta fisik (ketika dipetakan dengan amplifikasi PCR dari atau hibridisasi ke satu set klon besar yang dipesan) dengan cara yang analog dengan penanda STS dengan keuntungan bahwa EST adalah tautan langsung ke gen yang diekspresikan.
Urutan EST publik disimpan dalam database dbEST di Genbank.
CEPAT Algoritma pertama yang banyak digunakan untuk pencarian kesamaan basis data. Program mencari keberpihakan lokal yang optimal dengan memindai urutan kecocokan kecil yang disebut "kata". Awalnya, skor segmen di mana terdapat beberapa klik kata dihitung ("init1"). Kemudian skor dari beberapa segmen dapat dijumlahkan untuk menghasilkan skor "initn". Penyelarasan yang dioptimalkan yang mencakup celah ditampilkan dalam output sebagai "opt". Sensitivitas dan kecepatan pencarian berbanding terbalik dan dikendalikan oleh variabel "k-tup" yang menentukan ukuran "kata". (Pearson dan Lipman)
Penyaringan Juga dikenal sebagai Masking. Proses menyembunyikan daerah urutan (asam nukleat atau asam amino) yang memiliki karakteristik yang sering menyebabkan skor tinggi palsu. Lihat SEG dan DEBU.
Celah Ruang yang dimasukkan ke dalam penyelarasan untuk mengkompensasi penyisipan dan penghapusan dalam satu urutan relatif terhadap urutan lainnya. Untuk mencegah akumulasi terlalu banyak kesenjangan dalam keselarasan, pengenalan kesenjangan menyebabkan pengurangan jumlah tetap (skor kesenjangan) dari skor keselarasan. Perpanjangan celah untuk mencakup nukleotida tambahan atau asam amino juga dihukum dalam penilaian keselarasan.
GI-nomor Gi-nomor, seperti nomor aksesi, adalah pengidentifikasi unik untuk urutan tertentu. Gi-number membawa pengguna ke urutan dalam keadaannya ketika dimasukkan atau dimodifikasi. Setiap kali urutan diperbarui, ia mempertahankan nomor aksesinya (dengan nomor versi baru terlampir) tetapi menerima a BARU gi-number yang mewakili status barunya. Beberapa urutan yang telah diperbarui memiliki "riwayat" lebih dari satu gi-number, dan status urutan yang berbeda dapat diambil.
Keselarasan Global Penjajaran dua asam nukleat atau urutan protein di seluruh panjangnya.
H H adalah entropi relatif dari target dan frekuensi residu latar belakang. (Karlin dan Altschul, 1990). H dapat dianggap sebagai ukuran informasi rata-rata (dalam bit) yang tersedia per posisi yang membedakan keselarasan dari kebetulan. Pada nilai H yang tinggi, penjajaran yang pendek dapat dibedakan secara kebetulan, sedangkan pada nilai H yang lebih rendah, penjajaran yang lebih panjang mungkin diperlukan. (Altschul, 1991)
Heuristis Heuristik dalam definisi yang sangat disederhanakan, adalah prosedur yang memperoleh aproksimasi ke jawaban nyata dari suatu masalah dengan cara yang lebih ekonomis atau lebih cepat daripada menggunakan algoritma "ketat" yang lebih matematis. Namun, mendapatkan jawaban "Benar" tidak dijamin 100%.
Dalam ilmu komputer, heuristik diterapkan ketika menemukan solusi yang tepat untuk suatu masalah melalui algoritma yang ketat secara komputasi tidak praktis.
Homologi Kesamaan yang dikaitkan dengan keturunan dari nenek moyang yang sama. Bandingkan ini dengan "homoplasti". Dari definisi lain di tempat lain (Virginia Tech, Dept of Biochem): Seseorang harus menyadari bahwa homologi tidak selalu menyiratkan kesamaan. Homologi memiliki definisi yang tepat: memiliki asal usul evolusi yang sama. Dengan demikian, homologi adalah deskripsi kualitatif tentang sifat hubungan antara dua hal atau lebih, dan tidak dapat parsial. Entah ada hubungan evolusioner atau tidak. Pernyataan homologi biasanya harus tetap menjadi hipotesis. Data pendukung untuk hubungan homolog dapat mencakup urutan atau kesamaan tiga dimensi, hubungan di antaranya dapat dijelaskan dalam istilah kuantitatif. Pengamatan penting dalam pemodelan homologi adalah bahwa untuk satu set protein yang dihipotesiskan menjadi homolog, struktur tiga dimensinya dipertahankan lebih besar daripada struktur utamanya. Pengamatan ini telah digunakan untuk menghasilkan model protein dari homolog dengan kesamaan urutan yang sangat rendah. Jadi, dalam pemodelan homologi, kami mencoba mengembangkan model yang tidak diketahui dari protein homolog. Protein ini akan memiliki beberapa ukuran kesamaan urutan tetapi kami mengandalkan konservasi lipatan di antara homolog untuk memandu kami juga.
Homoplasti Kesamaan yang telah berkembang secara independen dan tidak menunjukkan nenek moyang yang sama.
HSP Pasangan segmen dengan skor tinggi. Penjajaran lokal tanpa celah yang mencapai salah satu skor penyelarasan teratas dalam pencarian tertentu.
Identitas Sejauh mana dua urutan (nukleotida atau asam amino) tidak berubah.
K Parameter statistik yang digunakan dalam menghitung skor BLAST yang dapat dianggap sebagai skala alami untuk ukuran ruang pencarian. Nilai K digunakan untuk mengubah skor mentah (S) menjadi skor bit (S').
lambda Parameter statistik yang digunakan dalam menghitung skor BLAST yang dapat dianggap sebagai skala alami untuk sistem penilaian. Nilai lambda digunakan dalam mengonversi skor mentah (S) menjadi skor bit (S').
Keselarasan Lokal Penjajaran beberapa bagian dari dua asam nukleat atau sekuens protein
Wilayah Kompleksitas Rendah (LCR) Wilayah komposisi bias termasuk proses homopolimer, pengulangan periode pendek, dan representasi berlebihan yang lebih halus dari satu atau beberapa residu. Program SEG digunakan untuk menutupi atau memfilter LCR dalam kueri asam amino. Program DUST digunakan untuk menutupi atau memfilter LCR dalam kueri asam nukleat.
penyamaran Juga dikenal sebagai Penyaringan. Penghapusan daerah kompleksitas berulang atau rendah dari urutan untuk meningkatkan sensitivitas pencarian kesamaan urutan yang dilakukan dengan urutan itu.
Motif Daerah konservasi pendek dalam urutan protein. Motif seringkali merupakan bagian dari domain protein yang sangat terkonservasi.
Penyelarasan Beberapa Urutan Penjajaran tiga atau lebih sekuens dengan celah yang disisipkan dalam sekuens sedemikian rupa sehingga residu dengan posisi struktural yang sama dan/atau residu leluhur disejajarkan dalam kolom yang sama. Clustal W adalah salah satu program multiple sequence alignment yang paling banyak digunakan. Lihat contoh sederhana dengan tiga string huruf


Penjajaran Optimal Penjajaran dua atau lebih urutan dengan skor setinggi mungkin.
ortologis Urutan homolog dalam spesies berbeda yang muncul dari gen nenek moyang yang sama selama spesiasi mungkin atau mungkin tidak bertanggung jawab untuk fungsi yang sama. INGAT: pemisahan dua urutan karena peristiwa SPESIASI.
nilai P Probabilitas keselarasan yang terjadi dengan skor yang bersangkutan atau lebih baik. Nilai p dihitung dengan menghubungkan skor keselarasan yang diamati, S, dengan distribusi skor HSP yang diharapkan dari perbandingan urutan acak dengan panjang dan komposisi yang sama dengan kueri ke database. Nilai P yang paling signifikan adalah yang mendekati 0. Nilai P dan nilai E adalah cara berbeda untuk merepresentasikan signifikansi penyelarasan.
PAM Persen Diterima Mutasi. Sebuah unit yang diperkenalkan oleh Dayhoff et al. untuk mengukur jumlah perubahan evolusioner dalam urutan protein. 1,0 unit PAM, adalah jumlah evolusi yang akan mengubah rata-rata 1% asam amino dalam urutan protein. Matriks substitusi PAM(x) adalah tabel pencarian di mana skor untuk setiap substitusi asam amino telah dihitung berdasarkan frekuensi substitusi tersebut pada protein terkait erat yang telah mengalami sejumlah (x) divergensi evolusioner.
Paralog Urutan homolog dalam satu spesies yang muncul dengan duplikasi gen.
Profil Tabel yang mencantumkan frekuensi masing-masing asam amino pada setiap posisi urutan protein. Frekuensi dihitung dari beberapa keberpihakan urutan yang berisi domain yang diinginkan. Lihat juga PSSM.

Proteomik Analisis sistematis ekspresi protein jaringan normal dan sakit yang melibatkan pemisahan, identifikasi dan karakterisasi semua protein dalam suatu organisme.
PSI-BLAST Pposisi-Sspesifik SayaBLAST teratif. Pencarian berulang menggunakan algoritma BLAST. Profil dibuat setelah pencarian awal, yang kemudian digunakan dalam pencarian berikutnya. Proses dapat diulang, jika diinginkan dengan urutan baru yang ditemukan di setiap siklus yang digunakan untuk memperbaiki profil. Detailnya dapat ditemukan dalam diskusi PSI-BLAST ini. (Altschul dkk.)
PSSM Matriks penilaian khusus posisi lihat profil. PSSM memberikan skor log-peluang untuk menemukan asam amino tertentu yang cocok dalam urutan target.
Pertanyaan Urutan input (atau jenis istilah pencarian lainnya) yang dengannya semua entri dalam database akan dibandingkan.
Skor mentah Skor keselarasan, S, dihitung sebagai jumlah skor substitusi dan gap. Skor substitusi diberikan oleh tabel pencarian (lihat PAM, BLOSUM). Skor celah biasanya dihitung sebagai jumlah G, penalti pembukaan celah dan L, penalti perpanjangan celah. Untuk celah dengan panjang n, biaya celah adalah G+Ln. Pilihan biaya kesenjangan, G dan L adalah empiris, tetapi biasanya memilih nilai tinggi untuk G (10-15) dan nilai rendah untuk L (1-2).
Bingkai Baca Dari buku Gusfield: "Salah satu dari tiga tempat untuk mulai membaca ketika menerjemahkan string dari alfabet DNA ke dalam alfabet asam amino. Jika arah string juga tidak ditetapkan, maka mengacu pada salah satu dari enam kerangka bacaan". (Tiga dari masing-masing untai yang berlawanan).

Frame perlu dipertahankan untuk menghasilkan urutan asam amino yang tepat: Mutasi penyisipan/penghapusan dapat menyebabkan frame bergeser dan memiliki salah satu dari beberapa konsekuensi, misalnya: 1) dapat mengubah pembacaan asli kodon, menghasilkan urutan asam amino baru atau/dan 2) mungkin memperkenalkan stop condon baru, sehingga menciptakan protein terpotong atau, tergantung di mana mutasi terjadi, itu dapat sepenuhnya memblokir terjemahan.
SEG Sebuah program untuk menyaring daerah kompleksitas rendah dalam urutan asam amino. Residu yang telah ditutupi direpresentasikan sebagai "X" dalam keselarasan. Pemfilteran SEG dilakukan secara default di subrutin blastp BLAST 2.0. (Wootton dan Federhen)
Mutasi diam Dari buku Gusfield: "Mutasi pada kodon DNA yang tidak mengubah asam amino yang ditentukan. Paling sering, mutasi diam terjadi pada nukleotida ketiga di kondon."
Kesamaan Sejauh mana urutan nukleotida atau protein terkait. Besarnya kemiripan antara dua sekuen dapat didasarkan pada persen identitas sekuen dan/atau konservasi. Dalam BLAST kesamaan mengacu pada skor matriks positif.
Urutan Single-Pass Single pass means that a sequence has been analized on the sequencer machine only once. Generally, when the researcher is looking for the precise sequence of a clone, the sequencing reaction is served serveral times, each at a different time interval and in a separate lane of the sequencing gel. This is to produce an overlaping series of reads (all coming from the same clone and same reaction) that is used both to corroborate the sequence (by depth provided by overlap) and to extend beyond the natural length achievable in one lane by the size of the gel and by band distorsions at the bottom of the gel. It is sometimes called walking reads in a directed approach (new primers can be designed from the learned sequence to amplify and continue the walking).

Single pass is avoiding all these expensive checkups, and a reaction is loaded only one time in one lane, meaning that only one sample sequence is obtained from a given clone. Instead it relies in finding random overlaps with other clones in a shotgun sequencing approach. NOTE: In this past definition, I assume that a single lane is enough to see all four bases, as in multiplexed gel loading.
Rangkaian An ordered sequence of letters from a given alphabet. A substring is defined as a contigous subset (portion) of a string.
Sequence Tagged Site (STS) From Gusfield's book: "Roughly, a short DNA sequence that occurs only once in the genome. More exactly, a pair of PCR primers within a bounded distance, with the property that PCR succeeds using them at only one location in the genome. STS provide markers throughout the genome, but they need not be located in genes, in contrast to ESTs".
Substitution The presence of a non-identical amino acid at a given position in an alignment. If the aligned residues have similar physico-chemical properties the substitution is said to be "conservative".
Substitution Matrix A substitution matrix containing values proportional to the probability that amino acid i mutates into amino acid j for all pairs of amino acids. such matrices are constructed by assembling a large and diverse sample of verified pairwise alignments of amino acids. If the sample is large enough to be statistically significant, the resulting matrices should reflect the true probabilities of mutations occuring through a period of evolution.
Unitary Matrix Also known as Identity Matrix. A scoring system in which only identical characters receive a positive score.