Questa sezione richiede di fine-tuning in conformità con le raccomandazioni edycyjnymi.
Deve migliorare: imperfetto che incitano la en.wiki, niepolskie note a piè di pagina, non del testo.
Per informazioni più dettagliate su ciò che deve migliorare, essere il caso può essere trovato a pagina discussione di questo articolo nella fine-tuning
Una volta uscito imperfezioni nella parte superiore, si prega di non consentire il modello (()) trim dal codice di questo articolo.
In bioinformatyce, per regolare la successione è un modo per abbinare la struttura primaria del DNA, RNA, proteine o per identificare le regioni mostrando parallelismo, che può essere una conseguenza della funzionali, strutturali, o evolutivo rapporto tra le sequenze. Disposti sequenze di nucleotidi o amminoacidi sono generalmente presentati in una matrice di righe. Il resto sono iscritti nel bel mezzo di una pausa, diritto che il resto della sequenza simile a ogni altra forma la prossima colonna.
Partita sequenza, in prossimità del programma di aiuti ClustalW, due proteine umane con il dito di zinco motivo. (Immagine: Zinco-dito-ss-alignment2.png)
Se la coppia ha trovato le sequenze hanno origini comuni, disallineamenti può essere interpretato come mutazioni puntiformi, e si rompe come indele (mutazione o la soppressione di insercji), che si è verificato in uno o due righe dal momento in cui entrambi i gruppi poskromiony frazionamento. In caso di corrispondenza delle sequenze di proteine, aminoacidi metà del volume di somiglianza coinvolto un punto specifico, il caso ha istituito una misura di greggio in cui il conservatore non è fisso o incentivo. Privazione di sostituzione o la frequenza solo sostituzioni conservatore (vale a dire convertire il resto ad un altro, ma con proprietà chimiche simili) ad una specifica sequenza della regione suggerisce che è importante strutturale o funzionale. Abbinamento una sequenza presumibilmente essere utilizzato per salvare la sequenza di biologico, come ad esempio i dati finanziari o sequenza trovati in lingue naturali.
Molto brevi o molto simili sequenze possono essere abbinati a mano. Ma molto spesso è necessario l'idoneità di un certo numero di molto lungo e variabile sequenze, che non possono essere indirizzate solo a, e solo sforzo umano. In cambio, il ceppo è inserita nel funzionamento degli algoritmi per consentire di alta qualità corrispondono, o l'introduzione di emendamenti a quella ottenuta nella produzione dei risultati (in particolare nel caso di sequenze nucleotidiche). In generale, l'approccio di calcolo corrispondenti sequenze possono essere di due tipi: globale e locale, le partite partite. Calcolo del locale partita è una forma di ottimizzazione globale, che deve essere conservato in idoneità abbracciare l'intero tratto di analizzare tutte le sequenze. Al contrario, l'adeguamento dei locali individuare le regioni simili a lungo sequenza, che - considerata nel suo insieme - non necessariamente uzewnętrzniać significative analogie. Incontri sono di solito preferito a livello locale, anche se il loro disegno di legge potrebbe essere più difficile a causa della ulteriore provocazione determinazione delle regioni per dimostrare la conformità. Algorymy vari sono stati utilizzati per sequenza di partite, tra cui un lento, ma formalmente metodi di ottimizzazione, pianificazione mentre dinamico, efficace anche euristico azalea probablistyczne progettato per una vasta gamma di ricerche complete di basi di dati.
Indice
/ /
Modi di presentare il
Incontri sono spesso presentati sia graficamente, quando e in formato testo. In quasi tutti i modi di presentare una corrispondenza sequenze sono memorizzate in file, disposti in effetti il resto della partita forma la prossima colonna. I formati di testo, corrispondenti alla colonna contenente identiche o podobe simboli (il resto) sono il timbro segnato konserwatywności specificando l'importo. Quando nella foto sopra l'anello (ewnentualnie barra verticale "I") sono utilizzati, al fine di rintracciare l'identità tra le due sequenze in una determinata posizione, meno frequentemente utilizzati sono i simboli del colon a dire la sostituzione e conservatore pimple sulla podstawień semikonserwatywnych. Innumerevoli programmi wizualizujących utilizzando sequenze di colore per la dignità dei singoli elementi della sequenza. Nel caso di DNA e RNA a bollire l'assegnazione di ogni nukleotydowi un altro colore. In dopasowniach sequenza di proteine, mentre il rycinie, i colori sono spesso utilizzati per oznczenia proprietà di aminoacidi, rendendo più facile per valutare la konserwatywności le sostituzioni. In caso di corrispondenza delle sequenze più, è spesso l'ultima riga sequenza konsensusową; stringa konsensusowa è anche spesso presentati graficamente in forma sequenziale di marca, in cui il calibro di ogni nucleotide o acido ammino determinazione lettere corrispondono al grado della sua conservazione.
Abbinamento sequenze possono essere memorizzati in una varietà di file in formato testo, di cui al niemiara è stato sviluppato in collaborazione con un programma specifico per andare bene.
Partita globali e locali
Illustrazione del globale e del locale partite, mostrando una pausa dopasowaniach globale in grado di presentarsi come le sequenze non sono sufficientemente simili
Partita a livello globale, compreso un profilo completo di tutte le sequenze, è più utile, così come elaborate sequenze sono simili e analoghe parti. (Ciò non significa, che anche se potrebbe non corrispondere al fine globale con interruzioni). Generale della scienza tecnico mondiale partita è noto come modello Needlemana-Wunsch e si basa sulla programmazione dinamica. Locale corrispondono con maggiore intensità sono utili per le sequenze che non hanno mostrato una maggiore somiglianza nella loro interezza, per i quali non vi è un sospetto che contengono simili subsekwencje azalea motywy.Algorytm Smith-Watermana è una tecnica generale per la partita locali, basato sulla programmazione dinamica. Nel caso di una sequenza di abbastanza simile, i risultati delle partite globale e locale sono gli stessi.
Metodo misto, noto come semiglobalne tentativi di scoprire i migliori opportunità di includere la prima regola e il crollo di una o l'altra in sequenza. Essi possono essere estremamente utili, mentre onore 3 'fine di una sequenza da parte di un 5' fine della seconda sequenza. In questo caso, né locale né a livello mondiale è pienamente l'adeguatezza di metodi appropriati per starałoby globale per costringere corrispondenti controllo sulla regione da oltre l'area di sovrapposizione, nel corso della partita il locale non ha potuto coprire integralmente la regione di sovrapposizione.
Adattamento da una sequenza
I metodi corrispondenti da sequenze sono utilizzate per trovare le migliori partite di locali o globali analizzate due sequenze. Questi metodi possono essere usati per abbinare le due sequenze parallele, tuttavia il loro calcolo è un buon rendimento e sono spesso utilizzati quando non vi è alcuna necessità di alta precisione (per esempio, durante la ricerca nel database sequenza con una significativa homologii termini di sequenze. I tre principali approccio a partite dalla sequenza di dot-matrix metodo, la pianificazione e metodi dinamici "k" - righe (metodi basati sulle parole). Metodi di corrispondenza molti sequenze possono essere fatte e utilizzati per corrispondenza, par. In ogni caso, uno dei metodi ha la sua debole forte e dintorni, tutte e tre le partite da una sequenza di metodi hanno difficoltà probabilmente con repetytywnymi sequenze di bassa quantità di informazioni - in particolare quando il volume delle ripetizioni nelle due sequenze sono diverse. Uno dei modi per esprimere il quantitativo użyteczneości la partita coppia sequenza è 'massimo unica partita', alias il più lungo subsekwencja, che si verifica in entrambe le sequenze corrispondenti. riflettere a lungo di solito un rapporto più stretto.
I metodi di dot-matrix
Dot plot del DNA contenente il fattore umano transkrypcyjnego causare dita di zinco (GenBank ID NM_002383), indicando samopodobieństwo regionale. La diagonale principale di adeguamento sequenza presente a se stesso; linee indipendentemente dalla sua attuale repetetywne eventualmente modelli simili in sequenza.
A matrice di punti, fornendo famiglia partite per ogni regione della sequenza, è un semplice semplice approccio qualitativo, tuttavia, i risultati di taglio su vasta scala in termini di tempo. Alcune caratteristiche della sequenza - quando l'inserimento, cancellazione, la ripetizione di semplice invertito azalea - sono facilmente visibili sul grafico a matrice di punti di visualizzazione. La costruzione di una tale visualizzazione, salvare i nostri due sequenze, a causa nella prima riga e prima colonna, bidimensionale matrice matrice. Nel corrispondente identici / simili posizioni in due sequenze sono messi a macchia. Alcune implementazioni di distinguere tra il diametro o l'intensità di punti nel rapporto tra il grado di somiglianza nelle rispettive posizioni, che sono permesse sostituzioni distinguere più elevati e meno conservatrice. Nel caso molto simile sequenza sulla matrice di punti disposti in una sola riga accanto al principale spazio.
Tali matrici possono diventare usato per stimare i repetytywności singola sequenza. A quel tempo, la stessa stringa viene salvato nella prima riga / colonna, e le zone con una notevole somiglianza in aggiunta alle principali linee di formare un visualizzabile. Con una tale situazione che abbiamo di fronte, quando proteina è composta da numerosi domini simili strutturali.
Pianificazione dinamica
La tecnica di programmazione dinamica presumibilmente essere utilizzato per le corrispondenze progetto globale Needlemana-Wunsch, un calendario locale partita da Smith-Watermana. Tipicamente, corrispondenti proteine utilizzando Patria sostituzione, ivi compresa la cooperazione identico aminoacidi e vari sostituzione per la partita, e le sanzioni in caso di interruzioni, vale a dire somiglianza in sequenza aminoacidica da uno dei przwerwą nella seconda. Abbinamento del DNA e RNA può alimentare il paese della sua infanzia anni, ma spesso semplicemente attribuito al costo di dopasowaniom è positivo, negativo niedopasowanio, come previsto sopra è per una pausa.
Programmazione dinamica può essere utile a chiudere la corrispondente sequenza nucleotidica della sequenza di proteine, ostacolato dalla eventuale obbligo per le mutazioni che causano un cambiamento di cornice di lettura (l'inserimento o la soppressione). Metodi framesearch creare una serie di locali o globali partite in una sequenza - la sequenza nucleotidica di cui l'indagine e del cercato insieme di sequenze di proteine, o viceversa. Comunque, questa procedura è molto lenta, è utile per le sequenze contenenti indeli tesoro, che presumibilmente essere estremamente difficile da adattare quando si è pronti per l'uso su più elevato tasso di metodi efficaci di euristico. In pratica, questo metodo richiede una grande potenza o obliczniowej sistema, che il sistema è volto a pianificazione dinamica.
Note a piè di pagina
- ↑ TD Schneider, RM Stephens. Sequenza logo: un nuovo modo per visualizzare le sequenze di composizione. Acidi nucleici Ris. 1990, 18, 6097-6100. . doi: 10.1093/nar/18.20.6097. PMID 2172928.
- ↑ sporco M, Maldá S, A Poliakov, Il CB, Couronne O, Dubchak ho Batzoglou S. allineamento Glocal: ricerca di riarrangiamenti durante l'allineamento. Bioinformatica. 2003, 19 Suppl 1, i54-62. . doi: 10.1093/bioinformatics/btg1005. PMID 12855437.
- ↑ Monte DM.: Bioinformatica: sequenza del genoma e Analisi 2 ed .. Cold Spring Harbor Laboratory Stampa: Cold Spring Harbor, NY., 2004. ISBN 0-87969-608-7.
































