Item request has been placed! ×
Item request cannot be made. ×
loading  Processing Request

Distributed, multi-modal approaches for comparative bioinformatics: from sequence analysis to deep learning

Item request has been placed! ×
Item request cannot be made. ×
loading   Processing Request
  • معلومة اضافية
    • Thesis Advisors:
      Notredame, Cedric
    • بيانات النشر:
      Universitat Pompeu Fabra, 2026.
    • الموضوع:
      2026
    • نبذة مختصرة :
      La recerca biomèdica moderna està cada cop més marcada per la mida i la complexitat dels conjunts de dades biològiques. Les tecnologies d’alta capacitat i les iniciatives de seqüenciació a gran escala estan generant dades a una escala sense precedents, amb exabytes de dades biològiques que s’espera que arribin durant la propera dècada. Aquests recursos ofereixen oportunitats extraordinàries per estudiar l’evolució molecular i la funció de les proteïnes. Tot i això, els mètodes computacionals existents sovint manquen de l’escalabilitat i la capacitat integradora necessàries per a aquests conjunts de dades heterogenis. En aquesta tesi, primer, investigo enfocaments integradors que combinen informació de seqüència i estructura de proteïnes per millorar l’alineament múltiple de seqüències (MSA) i augmentar la confiança en les estimacions de la inferència filogenètica. En segon lloc, dissenyo marcs reproduïbles i escalables basats en Nextflow i nf-core per a avaluar i desplegar eines de bioinformàtica i deep learning. Aquests inclouen pipelines per avaluar algoritmes de MSA, predir estructures de proteïnes i donar suport al desenvolupament de models de deep learning en genòmica. En general, aquest treball connecta la innovació metodològica amb una infraestructura computacional distribuïda i escalable, oferint solucions integradores i reproduïbles per a la bioinformàtica comparativa i el deep learning a gran escala.
    • نبذة مختصرة :
      Modern biomedical research is increasingly shaped by the size and complexity of biological datasets. High-throughput technologies and large-scale sequencing initiatives are producing data at an unprecedented scale, with incoming exabytes of biological data expected over the next decade. These resources offer extraordinary opportunities to study molecular evolution and protein function. However, existing computational methods frequently lack the scalability and integrative capacity required for these heterogeneous datasets. In this thesis, first, I investigate integrative approaches that combine protein sequence and structural information to improve multiple sequence alignment (MSA) and enhance confidence estimates in phylogenetic inference. Second, I design reproducible, scalable frameworks based on Nextflow and nf-core to benchmark and deploy bioinformatics and deep learning tools. These include pipelines for evaluating MSA algorithms, predicting protein structures, and supporting the development of deep learning models in genomics. Overall, this work bridges methodological innovation with distributed and scalable computational infrastructure, offering integrative and reproducible solutions for large-scale comparative bioinformatics and deep learning.
      Universitat Pompeu Fabra. Doctorat en Biomedicina
    • File Description:
      application/pdf
    • Rights:
      L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
    • الرقم المعرف:
      edstdx.10803.696720