Themen für Abschlussarbeiten

Aus Rechenkraft
Zur Navigation springen Zur Suche springen
Qsicon Ueberarbeiten.png Dieser Artikel bedarf einer Überarbeitung. Näheres dazu sollte auf der Diskussionsseite stehen. Hilf mit, ihn zu verbessern und entferne anschließend diese Markierung.

Themen für Abschlussarbeiten

Im Bereich Distributed Computing und speziell in Zusammenhang mit der Middleware BOINC existieren einige Themen, die ausreichend Material für eine Bachelor-, Master-, Diplom- oder gar Doktorarbeit sowohl im Bereich Informatik, als auch in anderen Fachrichtungen bieten. Des weiteren besteht bei vielen der hier genannten Themen die Möglichkeit diese Arbeit bei Dr. David P. Anderson an der University of California, Berkeley (Kalifornien, USA) zu schreiben oder von ihm mitbetreuen zu lassen. Auch am Grenzbereich zu den Life Sciences bieten sich sicherlich einige Möglichkeiten für Abschlussarbeiten, speziell z.B. im Zusammenhang mit dem RNA World Projekt im Bereich RNA Biologie / Biochemie / Bioinformatik.

Bei Interesse steht Rechenkraft.net e.V. gerne bei der Vermittlung und Kontaktaufnahme mit Dr. David P. Anderson bereit. Es reicht zunächst eine einfache eMail an info (at) rechenkraft.net oder direkt an ein Vorstandsmitglied.

Selbstverständlich sind auch eigene Ideen für Themen sowohl bei Rechenkraft.net e.V als auch bei Dr. David P. Anderson gerne gesehen. Wer Ideen hat, stellt sie am besten direkt vor! Entweder per eMail an info (at) rechenkraft.net oder an ein Vorstandsmitglied oder an Dr. David P. Anderson.

unter der Leitung von Dr. David P. Anderson (UC Berkeley)

Data-intensive volunteer computing

Quelle

Currently, most BOINC projects work as follows:

  • Data are stored on the server
  • Pieces of data (input files) are sent to client, and jobs are run against them. When done, the files are deleted from the client.
  • Output files are sent back to the server.

This architecture doesn't scale well for data-intensive computing. There are various alternatives:

  • Workflows: DAGs of tasks connected by intermediate temporary files. Schedule them so that temp files remain local to client most of the time.
  • Stream computing: e.g., IBM Infosphere
  • Models that involve computing against a large static dataset: e.g. MapReduce, or Amazon's scheme in which they host common scientific datasets, and you can use EC2 to compute against them.

BOINC has some features that may be useful in these scenarios: e.g., locality scheduling and sticky files. It lacks some features that may be needed: e.g., awareness of client proximity, or the ability to transfer files directly between clients.

Virtualizing volunteer computing

Quelle

The volunteer computing host population is highly heterogeneous in terms of software environment (operating system type and version, system libraries, installed packages). Projects are faced with the difficult task of building application versions for all these different environments; this is a significant barrier to the usage of volunteer computing.

This problem can be mitigated using virtual machine technology. In this approach, a hypervisor such as VirtualBox is installed (manually or automatically) on volunteer hosts. An application consists of a virtual machine image containing the application proper together with the required libraries and packages. A "wrapper" program provides an interface between the BOINC client and the hypervisor, so that, for example, the application can be suspended and resumed in accordance with user preferences.

Some of this has already been done; see http://boinc.berkeley.edu/trac/wiki/VboxApps.

Anmerkung von Rechenkraft.net e.V.: Die bestehende Lösung mittels VirtualBox muss für einen konkreten Einsatz im RNA-World Projekt noch getestet und eventuell erweitert werden.

Analyze and improve adaptive replication

Quelle

Because volunteer hosts may be error-prone or malicious, volunteer computing requires result validation. One way to do this is by replication: run each job on 2 computers and make sure the results agree.

To reduce the 50% overhead of two-fold replication, BOINC has a mechanism called "adaptive replication" that runs jobs with no replication on hosts with low error rates, while continuing to randomly intersperse replicated jobs.

The project is to identify possible counter-strategies for adaptive replication, to establish bounds on the overall effectiveness of adaptive replication, and to identify refinements that increase the effectiveness.

A related project is to prove the effectiveness (or ineffectiveness) of BOINC's mechanism to defeat 'cherry picking': completing only short jobs in an effort to get credit unfairly.

Latency-oriented volunteer computing

Quelle

The early volunteer computing projects (SETI@home, Climateprediction.net) are "throughput oriented": they want to maximize the number of jobs completed per day, not minimize the turnaround time of individual jobs. BOINC's scheduling mechanisms reflect this; for example, they try to assign multiple jobs at a time so that client/server interactions are minimized.

More recent volunteer computing projects are "latency-oriented": they want to minimize the makespan of batches of jobs. The project is to redesign BOINC's scheduling mechanisms so that they can support latency-oriented computation, and to validate the new mechanisms via simulation (using an existing simulator).

Anmerkung von Rechenkraft.net e.V.: An diesem Problem wird bereits durch vereinzelte Projekte selbst gearbeitet. Das Thema gibt aber noch genug Stoff für die ein oder andere Abschlussarbeit her.

Volunteer data archival

Quelle

While BOINC is currently used for computation, it also provides primitives for distributed data storage: file transfers, queries, and deletion. The project is to develop a system that uses these primitives to implement a distributed data archival system that uses replication to achieve target levels of reliability and availability.

Invisible GPU computing

Quelle

BOINC has recently added support for GPU computing, and several projects now offer applications for NVIDIA and ATI GPUs. One problem with this is that GPU usage is not prioritized, so when a science application is running the performance of user-visible applications is noticeable degraded. As a result, BOINC's default behavior is that science applications are not run while the computer is in use (i.e., while there has been recent mouse or keyboard activity).

The project (in collaboration with NVIDIA and possibly AMD/ATI) is to make changes to BOINC and to the GPU drivers so that the GPU can be used as much as possible, even while the computer is in use, without impacting the performance of user-visible applications.

...to be continued...

bei Rechenkraft.net e.V.

Ansprechpartner für Projekte bei Rechenkraft.net e.V. an den Grenzflächen zwischen Informatik, Biochemie und Biologie ist Dr. Michael H.W. Weber (Rechenkraft.net e.V. / M.I.T. (Cambridge, USA) / Fachbereich Physik (Philipps-Universität Marburg).

Datenbanken und Informationssysteme

Automatisierte Erstellung einer tagesaktuellen Codon Usage Datenbank aus Genomdaten

Ziel: Erweiterung des universellen genetischen Codes zur spezifischen, ribosomen-programmierten Inkorporation modifizierter Aminosäurederivate in natürliche und Designerproteine.

Das Projekt wird im Rahmen des RNA World Distributed Supercomputers durchgeführt und ist in zwei Stufen gegliedert:

  • Entwicklung der erforderlichen dynamischen Codon Usage Datenbank.
  • Genetisches â??Engineeringâ?? eines aus den Datenbankergebnissen abgeleiteten Organismus zur Designerproteinproduktion (inkl. Ergebnisvalidierung).

Softwareentwicklung und Data Mining

Aufbau einer vollautomatisierten Analysepipeline zur bioinformatischen Identifikation und labortechnischen Validierung nicht proteinkodierender RNAs aus Genom- und Metagenomdaten

Ziel: Systematische, maschinelle Identifizierung nicht proteinkodierender RNAs in öffentlich zugänglichen Genomdaten ohne humane Intervention.

Das Projekt wird im Rahmen des RNA World Distributed Supercomputers durchgeführt und ist in folgende Stufen gegliedert:

  • Entwicklung eines Softwaremoduls zu vollautomatisierten Extraktion von Genom- und Metagenomdaten aus öffentlich zugänglichen Internetgenomdatenbanken. Aufbereitung der aquirierten Datensätze zur maschinellen Einspeisung in den verteilten RNA World Supercomputer.
  • Entwicklung eines Softwaremoduls zu vollautomatisierten Extraktion von RNA-Sequenz und -strukturinformation aus öffentlich zugänglichen Internetdatenbanken. Aufbereitung der aquirierten Datensätze zur Einspeisung in den verteilten RNA World Supercomputer.
  • Vollautomatische Analyse und Einspeisung der Ergebnisdaten in die existierende RNA World Ergebnisdatenbank.
  • Entwicklung eines Softwaremoduls zur vollautomatisierten Extraktion und intelligenten Aufbereitung intergenischer Genomregionen zwecks systematischer Analyse auf nicht proteinkodierende RNAs.
  • Laborvalidierung der zellulären Existenz einiger der mit Hilfe der entwickelten Ergebnispipline vorhergesagten ncRNA Kandidaten durch Hochdurchsatztranskriptionsanalysen des jeweils betreffenden Organismus.
  • Laborstrukturanalysen der positiv validierten ncRNA Spezies.

VirtualBox als Applikationscontainer

Erweiterung des BOINC-basierten RNA World Supercomputers um ein universelles, applikationsunabhängiges Checkpointing-System

Anwendungsportierung

Portierung des RNA World Projekts in das Marburg Ad Hoc Grid Environment (MAGE)

Softwareintegration in BOINC

Entwicklung des neuen BOINC-basierten Rechenkraft.net Unwetterwarnsystems Thunderstorm

Ziel: Integration einer bereits funktionellen Software in die BOINC Wrapper-Umgebung.

Verbesserung der BOINC Projektwebseiten

Zur Zeit ist ein ändern des Aussehens der Projektwebseiten durch einen Projektbetreiber nur mit Änderungen im PHP-Quellcode des Projektes möglich. Dies setzt entsprechendes Wissen voraus und die geänderten Dateien sind danach nicht mehr so einfach zu aktualisieren, da Konflikte manuell bereinigt werden müssen. Dies ist ein erhöhter Aufwand für den Administrator des Projektes und führt dazu das der Quellcode des gesamten Projektes nicht mehr aktualisiert wird. Mehr Informationen

...to be continued...