Fokus Forschung: Integrating Erasure Coding and Proof of Replication for Secure Decentralized Storage System

02.06.2025 Forschung, Konferenzteilnahmen, Nachwuchsforschung, Veranstaltungen, NWK

Forscher Nachwuchs | NWK 2025 | Shrigouri Navaratna forscht zu Dezentralen Speichersystemen

Portraitbild Shrigouri Navaratna in einem bogenförmigen Raum — Shrigouri Navaratna forscht zu Dezentralen Speichersystemen

English version below

In unserem Forschungsvorhaben haben wir dezentrale Speicherkonzepte untersucht, die Erasure Coding mit Proof-of-Replication kombinieren.

Die rasante Zunahme sensibler Daten im digitalen Zeitalter erfordert innovative Speicherlösungen, die die Einschränkungen herkömmlicher Cloud-Dienste wie Single Points of Failure, hohe Bandbreitenkosten und mangelnde Transparenz bei der Datenverarbeitung und -sicherheit beseitigen. Dezentrale Speichersysteme beheben diese Einschränkungen, indem sie Peer-to-Peer-Netzwerke (P2P) und die Blockchain-Technologie nutzen, um die zentrale Kontrolle zu beseitigen und die Datenverfügbarkeit und Fehlertoleranz zu verbessern. Diese Systeme erreichen Robustheit, indem sie Daten fragmentieren und eine Rekonstruktion ermöglichen, selbst wenn einige Fragmente verloren gehen [1]. Redundanzmechanismen sind in dezentralen Netzwerken von entscheidender Bedeutung, da Knoten häufig offline gehen können. Wir verwenden die Reed-Solomon-Kodierung als Löschkodierungsschema für die Redundanz, da sie sehr recheneffizient ist. Sie wird hauptsächlich durch zwei Zahlen k und n beschrieben, wobei n die Gesamtzahl der Fragmente ist, in die die Originaldatei unterteilt ist, und k (auch als Anzahl der Datenfragmente bekannt) die Mindestanzahl der Fragmente angibt, die zur Rekonstruktion der Originaldatei erforderlich ist. Das System kann den Verlust von bis zu m Fragmenten tolerieren, wobei m=n-k (so genannte Paritätsfragmente) [2].

Kryptographische Beweise wie Proof-of-SpaceTime (PoSt) [3], Proof-of-Retrievability (PoR) [4], Proof-of-Replication (PoRep) [5] gewährleisten die Integrität und Verfügbarkeit der Daten. Bestehende dezentrale Speichersysteme wie Sia [6] oder Storj [2] bieten schwächere Sicherheit gegen Deduplizierung und Sybil-Angriffe. Unsere Arbeit schließt eine wichtige Forschungslücke, indem sie die robuste kryptografische Speicherung von PoRep mit Erasure Coding kombiniert, um starke Sicherheit mit reduziertem Speicher-Overhead zu verbinden. Erasure Coding teilt die Daten in kleinere Daten- und Paritätsfragmente auf und verteilt sie über die Knoten, was den Speicheraufwand erheblich reduziert. PoRep verwendet kryptografische Protokolle, um sicherzustellen, dass Speicheranbieter eindeutigen Speicherplatz für Daten D zuweisen und so Deduplizierung verhindern. Der Anbieter speichert D in einem Sektor, in dem ein rechenintensiver Versiegelungsprozess D in eine eindeutig kodierte Replik, R, umwandelt.

Der Proof-of-Replication-Prozess besteht aus drei Hauptphasen:

Kodierung - Die Daten werden in Knoten aufgeteilt und in einem geschichteten Stacked-DRG-Graphen strukturiert. Jeder Knoten wird nacheinander gekennzeichnet und mit einem aus den Graphenbezeichnungen abgeleiteten Schlüssel verschlüsselt, wodurch ein eindeutiges Replikat entsteht.
Replikation - Ein eindeutiges Replikat wird unter Verwendung einer ReplicaID erzeugt, die an den Provider und den Sektor gebunden ist und eine manipulationssichere, überprüfbare Speicherung gewährleistet.
Merkle Tree & Proof Generation - Ein Merkle Tree wird über die verschlüsselten Daten erstellt, um eine Zusage zu erzeugen. Der endgültige PoRep-Beweis enthält Daten, Metadaten und die Identität des Anbieters und wird vor der Übermittlung an die Blockchain komprimiert.

Wir haben ein Python-basiertes System implementiert, das Erasure Coding und PoRep kombiniert, um eine sichere und effiziente dezentrale Speicherung zu ermöglichen. Bei der Verwendung eines (k=10, n=14) Erasure Coding Schemas konnten wir feststellen, dass die Kodierungszeit linear mit der Dateigröße skaliert, was eine gute Skalierbarkeit gewährleistet. Wir haben die Speichereffizienz eines (10,14) -Erasure-Coding-Verfahrens bewertet und mit der 5-fachen Replikationsmethode verglichen, die in Systemen wie Filecoin [3] häufig verwendet wird. Dies wurde für verschiedene Dateigrößen gemessen. Unser Erasure-Coding-Ansatz benötigte nur 40 % zusätzlichen Speicher (d. h. insgesamt das 1,4-fache der ursprünglichen Datengröße), während die 5-fache Replikation 400 % zusätzlichen Speicher benötigt. Trotz dieser deutlichen Reduzierung des Speicheraufwands kann unser Verfahren immer noch bis zu 28,5 % Datenverlust tolerieren und weist damit eine hohe Fehlertoleranz auf, wie Abbildung 1 zeigt. Abbildung 1 zeigt die den Speicherbedarf von Erasure-Coding und Replikation. Wir haben auch die Versiegelungs- und Verifizierungsleistung von PoRep evaluiert, wie in Abbildung 2 zu sehen ist.

Diagramm — Abbildung 1: Storage Overhead Vergleich: Löschcodierung vs. Replikation

Es zeigt sich, dass die Versiegelungszeit mit der Sektorgröße signifikant ansteigt, was die rechenintensive Natur des Versiegelungsprozesses unterstreicht. Dies unterstützt die Sicherheitseigenschaft von PoRep: Es stellt sicher, dass der Anbieter den intensiven Versiegelungsvorgang bereits durchgeführt und die einzigartige versiegelte Kopie der Daten gespeichert hat. Der Versuch, diese versiegelte Kopie auf Anfrage zu erstellen, wäre rechnerisch nicht durchführbar, was seine vorherige Verpflichtung zur Speicherung beweist. Im Gegensatz dazu bleibt die Verifizierungszeit gering und skaliert linear, da sie von der logarithmischen Struktur der Merkle-Bäume profitiert. Zusammenfassend lässt sich sagen, dass die Integration von Erasure Coding mit PoRep eine sichere, fehlertolerante und speichereffiziente Lösung bietet, die ideal für Anwendungen wie Archivierung und dezentrale Backup-Systeme ist.

Zur Person

Shrigouri Navaratna stammt aus Indien und kam 2021 nach Deutschland, um an der Hochschule Mittweida ihren Master zu machen. Sie studierte Angewandte Mathematik für Netzwerke und Data Science und schrieb ihre Masterarbeit beim Blockchain Competence Center Mittweida (BCCM) zum Thema Dezentrales Speichersystem bei Professor Andreas Ittner und Mario Oettler. In ihrer Arbeit beschäftigte sie sich mit der Erforschung und Analyse von Erasure Coding, Verschlüsselung und Storage Proofs zur Verbesserung der Zuverlässigkeit und Überprüfbarkeit von dezentralen Speichersystemen. Nach Abschluss ihres Masterstudiums im Jahr 2024 begann sie als wissenschaftliche Mitarbeiterin bei BCCM zu arbeiten und setzte ihre Forschungs- und Entwicklungsarbeit im Projekt Dezentrales Speichersystem fort . Außerhalb ihrer Arbeit und ihres Studiums spielt sie gerne Badminton und Tischtennis.

Literatur

[1] N, Racin (2023): Improving Data Availability in Decentralized Storage Systems, University of Stavanger, Norway. ISBN: 978-82-8439-158-8.
[2] Storj Labs (2016): "Storj: A Peer-to-Peer Cloud Storage Network," [Online] github.com/storj/whitepaper. [Accessed: 18.01.2025]
[3] Protocol Labs (2017): “Filecoin: A Decentralized Storage Network”, [Online] filecoin.io/filecoin.pdf. [Accessed: 16.01.2025]
[4] Shacham, H., Waters, B. (2013): Compact Proofs of Retrievability. J Cryptol 26, pg. no. 442– 483
[5] B. Juan, D. David, G. Nicola (2017). “Proof of Replication”, [Online] filecoin.io/proofof- replication.pdf. [Accessed 06.08.2024]
[6] D. Vorick, L. Champine: “Sia: Simple Decentralized Storage”, [Online] sia.tech/sia.pdf. [Accessed 30.03.2025]

Englische Version / english version

In our recent research, we investigated decentralized-storage designs that combine erasure coding with Proof-of-Replication.

The rapid growth of sensitive data in the digital age necessitates innovative storage solutions that address the limitations of traditional cloud services such as single points of failure, high bandwidth costs, and lack of transparency in data handling and security. Decentralized storage systems address these limitations by leveraging peer-to-peer (P2P) networks and blockchain technology to eliminate central control, improve data availability and fault tolerance. These systems achieve robustness by fragmenting data, enabling reconstruction even when some fragments are lost [1]. Redundancy mechanisms are critical in decentralized networks because nodes may go offline frequently. We use Reed-Solomon encoding as the erasure coding scheme for redundancy due to its computational efficiency. It is mainly described by two numbers k and n where n is the total number of fragments into which the original file is divided, and k (also known as the number of data fragments) is the minimum number of fragments required to reconstruct the original file. The system can tolerate to lose up to m fragments, where m=n-k (known as parity fragments) [2].

Cryptographic proofs such as Proof-of-SpaceTime (PoSt) [3], Proof-of-Retrievability (PoR) [4], and Proof-of-Replication (PoRep) [5] ensure data integrity and availability. Existing decentralized storage systems like Sia [6] or Storj [2] offer weaker security against deduplication and Sybil attacks. Our work addresses a key research gap by integrating PoRep's robust cryptographic storage with erasure coding to combine strong security with reduced storage overhead. Erasure coding splits data into smaller fragments and distributes them across nodes, which significantly reduces storage overhead. PoRep uses cryptographic protocols to ensure that storage providers allocate unique storage for data D, preventing deduplication. The provider stores D in a sector, where a computationally intensive sealing process transforms D into a uniquely encoded replica, R.

The Proof-of-Replication process has three main phases:

Encoding – Data is split into nodes and structured in a layered Stacked-DRG graph. Each node is sequentially labeled and encoded using a key derived from graph labels, producing a unique replica.
Replication – A unique replica is generated using a ReplicaID tied to the provider and sector, ensuring tamper-proof, verifiable storage.
Merkle Tree & Proof Generation – A Merkle Tree is built over the encoded data to create a commitment. The final PoRep proof includes data, metadata, and provider identity, and is compressed before submission to the blockchain.

We implemented a Python-based system combining erasure coding and PoRep to enable secure and efficient decentralized storage. Using a (k=10, n=14) erasure coding scheme, we observed that encoding time scales linearly with file size, ensuring good scalability. We evaluated the storage efficiency of a (10,14) erasure coding scheme and compared it with the 5x replication method commonly used in systems like Filecoin [3], across various file sizes. Our erasure coding approach required only 40% additional storage (i.e., total of 1.4x the original data size), whereas 5x replication results in 400% additional storage. Despite this significant reduction in storage overhead, our scheme can still tolerate up to 28.5% data loss, demonstrating strong fault tolerance as shown in figure 1. We also evaluated PoRep’s sealing and verification performance, as shown in figure 2, showing that sealing time increases significantly with sector size, highlighting the computationally intensive nature of the sealing process. This supports the security property of PoRep: it ensures that the provider must have already performed the intensive sealing operation and stored the unique sealed replica of the data. Attempting to generate this sealed replica on demand would be computationally infeasible, proving their prior commitment to storage. In contrast, verification time remains low and scales linearly, benefiting from the logarithmic structure of Merkle trees. In conclusion, our work of integration of erasure coding with PoRep offers a secure, fault-tolerant, and storage-efficient solution, ideal for applications like archival and decentralized backup systems.

The person

Shrigouri Navaratna is from India and she came to Germany to study her master’s degree at Mittweida University of Applied Sciences in 2021. She studied Applied Mathematics for Networks and Data Science and did her masters thesis with Blockchain Competence Centre Mittweida (BCCM) on the topic Decentralized Storage System under Professor Andreas Ittner and Mario Oettler. Her thesis focused on researching and analyzing erasure coding, encryption, and storage proofs to enhance the reliability and verifiability of decentralized storage systems. After finishing her master’s in 2024, she started working as a research assistant at BCCM and continued her research and development in the project Decentralized Storage System. Outside of her work and studies, she likes to play badminton and table tennis.

References

Text und Grafiken: Shrigouri Navaratna
Foto: Helmut Hammer

Zurück