ВнешняяFreelancerRemote$250–$750 USD

Aufbau eines Dokumenten-Testkorpus

Краткое

Freelancer Client is hiring: Aufbau eines Dokumenten-Testkorpus.

Location: Remote

Auftragsbeschreibung — Aufbau eines Dokumenten-Testkorpus

Auftragstyp: Recherche- und Sammelaufgabe.

Lieferform: Strukturierte Dateisammlung mit Begleit-Tabelle.

Vorkenntnisse: Keine juristischen oder technischen Vorkenntnisse erforderlich. Sorgfalt, Strukturtreue und Zuverlässigkeit sind die wesentlichen Anforderungen.

Für die Entwicklung und Qualitätsprüfung einer Software zur automatischen Dokumentenverarbeitung wird ein realistischer, breit gestreuter Testdatensatz benötigt. Die Software muss mit der ganzen Bandbreite real vorkommender Dokumente zurechtkommen — gut und schlecht, sauber und unsauber. Dafür braucht es echtes, vielfältiges Material.

Skills: Data Entry, Data Analysis, Data Collection, Data Management

Budget: $250–$750 USD


Source: Freelancer Client via Remote / Online. Apply on the source website.

Оригинал

Auftragsbeschreibung — Aufbau eines Dokumenten-Testkorpus

Auftragstyp: Recherche- und Sammelaufgabe.
Lieferform: Strukturierte Dateisammlung mit Begleit-Tabelle.
Vorkenntnisse: Keine juristischen oder technischen Vorkenntnisse erforderlich. Sorgfalt, Strukturtreue und Zuverlässigkeit sind die wesentlichen Anforderungen.
---
1. Worum es geht
Für die Entwicklung und Qualitätsprüfung einer Software zur automatischen Dokumentenverarbeitung wird ein realistischer, breit gestreuter Testdatensatz benötigt. Die Software muss mit der ganzen Bandbreite real vorkommender Dokumente zurechtkommen — gut und schlecht, sauber und unsauber. Dafür braucht es echtes, vielfältiges Material.
Die Aufgabe besteht darin, einen Katalog deutschsprachiger Dokumente zusammenzustellen, auf die unten beschriebene Weise zu erfassen, zu kategorisieren und zu dokumentieren.
Es handelt sich um eine reine Sammel- und Strukturierungsaufgabe. Die Dokumente werden nicht inhaltlich bewertet, gelesen oder zusammengefasst.
---
2. Welche Dokumente gesucht werden
Gesucht werden deutschsprachige Dokumente aus diesen Kategorien:
- Verträge (z. B. Mobilfunk, Energie, Miete, Versicherung, Mitgliedschaften, Abonnements)
- Allgemeine Geschäftsbedingungen (AGB)
- Behördliche und amtliche Schreiben
- Rechnungen und vertragsähnliche Geschäftspost
Wichtig ist die Vielfalt, nicht die Menge an gleichartigem Material. Dokumente sollen quer durch alle Kategorien, Quellen und Qualitätsstufen gehen.
---
3. Vielfalts-Vorgaben (verbindlich)
Der Katalog muss über mehrere Achsen gestreut sein. Diese Streuung ist der eigentliche Wert der Aufgabe.
Nach Dateiformat:
- PDF-Dateien mit echtem, markierbarem Text (Text lässt sich im PDF-Betrachter mit der Maus markieren)
- PDF-Dateien, die eingescannt sind (Text lässt sich nicht markieren — es ist ein Bild)
- Fotos von Dokumenten (JPG, PNG, HEIC) — mit dem Smartphone aufgenommen
- HTML-Seiten / Webseiten-AGB (als gespeicherte Datei oder als URL-Liste)
Nach Qualität — bewusst auch schlechtes Material:
- saubere, gerade, gut lesbare Dokumente
- schief fotografierte, schlecht beleuchtete, unscharfe Aufnahmen
- ältere, verknickte, blasse oder fleckige Vorlagen
- Dokumente mit Stempeln, Unterschriften oder Notizen
Schlechte Beispiele sind ausdrücklich erwünscht. Die Software muss gerade mit schlechtem Material getestet werden.
Nach Layout:
- einfache einspaltige Dokumente
- mehrspaltige Layouts
- Dokumente mit Tabellen
- Dokumente mit Briefköpfen, Fußzeilen, Seitenrändern voller Kleingedrucktem
Nach Umfang:
- kurze Dokumente (1–3 Seiten)
- mittlere (4–10 Seiten)
- lange (über 10 Seiten)
Nach Quelle:
- möglichst aus verschiedenen Anbietern, Branchen und Behörden
- nicht alles von einer einzigen Website oder einem einzigen Unternehmen
---
4. Herkunft der Dokumente — verbindliche Regeln
Die Dokumente müssen rechtlich unbedenklich beschafft sein. Verbindlich:

- Öffentlich zugängliche Dokumente sind die bevorzugte Quelle: AGB von Unternehmenswebseiten, öffentlich publizierte Musterverträge, frei abrufbare amtliche Formulare und Schreiben.
- Eigene Dokumente dürfen verwendet werden, wenn der Sammelnde sie selbst besitzt und beisteuern möchte. In diesem Fall müssen vor der Übergabe alle persönlichen Angaben unkenntlich gemacht werden (siehe Abschnitt 5).
- Fremde personenbezogene Dokumente dürfen nicht beschafft werden. Es dürfen keine Verträge, Schreiben oder Rechnungen anderer, namentlich bekannter Personen gesammelt werden.
- Keine Beschaffung über unbefugten Zugriff, Weitergabe durch Dritte ohne deren Einverständnis, oder aus nicht öffentlich zugänglichen Quellen.
Im Zweifel gilt: Wenn unklar ist, ob ein Dokument rechtlich unbedenklich beigesteuert werden kann, wird es nicht in den Katalog aufgenommen.
---
5. Behandlung persönlicher Daten
Da reale Dokumente persönliche Angaben enthalten können, gilt verbindlich:
- Vor Übergabe sind in allen Dokumenten persönliche Daten zu schwärzen oder zu entfernen: Namen, Adressen, Telefonnummern, E-Mail-Adressen, Kunden- und Vertragsnummern, Kontodaten, Geburtsdaten, Unterschriften.
- Die Schwärzung muss inhaltlich vollständig sein — geschwärzte Stellen dürfen nicht durch bloßes Markieren wieder lesbar sein. Bei PDFs ist die Stelle tatsächlich zu entfernen, nicht nur farbig zu überdecken. Bei Fotos ist der Bereich im Bild unkenntlich zu machen.
- Die Struktur des Dokuments bleibt dabei erhalten: Eine geschwärzte Adresse bleibt als „hier stand eine Adresse" erkennbar, das Layout verändert sich nicht. Es wird nur der persönliche Inhalt entfernt, nicht das Dokument umgebaut.
Falls Unsicherheit besteht, wie eine bestimmte Stelle zu behandeln ist, wird sie konservativ geschwärzt.
---
6. Lieferform
6.1 Ordnerstruktur
Eine flache Sammlung aller Dateien in einem Ordner. Jede Datei bekommt einen eindeutigen, fortlaufenden Namen, z. B. `dok-001.pdf`, `dok-002.jpg`, `dok-003.html`.
Keine Unterordner, keine Gruppierung — die Kategorisierung erfolgt vollständig über die Begleit-Tabelle.
6.2 Begleit-Tabelle
Eine Tabelle (CSV oder Excel) mit einer Zeile pro Dokument und folgenden Spalten:
| Spalte | Inhalt |
|---|---|
| `dateiname` | exakter Dateiname, z. B. `dok-001.pdf` |
| `kategorie` | Vertrag / AGB / Behördenschreiben / Rechnung |
| `format` | Text-PDF / Scan-PDF / Foto / HTML |
| `qualitaet` | gut / mittel / schlecht — eigene Einschätzung |
| `seitenzahl` | Anzahl Seiten |
| `layout` | einspaltig / mehrspaltig / mit Tabellen / gemischt |
| `quelle_typ` | öffentlich zugänglich / eigenes Dokument |
| `quelle_hinweis` | grobe Quellenangabe ohne personenbezogene Daten, z. B. „AGB-Seite eines Mobilfunkanbieters", „eigener Mietvertrag, geschwärzt" |
| `geschwaerzt` | ja / nein — wurden persönliche Daten entfernt |
| `bemerkung` | Auffälligkeiten, z. B. „schief fotografiert", „enthält handschriftliche Notiz", „blass" |
Bei HTML-Quellen, die nur als URL vorliegen, steht statt eines Dateinamens die vollständige URL in einer zusätzlichen Spalte `url`.
6.3 Format-Bestimmung — Hilfestellung
Die Unterscheidung Text-PDF vs. Scan-PDF ist wichtig und einfach zu prüfen:
- PDF im Betrachter öffnen, versuchen, mit der Maus einen Satz im Text zu markieren.
- Lässt sich Text markieren und kopieren → Text-PDF.
- Lässt sich kein Text markieren, der Mauszeiger verhält sich wie über einem Bild → Scan-PDF.
- Funktioniert es auf manchen Seiten und auf anderen nicht → in `bemerkung` „gemischt" vermerken, als `format` die überwiegende Art angeben.
---
7. Mengenrahmen
Zielgröße: 120 - 150 Dokumente
Die Verteilung über die Vielfalts-Achsen (Abschnitt 3) ist wichtiger als das Erreichen der oberen Mengengrenze.
Richtwerte für die Streuung (anzupassen durch den Auftraggeber):
- etwa je ein Viertel Text-PDF, Scan-PDF, Foto, HTML
- mindestens ein Drittel der Foto- und Scan-Dokumente bewusst in mittlerer oder schlechter Qualität
- alle vier Kategorien aus Abschnitt 2 vertreten
- Dokumente aus mindestens [Zahl einsetzen] verschiedenen Quellen/Anbietern
---
8. Abnahmekriterien
Die Lieferung gilt als vollständig, wenn:
1. Alle Dateien eindeutig benannt und in einem flachen Ordner liegen.
2. Die Begleit-Tabelle für jede Datei eine vollständige Zeile enthält.
3. Die Vielfalts-Vorgaben aus Abschnitt 3 erkennbar erfüllt sind — die Sammlung ist nicht einseitig.
4. Alle als `geschwaerzt = ja` markierten Dokumente tatsächlich frei von lesbaren persönlichen Daten sind.
5. Die Herkunftsregeln aus Abschnitt 4 eingehalten wurden.
6. Format-Angaben (Text-PDF vs. Scan-PDF) stichprobenartig korrekt sind.
---
9. Was ausdrücklich nicht Teil der Aufgabe ist
- Die Dokumente werden nicht gelesen, nicht zusammengefasst, nicht inhaltlich bewertet.
- Es wird keine Software bedient und nichts programmiert.
- Es werden keine Dokumente verändert außer der Schwärzung persönlicher Daten.
- Es werden keine Dokumente erzeugt oder nachgestellt — gesucht ist ausschließlich echtes, real existierendes Material.
---
10. Hinweis zur Vertraulichkeit
Der zusammengestellte Katalog und diese Auftragsbeschreibung sind vertraulich zu behandeln und nicht weiterzugeben. Der Katalog dient ausschließlich internen Test- und Entwicklungszwecken.

Локация & Details

ИсточникFreelancer
Бюджет$250–$750 USD
ЛокацияRemote
Дата публикации2026-05-18 15:18:17
Data EntryData AnalysisData CollectionData Management
Перейти к источнику →

About this listing

This remote opportunity was imported from Freelancer and is shown here for discovery. To apply, follow the link to the original posting.

Skills mentioned:
Data EntryData AnalysisData CollectionData Management