Commons:Maschinenlesbare Daten

From Wikimedia Commons, the free media repository
Jump to navigation Jump to search
This page is a translated version of a page Commons:Machine-readable data and the translation is 93% complete. Changes to the translation template, respectively the source language can be submitted through Commons:Machine-readable data and have to be approved by a translation administrator.

Shortcut: COM:MRD

Auf Commons sind viele Metadaten (einschließlich Lizenz und Autor) nicht maschinenlesbar. Mit dem API-Modul iiprop=extmetadata können einige Werte (example) ausgelesen werden, jedoch sind die Informationen als Freitext auf der Dateibeschreibungsseite eingegeben; dies ist nicht perfekt. Das laufende Projekt Strukturierte Daten auf Commons zielt darauf ab, die Metadaten als vollständig strukturierte Daten zu verschieben und ersetzt schließlich die auf dieser Seite vorgestellten maschinenlesbaren Daten.

In der Zwischenzeit und um den Übergang zu strukturierten Daten zu einem späteren Zeitpunkt zu erleichtern, verwendet Wikimedia Commons einige Standardvorlagen, die eingeschränkt, über HTML-Elemente, maschinenlesbar sind. Einige Skripte und Programme nutzen das bereits. Es ist erwähnenswert, dass diese Daten allen Wikis, die Wikimedia-Commons-Bilder einbinden zur Verfügung stehen, wo sie aus dem HTML-Quelltext der Datei, genauso wie andere lokale Daten, extrahiert werden können.

Maschinenlesbare Daten

Maschinenlesbare Daten aus Infoboxen

Es gibt verschiedene standardisierte Infobox-Vorlagen, die einige Elemente der Vorlage mit Markierungen versehen, um Informationen extrahieren zu können. Folgende verschiedene Markierungen werden benutzt:

  • Microformat Markierungen folgen Industriestandards und können mit bereits vorhandenen Werkzeugen extrahiert werden.
  • <td> id Attribute (Identifiers) sind benutzerdefinierte, vollständigere Markierungen, die mit anwenderspezifischen Werkzeugen gelesen werden. Die meisten Infoboxen haben zwei Spalten: Spalte 1 enthält den Namen des Feldes und Spalte 2 den Wert.
    • <td> id Attribute markieren normalerweise den Namen in der ersten Spalte. Um den Wert zu bekommen muss der Inhalt der folgenden <td> Zelle in der zweiten Spalte gelesen werden.
    • Die Vorlagen {{Creator}} und {{Institution}} haben eine kompliziertere Struktur, deshalb werden die Zellen mit den Werten gekennzeichnet mit Attributen in mangenta.
Vorlage Vorlagenparameter Beschreibung <td> id Attribut Mikroformat Anmerkung
{{Information}} description Dateibeschreibung fileinfotpl_desc hProduct.description. Enthält oft mehrere mit {{Lang}} versehenen Sprachen.
{{Information}} date Datum der Erstellung des Original-Werks fileinfotpl_date hCalendar vevent.dtstart Manchmal zusätzlich oder nur das Veröffentlichungsdatum. Diese beiden Daten haben unterschiedliche Bedeutungen für das Urheberrecht. Bei Verwendung kann {{Date context}} den Unterschied anzeigen. Mikroformat hinzugefügt durch Vorlage {{Date}}
{{Information}} source Dateiquelle fileinfotpl_src Enthält oft ganze Tabellen. Wir haben keinen guten Weg mit diesen Vorlagen umzugehen. Quellenvorlagen haben oft Verweise zu Katalog-IDs, welche jedoch auch nicht maschinell lesbar sind.
{{Information}} author Urheber der Datei fileinfotpl_aut Dies kann entweder ein Autor, Ersteller und/oder ein Urheberrechtshalter sein und wird durchmischt genutzt. Enthält oft die {{Creator}}-Vorlage, welche unten erklärt wird.
{{Information}} permission Genehmigung und Lizenz für die Datei fileinfotpl_perm
{{Information}} other versions Andere Versionen der Datei fileinfotpl_ver
{{Artwork}} description Beschreibung des Kunstwerks fileinfotpl_desc hProduct.description
{{Artwork}} date Erstellungsdatum des ursprünglichen Kunstwerks fileinfotpl_date hCalendar vevent.dtstart Mikroformat, eingefügt von der Vorlage {{Date}}
{{Artwork}} source Dateiquelle fileinfotpl_src
{{Artwork}} artist Urheber des Kunstwerks fileinfotpl_aut "hProduct.fn value"
{{Artwork}} author Urheber des Kunstwerks fileinfotpl_aut "hProduct.fn value"
{{Artwork}} permission Genehmigung und Lizenz für die Datei und das Kunstwerk fileinfotpl_perm
{{Artwork}} other versions Andere Versionen der Datei fileinfotpl_ver
{{Artwork}} title Titel des Kunstwerks fileinfotpl_art_title hProduct.fn
{{Artwork}} object type Art des Kunstwerks fileinfotpl_art_object_type
{{Artwork}} medium Technik oder/und Medium, welche zur Erstellung des Kunstwerkes dienten fileinfotpl_art_medium
{{Artwork}} dimensions Abmessungen/Maße des Kunstwerks fileinfotpl_art_dimensions
{{Artwork}} gallery Einrichtung, in deren Besitz sich das Kunstwerk befindet fileinfotpl_art_gallery
{{Artwork}} location Ort des Kunstwerks innerhalb dieser Einrichtung fileinfotpl_art_location hProduct.locality
{{Artwork}} accession number Inventarnummer (accession number) für das Kunstwerk fileinfotpl_art_id hProduct.identifier
{{Artwork}} object history Provenienz (Besitzerhistorie) des Kunstwerks fileinfotpl_art_object_history
{{Artwork}} exhibition history Ausstellungsgeschichte des Kunstwerks fileinfotpl_art_exhibition_history
{{Artwork}} credit line Anerkennungs Text des Kunstwerks fileinfotpl_art_credit_line
{{Artwork}} inscriptions Inschriften des Kunstwerks fileinfotpl_art_inscriptions
{{Artwork}} notes Hinweise über das Kunstwerk fileinfotpl_art_notes
{{Artwork}} references Verweise auf das Kunstwerk fileinfotpl_art_references
{{Book}} Author Urheber des Buches fileinfotpl_author
{{Book}} Editor Herausgeber des Buches fileinfotpl_book_editor
{{Book}} Translator Übersetzer des Buches fileinfotpl_book_translator
{{Book}} Illustrator Illustrator des Buches fileinfotpl_book_illustrator
{{Book}} Title Titel des Buches fileinfotpl_book_title
{{Book}} Subtitle Untertitel des Buches fileinfotpl_book_subtitle
{{Book}} Series title Serien-Titel des Buches fileinfotpl_book_series-title
{{Book}} Authority file Normdaten (ISBN, LCCN, OCLC, BNF) fileinfotpl_book_authority
{{Book}} Publisher Herausgeber/Verlag des Buches fileinfotpl_book_publisher
{{Book}} Printer Duckhaus fileinfotpl_book_printer
{{Book}} Year of publication Datum oder Jahr der Veröffentlichung des Buches fileinfotpl_date
{{Book}} Place of publication Ort (oder Stadt), an dem das Buch veröffentlicht wurde fileinfotpl_book_place-of-publication
{{Book}} Language Sprache des Buches fileinfotpl_book_language
{{Book}} Description Beschreibung des Buches fileinfotpl_desc
{{Creator}} Name Name des Urhebers creator vCard.fn
{{Creator}} Alternative names Alternative Namen des Urhebers fileinfotpl_creator_alt-name_value vCard.nickname
{{Creator}} Description Staatsangehörigkeit und Beruf des Urhebers fileinfotpl_creator_desc_value vCard.note
{{Creator}} Date of death Sterbedatum des Urhebers fileinfotpl_creator_deathdate_value
{{Creator}} Date of birth Geburtsdatum des Urhberbers fileinfotpl_creator_birthdate_value vCard.bday
{{Creator}} Location of birth/death Sterbeort des Urhebers fileinfotpl_creator_deathloc_value
{{Creator}} Location of birth Geburtsort des Urhebers fileinfotpl_creator_birthloc_value
{{Creator}} Work period Schaffensperiode des Urhebers fileinfotpl_creator_work-period_value
{{Creator}} Work location Aufenthaltsort während der Schaffensperiode fileinfotpl_creator_work-location_valuev
{{Creator}} Image Portrait oder Photo, das den Urheber zeigt fileinfotpl_creator_image
{{Creator}} Authority file Normdaten des Urhebers (VIAF, LCCN, GND,...) fileinfotpl_creator_authority_value


{{FileContentsByBot}} (verschiedene) ist abhängig, siehe {{FileContentsByBot}} (various) hproduct-by-bot große, weiterhin wachsende Datenmenge, siehe {{FileContentsByBot}}
{{Photograph}} title Titel des Fotos fileinfotpl_art_title hProduct.fn
{{Photograph}} description Beschreibung des Fotos fileinfotpl_desc hProduct.description
{{Photograph}} original description Original-Archivbeschreibung des Fotos fileinfotpl_desc hProduct.description
{{Photograph}} date Erstellungsdatum des ursprünglichen Kunstwerks fileinfotpl_date hCalendar vevent.dtstart Mikroformat eingefügt von {{Date}}
{{Photograph}} medium Technik oder Medium der Fotografie fileinfotpl_art_medium
{{Photograph}} dimensions Abmessungen/Maße des Fotos fileinfotpl_art_dimensions
{{Photograph}} artist Urheber des Fotos fileinfotpl_aut "hProduct.fn value"
{{Photograph}} institution Einrichtung, in deren Besitz sich das Kunstwerk befindet fileinfotpl_art_gallery
{{Photograph}} location Ort des Fotos innerhalb dieser Einrichtung fileinfotpl_art_location hProduct.locality
{{Photograph}} source Dateiquelle fileinfotpl_src
{{Photograph}} permission Genehmigung und Lizenz für die Datei und das Kunstwerk fileinfotpl_perm
{{Photograph}} other versions Andere Versionen der Datei fileinfotpl_ver
{{Photograph}} accession number Inventarnummer (accession number) des Fotos hProduct.identifier

Alternatives Format für CommonsMetadata

Because the table + id based format proved very hard to add to templates which were not formatted similarly to the Commons information template, CommonsMetadata allows an alternative format, similar to license templates: the whole information template has to be enclosed in a fileinfotpl class and the tag containing the specific information needs to have a fileinfotpl_* class (same names as above, but class, not id).

Maschinenlesbare Daten aus Lizenzvorlagen

Seit Oktober 2010 werden die Klassen <span class="licensetpl_XXX"> verwendet.

licensetpl
Ein Element, das eine Lizenz identifiziert. Schließt den gesamten Lizenzcode ein und sollte eine SINGLE-Lizenz sein, keine Mehrfachlizenz.
licensetpl_short
Kurzform der Lizenz: „Public domain”, “CC BY-SA 3.0”, “CC by 2.0 fr”, u.s.w.
licensetpl_long
Langer Name der Lizenz: „Public domain“, „Creative Commons Attribution-Share Alike 3.0”,
licensetpl_attr_req
Ist Namensnennung erforderlich?: „true” oder „false”.
licensetpl_attr
Der Text der Namensnennung: beliebiger Text.
licensetpl_link_req
Ist ein Link zur Lizenz erforderlich?: „true” oder „false”.
licensetpl_link
Link zur Lizenz: www.creativecommons.org/licenses/by-sa/XXX/YYY
licensetpl_nonfree
„true“, wenn es sich nicht um eine freie Lizenz handelt (nicht bei Commons verwendet, nur bei Wikis mit einem EDP)

Mehrere licensetpl-Blöcke für dasselbe Werk können in einen Block mit der Klasse licensetpl_wrapper gepackt werde.

Vorlagen, die diese Informationen zur Verfügung stellen

Maschinenlesbarer Datensatz durch Stilformatierungsvorlagen

Style formatting templates, meant to provide uniform styles to different families of non-license templates, carry machine readable data identifying these families.

Vorlage Zweck Klassenname
{{Restriction-Layout}} used by Restriction tags restrictiontemplate
{{FoP-Layout}} verwendet von Panoramafreiheits-Vorlagen foptemplate
{{Partnership-Layout}} verwendet von Kooperations-Vorlagen partnershiptemplate
{{Source-Layout}} verwendet von Quellen-Vorlagen sourcetemplate
{{Created with}} verwendet von Erstellt mit …-Vorlagen createdwithtemplate

Machine readable data set by non-copyright restriction templates

Vorlagen für nicht urheberrechtliche Einschränkungen enthalten diese Klassen, um bestimmte Arten von Einschränkungen zu kennzeichnen.

Vorlage(n) Zweck Klassenname
{{Trademarked}} Markenrechtlich geschützte Bilder restriction-trademarked
{{Copydesign}} Urheberrechtlich geschützte Designs restriction-design
{{Communist symbol}} Kommunistische Symbole restriction-communist
{{Italy-MiBAC-disclaimer}} {{Soprintendenza}} Italienische Kulturgüter restriction-ita-mibac
{{Australian Commonwealth reserve}} Australian reserves restriction-aus-reserve
{{Personality rights}} {{Romania personality rights}} Persönlichkeitsrechte restriction-personality
{{2257}} Warnung nach dem "Child Protection and Obscenity Enforcement Act" (USA) restriction-2257
{{Costume}} Kostüme restriction-costume
{{Fan art}} Fan-Kunst restriction-fan-art
{{Currency}} Währung restriction-currency
{{IHL Symbol}} Symbole, die durch das humanitäre Völkerrecht eingeschränkt sind restriction-ihl
{{Nazi symbol}} Nazi und faschistische Symbole restriction-nazi
{{Insignia}} Offizielle Insignien restriction-insignia

Maschinenlesbarer Datensatz durch spezifische Vorlagen

More machine-readable data are set. Here is a non-exhaustive list:

{{Personality rights}}
<span class="commons-template-name" style="display:none" id="commons-template-personality-rights">Personality rights</span>
{{Credit line}}
<td id="fileinfotpl_credit" class="fileinfo-paramfield fileinfotpl_credit" style=""></td>

Machine-readable data set by location templates

{{Location}} and similar templates add machine-readable geocodes in the following format: <span class="geo">12.34;24.68</span> (latitude and longitude as floating-point numbers, separated by a semicolon). The coordinates use the en:WGS84 system (same as the GPS and most online maps). See Commons:Geocoding for more details.

Benutzung

MediaWiki API

Die MediaWiki-API gibt nun auch eine kleine Anzahl von Metadaten heraus: Betrachte folgende Anfrage:

/w/api.php?action=query&prop=imageinfo&format=json&iiprop=extmetadata&iilimit=5&titles=File%3AFranziskanerkirche%20Salzburg%20panoramic%20view%20interior%2039252px.jpg

(Im API-Sandkasten öffnen) welche einige nützliche Paramter, wie Credit, Artist, LicenseUrl und Copyrighted zurückgibt und die z.B. durch den Media Viewer benutzt werden.

Scripte, die Maschinenlesbare Daten benutzen

Externe Tools

Siehe auch

Festlegung von neuen maschinenlesbaren Daten

  • Do NOT use HTML id's, use classes. An ID can only be used once per page and most of these fields can occur multiple times per page. Consider for instance descriptions of derivative works, which can include information about the original and the derivative.
  • When possible, wrap the actual data, not some field header. This last method is historically used for all our Information templates, but much harder to support in the long run.
  • Wrap data, not the way the data is formatted.
  • Expect that formatting is lost when converting to data. Visual dress up is not part of the information.
  • Packe nicht mehrere Informationseinheiten in ein Feld ein. Es gibt einen Unterschied zwischen einem Veröffentlichungsdatum und einem Erstellungsdatum. Beides sind Datumsangaben, aber beides sind unterschiedliche Datenfelder. Auch CC BY-SA-4.0-3.0-2.5 ist kein Lizenzname, das wären 3 Lizenzen mit dem Namen CC BY-SA-##.
  • Stelle sicher, dass der Datenwert eine Einheit hat oder eine einheitliche Einheit ausgibt.

Probleme

Es gibt ein paar Dinge, die derzeit NICHT oder schlecht erkennbar sind. Dazu gehören: