Artikel 10 - Daten und Daten-Governance
1. Hochrisiko-KI-Systeme, in denen Techniken eingesetzt werden, bei denen KI-Modelle mit Daten trainiert werden, müssen mit Trainings-, Validierungs- und Testdatensätzen entwickelt werden, die den in den Absätzen 2 bis 5 genannten Qualitätskriterien entsprechen, wenn solche Datensätze verwendet werden.
2. Für Trainings-, Validierungs- und Testdatensätze gelten Daten-Governance- und Datenverwaltungsverfahren, die für die Zweckbestimmung des Hochrisiko-KI-Systems geeignet sind. Diese Verfahren betreffen insbesondere: (a) die einschlägigen konzeptionellen Entscheidungen; (b) die Datenerhebungsverfahren und die Herkunft der Daten sowie im Fall personenbezogener Daten den ursprünglichen Zweck der Datenerhebung; (c) die relevanten Datenaufbereitungsvorgänge wie Annotation, Kennzeichnung, Bereinigung, Aktualisierung, Anreicherung und Aggregierung; (d) die Aufstellung von Annahmen, insbesondere in Bezug auf die Informationen, die die Daten messen und darstellen sollen; (e) eine Bewertung der Verfügbarkeit, der Menge und der Eignung der benötigten Datensätze; (f) eine Untersuchung im Hinblick auf mögliche Verzerrungen, die die Gesundheit und Sicherheit von Personen beeinträchtigen, sich negativ auf die Grundrechte auswirken oder zu einer nach dem Unionsrecht verbotenen Diskriminierung führen könnten, insbesondere wenn die Datenausgaben die Eingaben für künftige Operationen beeinflussen; (g) geeignete Maßnahmen zur Erkennung, Verhinderung und Abschwächung möglicher Verzerrungen; (h) die Ermittlung relevanter Datenlücken oder Mängel, die der Einhaltung dieser Verordnung entgegenstehen, und die Möglichkeiten zur Behebung dieser Datenlücken und Mängel.
3. Die Trainings-, Validierungs- und Testdatensätze müssen im Hinblick auf die Zweckbestimmung relevant, hinreichend repräsentativ und so weit wie möglich fehlerfrei und vollständig sein. Sie müssen die geeigneten statistischen Merkmale aufweisen, gegebenenfalls auch in Bezug auf die Personen oder Personengruppen, bei denen das Hochrisiko-KI-System bestimmungsgemäß eingesetzt werden soll.
4. Die Datensätze müssen erforderlichenfalls die Merkmale, Eigenschaften oder Elemente berücksichtigen, die für die besonderen geografischen, kontextuellen, verhaltensbezogenen oder funktionalen Rahmenbedingungen, unter denen das Hochrisiko-KI-System bestimmungsgemäß verwendet werden soll, typisch sind.
5. Soweit dies für die Erkennung und Korrektur von Verzerrungen im Zusammenhang mit Hochrisiko-KI-Systemen im Einklang mit Absatz 2 Buchstaben f und g dieses Artikels unbedingt erforderlich ist, dürfen die Anbieter solcher Systeme ausnahmsweise besondere Kategorien personenbezogener Daten verarbeiten, wobei angemessene Vorkehrungen für den Schutz der Grundrechte und Grundfreiheiten natürlicher Personen zu treffen sind. Zusätzlich zu den Bestimmungen der Verordnungen (EU) 2016/679 und (EU) 2018/1725 und der Richtlinie (EU) 2016/680 müssen alle folgenden Bedingungen erfüllt sein, damit eine solche Verarbeitung erfolgen darf: (a) die Erkennung und Korrektur von Verzerrungen kann durch die Verarbeitung anderer Daten nicht effektiv erreicht werden, einschließlich synthetischer oder anonymisierter Daten; (b) die besonderen Kategorien personenbezogener Daten unterliegen technischen Beschränkungen bei der Weiterverwendung der personenbezogenen Daten und modernsten Sicherheits- und Datenschutzmaßnahmen, einschließlich der Pseudonymisierung; (c) die besonderen Kategorien personenbezogener Daten unterliegen Maßnahmen, die sicherstellen, dass die verarbeiteten personenbezogenen Daten geschützt und vertraulich behandelt werden und nicht an Dritte weitergegeben werden; (d) die besonderen Kategorien personenbezogener Daten werden gelöscht, sobald die Verzerrung korrigiert wurde oder die personenbezogenen Daten das Ende ihres Aufbewahrungszeitraums erreicht haben; (e) die Aufzeichnungen über die Verarbeitungstätigkeiten gemäß den Verordnungen (EU) 2016/679 und (EU) 2018/1725 und der Richtlinie (EU) 2016/680 enthalten die Gründe, weshalb die Verarbeitung besonderer Kategorien personenbezogener Daten für die Erkennung und Korrektur von Verzerrungen unbedingt erforderlich war.
6. Bei der Entwicklung von Hochrisiko-KI-Systemen, in denen keine Techniken eingesetzt werden, bei denen KI-Modelle trainiert werden, gelten die Absätze 2 bis 5 nur für Testdatensätze.