Apfel oder Popcorn? - Eine enaktive Einführung in KI, maschinelles Lernen und Entscheidungsbäume mit Datenkarten: Unterschied zwischen den Versionen

Aus Eduwiki
Wechseln zu:Navigation, Suche
Keine Bearbeitungszusammenfassung
Keine Bearbeitungszusammenfassung
 
(52 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
Auf dieser Seite werden nach und nach die Inhalte der Unterrichtsreihe „Entscheidungsbäume mit Datenkarten“ eingefügt.
{{DISPLAYTITLE:Apfel oder Popcorn? Eine enaktive Einführung in Entscheidungsbäume, maschinelles Lernen und KI mit Datenkarten}}


'''Hinweis: Dieses Unterrichtsmodul befindet sich noch in der Erprobungsphase und wird von uns noch evaluiert sowie überarbeitet. Bei Interesse an Erprobungen melden Sie sich gerne bei Lukas Höper aus der Didaktik der Informatik.'''
'''Download aller Materialien gesammelt als ZIP-Ordner:''' [https://uni-paderborn.sciebo.de/s/AEms4o4zzVZ2wwG Unterrichtsreihe_Datenkarten.zip]
{{Infobox|image=Datei:ProDaBi Logo.png|thema=Entscheidungsbäume|Material=Medium:Unterrichtsmodul Entscheidungsbäume Klasse 5 und 6.zip|Material_Name=Download aller Materialien zum Modul|Autor=Yannik Fleischer, Susanne Podworny, Sven Hüsing|subpages=|Material1=|Material1_Name=|Material2=|Material2_Name=}}


Daten spielen im alltäglichen Leben in der digitalen Welt bewusst oder auch unbewusst eine große Rolle. Schülerinnen und Schüler interagieren tagtäglich mit verschiedenen [[datengetriebenes digitales Artefakt|datengetriebenen digitalen Artefakten]] (z.B. der News Feed auf einer Social Media Plattform oder die Startseite bei etwa Netflix oder Spotify). In diesem Unterrichtsmodul wird das Mobilfunknetz als Beispiel für ein solches [[datengetriebenes digitales Artefakt]] aufgegriffen. Bei dessen Nutzung (z.B. Telefonieren oder SMS-Schreiben) werden verschiedene Daten explizit und implizit erhoben, wie etwa Standortdaten der Basisstationen, mit denen die Nutzerinnen und Nutzer verbunden sind. Anhand dieses Beispiels soll in diesem Unterrichtsmodul das [[Datenbewusstsein]] der Schülerinnen und Schüler gefördert werden, wozu die Leitfrage „''Wo, wie und wozu werden Daten gesammelt und verarbeitet?''“ beispielhaft beantwortet wird.  
{{Infobox|image=Datei:ProDaBi Logo.png|thema=Entscheidungsbäume|Material=Media:Nutri-Score und Entscheidungsbäume.pdf|Material_Name=Nutri-Score und Entscheidungsbäume|Autor=Yannik Fleischer, Susanne Podworny|subpages=|Material1=|Material1_Name=|Material2=|Material2_Name=|Material3=|Material3_Name=|Material4=|Material4_Name=}}
 
Künstliche Intelligenz spielt im alltäglichen Leben sehr vieler (junger) Menschen mittlerweile eine große Rolle. Schülerinnen und Schüler (SuS) interagieren tagtäglich mit verschiedenen Anwendungen (z.B. Social Media Plattformen, Youtube, Spotify, Amazon, Smartphone Kamera, Videospiele), die KI beinhalten. Auch in nicht so alltäglichen, aber gesellschaftlich relevanten Bereichen wie Medizin und Justiz gibt es Beispiele für die Verwendung von KI. Fast alle KI Anwendungen die jüngst entwickelt wurden basieren auf maschinellem Lernen und somit dem Verarbeiten von Daten. Gemessen daran, dass KI so allgegenwärtig ist, sind fundierte Kenntnisse über KI und maschinelles Lernen nicht sehr weit verbreitet. Es wird häufig als nicht zugänglich und fast mystisch angesehen, was zu verschiedenen Fehleinschätzungen führen kann. Um dieser Entwicklung entgegenzuwirken hat das Thema nun Platz in Kernlehrplan NRW für die KLasse 5 und 6 gefunden. Anhand dieses Unterrichtsmoduls soll Basiswissen über maschinelles Lernen am Beispiel datenbasierter Entscheidungsbäume vermittelt werden. Dabei ist das Thema altergerecht aufgearbeitet, sodass SuS am für sie relevanten Kontext Ernährung mit Datenkarten vorwiegend handlungsorientiert auf enaktiver Ebene arbeiten können, um Grundprinzipien von datenbasierten Entscheidungsbäumen und maschinellem Lernen zu verstehen.    


==Steckbrief des Unterrichtsmoduls==
==Steckbrief des Unterrichtsmoduls==
'''Titel:''' Wo, wie und wozu werden Daten gesammelt und verarbeitet? – Datenbewusstsein durch die Exploration von Standortdaten aus dem Mobilfunknetz
'''Titel:''' Apfel oder Popcorn? Eine enaktive Einführung in Entscheidungsbäume, maschinelles Lernen und KI mit Datenkarten
 
'''Stichworte:''' [[Data Science]], KI, Maschinelles Lernen, Entscheidungsbäume, Ernährung
 
'''Zielgruppe:''' Informatik in Klasse 5 und 6 (alle Schulformen) - Anknüpfungen an den Biologieunterricht möglich. Wir empfehlen den Einsatz der Unterrichtsreihe in Klasse 6.
 
'''Inhaltsfeld:''' "Automaten und künstliche Intelligenz" (insbesondere der Schwerpunkt: Entscheidungsbäume), "Daten und Information",
 
'''Vorkenntnisse:''' Basiskenntnisse über Nährwertangaben sind wünschenswert, entsprechende Erklärungen könnten aber auch in diesem Modul integriert werden (Vorschlag s.u.). 
 
'''Zeitlicher Umfang:''' 8 bis 10 Unterrichtsstunden a 45 Minuten


'''Stichworte:''' [[Datenbewusstsein]], [[Data Science]], Exploration von Standortdaten, Mobilfunknetz
=Überblick=
In dieser Unterrichtsreihe geht es darum Schülerinnen und Schülern (SuS) eine Vorstellung von maschinellem Lernen und Künstlicher Intelligenz zu vermitteln. Dies wird anhand von datenbasierten Entscheidungsbäumen erarbeitet. Die Umsetzung in dieser Reihe basiert hauptsächlich auf unplugged Materialien, die das handlungsorientierte Lernen auf enaktiver Ebene ermöglichen. Dies wird ergänzt durch eine digitale Lernumgebung, die zum Ende der Reihe flexibel einsetzbar ist. Der ausgewählte Kontext „Lebensmittel“ ist für alle SuS relevant und insbesondere auch für jüngere SuS geeignet.  


'''Zielgruppe:''' Informatik in Klasse 5 und 6 (alle Schulformen) - Anknüpfungen an den Politik- und Philosophieunterricht möglich
Lebensmittel kann man anhand von Nährwertangaben als “eher empfehlenswert” oder “eher nicht empfehlenswert” klassifizieren. Dabei müssen mehrere Merkmale wie Fettgehalt, Zuckergehalt und Kalorien berücksichtigt werden. Ein mehrstufiges Regelsystem, mit dem solche Klassifikationen durchgeführt werden können, sind sogenannte Entscheidungsbäume (engl. decision trees). Solche Entscheidungsbäume kann man basierend auf Daten erstellen. Mit Daten ist hier gemeint: Man geht von einer Menge von Lebensmitteln aus, zu dem Nährwertangaben bekannt sind, und zu denen man weiß, ob sie eher empfehlenswert oder nicht empfehlenswert sind. Darauf aufbauend kann man “manuell” schrittweise Entscheidungsbäume erstellen, die die Lebensmittel zunehmend fehlerfreier klassifizieren.  Dieser Erstellungsprozess kann auch automatisiert werden, um nach bestimmten Kriterien optimale Entscheidungsregeln zu finden. Die Automatisierung erfordert, jedes Lebensmittel als “Datenkarte” - das ist eine Liste von Zahlenwerten zu den verschiedenen Nährwertmerkmalen - digital zu repräsentieren. Ein maschinelles Lernverfahren entwickelt zu diesen Daten einen passenden (daten-basierten) Entscheidungsbaum. In der Praxis sind neben Entscheidungsbäumen auch andere Typen von Klassifikatoren - z.B. neuronale Netze - im Gebrauch, mit darauf angepassten maschinellen Lernverfahren.


'''Inhaltsfeld:''' "Informatik, Mensch und Gesellschaft" (insbesondere der Schwerpunkt: [[Datenbewusstsein]]), "Daten und Information", "Informatiksysteme"
Entscheidungsbäume haben den Vorteil, dass sie als Regelsystem von SuS verstanden werden können, ebenso können die Erstellungsverfahren eines Baumes zunächst manuell erarbeitet und dann am Computer automatisiert werden. Im Unterricht werden Lebensmittel zunächst als reale Datenkarten modellhaft repräsentiert und die SuS können Karten sortieren und klassifizieren, um sich auf einer enaktiven Ebene Verfahren anzueignen. Der Anspruch ist, einen Einblick “in den Maschinenraum” des maschinellen Lernens zu gewinnen und nicht nur vorgegebene Systeme, die eine völlige Black-Box bleiben, als Klassifikatoren mit Daten zu trainieren.[[Datei:Datenkarten .png|mini|399x399px|Abbildung 1: Beispiele Datenkarten über Lebensmittel]]In dieser Unterrichtsreihe wird in ca. 9 Unterrichtsstunden in datenbasierte Entscheidungsbäume eingeführt. Dabei steht im Vordergrund, wie ein Entscheidungsbaum aufgebaut ist und wie die passenden Entscheidungsregeln datenbasiert hergeleitet werden. Dieser systematische, datenbasierte Erstellungsprozess kann dann als eine Methode des maschinellen Lernens automatisiert erfolgen und ein resultierender Entscheidungsbaum kann als eine Form künstlicher Intelligenz bezeichnet werden. Dazu erstellen SuS manuell mit Hilfe von Datenkarten (siehe Abb. 1) eigene Entscheidungsbäume, um zu verstehen, erstens wie ein Entscheidungsbaum als Regelsystem aufgebaut ist, und zweitens wie man systematisch bei der Konstruktion vorgehen kann, um Entscheidungsbäume mit möglichst geringer Fehlklassifikationsanzahl zu erhalten. Ergänzend gibt es eine vorbereitete digitale Lernumgebung, in der SuS Entscheidungsbäume automatisiert erstellen können. Dabei lernen sie etwas über Künstliche Intelligenz und maschinelles Lernen. Sie Lernen Entscheidungsbäume als gewinnbringende Repräsentation von Daten kennen, mit deren Hilfe Erkenntnisse gewonnen und Vorhersagen getroffen werden können, bei deren Anwendung aber auch Fehler passieren können.


'''Vorkenntnisse:''' Dieses Unterrichtsmodul setzt keine besonderen Vorkenntnisse der Lernenden voraus. Es sollte jedoch eine grundlegende Erfahrung im Umgang mit dem Computer bzw. mit Web-Anwendungen vorhanden sein. Außerdem sind grundlegende Vorstellungen des Datenbegriffs (insb. Daten vs Information – s. Inhaltsfeld „Information und Daten“) wünschenswert, entsprechende Erklärungen könnten aber auch in diesem Modul integriert werden.
Auf fachlicher Basis der deutschen Gesellschaft für Ernährung (DGE) wird das Thema Ernährung aufgegriffen, welches in der Sekundarstufe I behandelt werden sollte, aber aktuell in den Lehrplänen der verschiedenen Fächer unterrepräsentiert ist. Auf diese Weise wird das Thema maschinelles Lernen mit einem bildungsrelevanten Sachthema verknüpft. Der Kontext ist nicht typische für den Bereich KI und maschinelles Lernen, eignet sich aber für die Anbindung an die Erfahrungswelt aller SuS (unabhängig von Alter, Geschlecht, etc.). Es gibt dazu  Verknüpfungsmöglichkeiten z. B. zum Biologieunterricht und die Behandlung des Kontextes kann einen Beitrag zu allgemeinbildendem Unterricht darstellen.


'''Zeitlicher Umfang:''' 4 bis 6 Unterrichtsstunden a 45 Minuten
=Leitfragen des Moduls=


==Überblick über den Verlauf des Unterrichtsmoduls==
*Wie kann man anhand der Nährwertangaben einen Entscheidungsbaum konstruieren, der die Beurteilung unterstützt, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist?
Dieses Unterrichtsmodul vermittelt Datenbewusstsein: Die Kompetenz, in - auch selbstgenutzten - unterschiedlichen Anwendungen sich über die Rolle der dort verarbeiteten Daten bewusst zu werden, um einschätzen zu können, was die Nutzung bedeutet oder auch wie die Anwendung genutzt werden kann bzw. sollte. Das Modul setzt sich aus drei Teilen zusammen und thematisiert als Beispielanwendung die Erhebung und Verarbeitung von Standortdaten exemplarisch bei der Nutzung des Mobilfunknetzes und weiterführend in anderen Alltagskontexten der Lernenden.
*Wie kann man einen Entscheidungsbaum für dieses Problem automatisiert (durch maschinelles Lernen) erstellen lassen?


'''Im ersten Teil''' wird das Mobilfunknetz als Kontext eingeführt und der Aufbau und die Funktionsweise dessen am Beispiel des Telefonierens mit dem Handy erarbeitet. Dabei wird außerdem hergeleitet, welche persönlichen Daten dabei erhoben und wozu diese primär verwendet werden. Zum Beispiel ist das der Standort einer Basisstation im Mobilfunknetz, mit der Nutzende verbunden sind. Diese Standortdaten sind etwa dafür nötig, um ein effizientes Herstellen einer Mobilfunkverbindung zu gewährleisten (primärer Verwendungszweck der erhobenen Standortdaten).
=Ziele des Moduls=
Bezogen auf Datenkarten Entscheidungsbäume:              


'''Im zweiten Teil''' werden gegebene Daten aus dem Mobilfunknetz herangezogen. Diese echten Daten einer Person enthalten u.a. Standortdaten (umfassendere Erklärung der Daten s.u. und in den [[Medium:Exploration Standortdaten - Ergaenzende Informationen.pdf|ergänzenden Informationen zum Unterrichtsmodul]]). Die Standortdaten werden für von den Lernenden für die Fragestellung, welche Informationen über eine Person aus Standortdaten gewonnen werden können, mittels einer bereitgestellten Anwendung analysiert. Dabei charakterisieren sie die ihnen unbekannte Person, indem sie einen Steckbrief erstellen. Es wird darauf eingegangen, warum ein solches Profiling nach deutschen Gesetzen verboten ist – mit strengen genehmigungspflichtigen Ausnahmen für spezielle Zwecke (z.B. Strafverfolgungszwecke). Die Lernenden verstehen diese Gründe besser, weil sie exemplarisch erfahren haben, was man aus solchen Daten schließen könnte.  
Die SuS...


'''Im dritten Teil''' werden die gemachten Erfahrungen auf weitere mögliche Anwendungen übertragen und so verallgemeinert, indem die Lernenden weitere Kontexte aus ihrem Alltag untersuchen, in denen Standortdaten erhoben werden, wie zum Beispiel bei bestimmten Apps auf ihrem Handy (u.a. auch auf der Basis von GPS-Daten). Im Rahmen einer Evaluation und Bewertung der Datenerhebung und -verarbeitung in den verschiedenen Beispielen können Vor- und Nachteile der Erhebung und Verarbeitung personenbezogener Standortdaten diskutiert werden, um so den Lernenden eine Grundlage für reflektierten Entscheidungen hinsichtlich der Freigabe ihrer personenbezogenen Daten zu vermitteln.
*können einen Entscheidungsbaum als Regelsystem zum Klassifizieren von Objekten anwenden.
*verstehen eine Datenkarte als Repräsentation eines Objekts, auf dem die Ausprägungen verschiedener Merkmale dieses Objekts erfasst sind.
*erstellen Entscheidungsregeln zum Klassifizieren von Objekten hinsichtlich eines (Ziel-)Merkmals systematisch basierend auf Daten (in Form einer Sammlung von Datenkarten), d. h. basierend auf den Ausprägungen anderer (Prädiktor-)Merkmale der Objekte.
*präsentieren und reflektieren eigene Entscheidungsbäume angemessen.
*verstehen die Rolle von Daten als Grundlage für die Erstellung von Entscheidungsbäumen.
*verstehen, dass Entscheidungsbäume Prognosen liefern sollen (Klassifikationen neuer Objekte) und deshalb mit neuen Daten getestet werden müssen und dass dabei Fehler in Form falscher Prognosen auftreten können.
*bewerten Entscheidungsbäume anhand der Anzahl falsch klassifizierter Objekte in einem Datensatz.
*beschreiben anhand ihrer manuellen Erfahrungen mit Datenkarten, wie ein Computer Entscheidungsbäume automatisiert erstellen kann und identifizieren diesen Vorgang als maschinelles Lernen.


==Didaktische Kernidee: Förderung von Datenbewusstsein in diesem Unterrichtsmodul==
Zur Umsetzung der Ziele und damit zum Fördern des Datenbewusstseins der Lernenden werden die Facetten von Datenbewusstsein in den drei Teilen des Unterrichtsmoduls umgesetzt. Das gewählte Beispiel im ersten Teil beschreibt ein Interaktionssystem bestehend aus Nutzendem und dem Mobilfunknetz als datengetriebenes digitales Artefakt sowie der Interaktion zwischen diesen. Durch die Erkundung des Aufbaus und der Funktionsweise des Mobilfunknetzes '''im ersten Teil''' können die Lernenden anhand einer enaktiven Simulation mit einem Puzzle die explizite und implizite Erhebung persönlicher Daten in diesem Beispiel untersuchen. Anschließend wird exemplarisch bei der Erhebung der Standortdaten der primäre Verwendungszweck untersucht. Die implizit erhobenen Standortdaten werden zum Herstellen einer Mobilfunkverbindung (z.B. beim Telefonieren) notwendigerweise verarbeitet (primärer Zweck). '''Im zweiten Teil''' explorieren die Lernenden gegebene Standortdaten aus dem Mobilfunknetz zu einem ausgedachten sekundären Zweck, indem sie eine Person anhand ihrer Standortdaten charakterisieren (Konstruktion eines digitalen Doppelgängers). Dazu explorieren sie die Standortdaten in einer gegebenen Web-Anwendung und erstellen einen Steckbrief. So wird der Frage nachgegangen, welche Informationen über eine Person anhand von Standortdaten gewonnen werden können. Diese exemplarische Datenauswertung ist für einen deutschen Mobilfunkanbieter stark reguliert, was im Anschluss daran aufgegriffen und reflektiert werden kann. Dabei können auch weitere Beispiel sekundärer Verwendungszwecke der im Mobilfunknetz erhobenen Daten aufgegriffen werden (s.u., weitere sekundäre Zwecke).  '''Im dritten Teil''' werden die erlernten Kenntnisse zum Datenbewusstsein auf weitere Beispiele aus ihrem eigenen Alltag angewandt: Interaktion mit einem datengetriebenen digitalen Artefakt; explizite und implizite Datenerhebung; primäre und sekundäre Zwecke der Verwendung und Verarbeitung sowie Konstruktion eines digitalen Doppelgängers. Diese Kontexte werden anschließend reflektiert und kriteriengeleitet bewertet.


==Ziele des Unterrichtsmoduls==
Bezogen auf den Inhalt Lebensmittel:
In den drei Teilen dieses Unterrichtsmodul werden im Wesentlichen folgende Ziele verfolgt:  


*'''Teil 1: Aufbau und Funktionsweise des Mobilfunknetzes'''
Die SuS...
**Die Lernenden erkennen den groben Aufbau und die grundlegende Funktionsweise eines Mobilfunknetzes, indem sie exemplarisch das Telefonieren im Mobilfunknetz anhand eines Puzzles simulieren und erklären.
**Die Lernenden unterscheiden die Begriffe der explizit und implizit erhobenen Daten und erkennen, welche Daten bei der Nutzung des Mobilfunknetzes explizit und implizit erhoben werden.
**Die Lernenden begründen exemplarisch für die implizite Erhebung von Standortdaten die Notwendigkeit der Verarbeitung dieser Daten (primärer Zweck).
*'''Teil 2: Exploration gegebener Standortdaten'''
**Die Lernenden erklären das Vorgehen zur Exploration von Standortdaten mithilfe der gegebenen Standortdaten und können wesentliche Schritte beschreiben.
**Die Lernenden ermitteln persönliche Informationen über eine ihnen unbekannte Person, indem sie gegebene Standortdaten mit einer Web-Anwendung explorieren (sekundärer Zweck).
*'''Teil 3: Weitere Kontexte mit der Erhebung und Verarbeitung von Standortdaten'''
**Die Lernenden wenden ihre gelernten Kenntnisse zum Datenbewusstsein auf ein weiteres Beispiel eines datengetriebenen digitalen Artefakts aus ihrem Alltag an, indem sie an diesem Beispiel die explizite und implizite Datenerhebung, deren Verwendung und Verarbeitung zu primären und exemplarischen sekundären Zwecken sowie die Konstruktion von digitalen Doppelgängern identifizieren und beschreiben.
**Die Lernenden nehmen eine begründete Bewertung der Erhebung und Verarbeitung von Standortdaten in den thematisierten Beispielen vor, indem sie zum Beispiel auf den Kompromiss zwischen einem datensparsamen Verhalten und das Nutzen von individuellen oder gesellschaftlichen Vorteilen eingehen.


==Leitfragen im Unterrichtsmodul==
*lernen die Bedeutung einzelner Nährwertangaben (Merkmale) bei Lebensmitteln und ihre Relevanz für die Qualitätsbewertung von Lebensmitteln kennen.
*leiten aus den gegebenen Nährwertdaten ein Regelsystem ab, das Prognosen darüber trifft , ob ein (neues) Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist.


*'''Teil 1: Aufbau und Funktionsweise des Mobilfunknetzes'''
=Material und Umgang damit=
**Wie funktioniert das Mobilfunknetz und welche Daten werden bei der Nutzung  (z.B. beim Telefonieren) explizit und implizit erhoben?
Das Thema KI und Entscheidungsbäume wird in diesem Unterrichtsvorschlag anhand des Themas Lebensmittel erarbeitet, das die Schülerinnen und Schüler aus ihrer Lebenswelt kennen. Dabei wird ein Kartenspiel mit entsprechenden Datenkarten genutzt, um Entscheidungsbäume zunächst unplugged, enaktiv und altersgerecht zu behandeln.
**Warum ist die implizite Erhebung und schließlich die Verarbeitung der Standortdaten nötig?
*'''Teil 2: Exploration gegebener Standortdaten'''
**Welche Erkenntnisse können über eine Person durch die Auswertung ihrer Standortdaten gewonnen werden? 
*'''Teil 3: Weitere Kontexte zur Erhebung und Verarbeitung von Standortdaten'''
**In welchen anderen Kontexten werden Standortdaten erhoben und wozu werden sie dort verwendet?


==Zusammenfassender Überblick über das Unterrichtsmodul==
Mit einem Spielkartensatz zu Lebensmitteln wird anhand der „Big 7“ der Nährstoffe (Energie, Fett, gesättigte Fettsäuren, Eiweiß, Kohlenhydrate, Zucker, Salz) ein Regelsystem mit der Methode der datenbasierten Entscheidungsbäume erarbeitet.
Das Unterrichtsmodul mit den zentralen Aktivitäten, Leitfragen und Fachinhalten in den drei Teilen wird in der nachfolgenden Grafik zur Übersicht und Orientierung zusammengefasst.
[[Datei:Standortdatenmodul 5-6 - Überblick gekürzt.png|zentriert|mini|780x780px|Überblick über das Unterrichtsmodul]]


==Überblick über den Unterrichtsverlauf==
Man bezeichnet dabei das Merkmal, für das eine Klassifikation erstellt werden soll, als Zielmerkmal und die übrigen Merkmale (hier Nährstoffe), mit deren Hilfe Regeln aufgestellt werden, als Prädiktormerkmale.
Im Folgenden wird ein Überblick über den Unterrichtsverlauf gegeben. Die Materialien, wie etwa Arbeitsblätter und ergänzende Informationen, der verschiedenen Phasen sind in der Tabelle verlinkt.  


Eine detaillierte '''exemplarische Verlaufsplanung''' kann hier eingesehen werden: [[Medium:Exploration Standortdaten - Verlaufsplan.pdf|Verlaufsplanung (wird noch überarbeitet)]].  
Mithilfe von Spielkarten wie in Abb. 1 über Lebensmittel mit den zugehörigen Nährwertangaben (pro 100 g) erarbeiten SuS von Hand nach und nach erst einstufige, später zwei- oder mehrstufige Entscheidungsbäume. Diese Entscheidungsbäume werden mit Testkarten validiert. Das dabei aufgebaute Wissen wird genutzt, um zu verstehen, wie Entscheidungsbäume als Regelsysteme basierend auf Daten (systematisch) erstellt und anschließend genutzt werden können. Das dabei angewandte Vorgehen kann in Grundzügen auf das maschinelle Lernen (wie es ein Computer macht) übertragen werden. In der letzten Unterrichtsstunde wird ein Entscheidungsbaum automatisch durch den Computer mit Hilfe eines Jupyter Notebooks generiert und in der Klasse diskutiert (optional durch die SuS selbst oder in einer Präsentation durch die Lehrkraft).


Des Weiteren steht eine '''Handreichung mit ergänzenden Hintergrundinformationen für Lehrkräfte''' zur Verfügung, in der ausgewählte Inhalte des Unterrichtsmodul, Materialien und Begrifflichkeiten näher erklärt werden: [[Medium:Exploration Standortdaten - Ergaenzende Informationen.pdf|Ergänzende Informationen]]. 
===Material===


*55 Karten, davon                 
**40 Trainingskarten (blau),
**15 Testkarten (gelb)
*50 grüne und 50 rote Büroklammern zum Labeln
*11 Arbeitsblätter
*4 PowerPoint Präsentationen als Grundlage für Plenumsphasen im Unterricht
*1 digitale menübasierte Lernumgebung in einem Jupyter Notebook
'''Download:''' [https://unterrichtsmaterial-ddi.cs.upb.de/images/5/57/Druckvorlage.zip Druckvorlage] für die Datenkarten inkl. Anleitung
Die blauen Trainingskarten werden verwendet, um die Entscheidungsbäume unplugged zu erarbeiten. In einem ersten Schritt werden die Karten mit Unterstützung durch die Ernährungspyramide der Deutschen Gesellschaft für Ernährung (DGE) gelabelt. Eher empfehlenswerte Lebensmittelkarten bekommen eine grüne Büroklammer angeheftet, eher nicht empfehlenswerte Lebensmittel bekommen eine rote Büroklammer.
Schülerinnen und Schüler vergeben zunächst die Label für die Lebensmittel als “eher empfehlenswert” oder “eher nicht empfehlenswert” in Partnerarbeit. Anschließend wird dies im Plenum diskutiert und ein einheitlicher Konsens getroffen, sodass nach der Diskussion alle Schülerinnen und Schüler einen Kartensatz mit identischen Labeln vorliegen haben. Beim Labeln können zudem 10 Karten ausgewählt werden, bei denen Uneinigkeit für das Klassifizieren herrscht. Es ist günstig etwa 10 Karten auszusortieren, da das Arbeiten später mit maximal 30 Karten angenehmer ist. Diese Karten bleiben ohne Büroklammer und können später mithilfe der fertigen Bäume klassifiziert werden. Durch das Labeln entstehen Modelle der Realität, die möglicherweise von der Realität abweichen.
Wir empfehlen den Einsatz der Unterrichtsreihe in Klasse 6.
Differenzierung: Eine vereinfachte und funktionierende Variante des Kartendatensatzes stellt die Variante „Lebensmittel light“ dar. Dieser vereinfachte Datensatz enthält 22 Trainingskarten (blau) und 10 Testkarten (gelb) mit jeweils ganzzahligen Werten.
=Unterrichtsverlauf=
Auf den folgenden Seiten wird ein möglicher Unterrichtsverlauf beschrieben. Eine U-Stunde ist dabei mit 45 Minuten geplant. Aus Sicht der Autorinnen und Autoren dieser Reihe hat es sich in zahlreichen Erprobungen als sinnvoll herausgestellt, die Reihe im Ganzen durchzuführen. Sollte jedoch Zeitknappheit herrschen, ist es möglich, die als optional gekennzeichneten (graue Schrift) Stunden verkürzt zu unterrichten.
Kurzübersicht zur Unterrichtsreihe
{| class="wikitable mw-collapsible"
|Phase
|Thema
|Inhalt
|-
|'''1'''
1 U.-Std.
|'''Einführung in den Kontext  KI und Formulierung der'''
'''Leitfrage'''
|In dieser Phase wird als Einstieg ein fertiges  KI-System (Google QuickDraw) exploriert. Dabei werden Vorkenntnisse aktiviert und erste  Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen. Ziel ist es Klassifizieren von Objekten als eine Anwendung von KI einzuführen und zu erarbeiten, dass dies durch (überwachtes) maschinelles Lernen möglich ist, das auf Daten basiert. Abschließend wird als eine Leitfrage der Unterrichtsreihe die Frage aufgeworfen, wie maschinelles Lernen basierend auf Daten funktionieren kann.
|-
|'''2'''
1 U.-Std.
|'''Exkurs: Lebensmittel'''
|In dieser Phase erfolgt ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu wird die Bedeutung verschiedener Nährstoffe thematisiert. Verschiedene Lebensmittel können durch Datenkartne repräsentiert werden. Nährwertangaben als Ausprägungen von Merkmalen von Lebensmitteln aufgefasst und somit als als Daten interpretiert die jeweils ein Lebensmittel modellieren.
|-
|'''3'''
1 U.-Std.
|'''Vorbereiten der Daten: Datenkarten mit Labeln versehen'''
|Die zu entwickelnde künstliche Intelligenz soll  später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher  empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit  maschinellem Lernen erstellt wird, dann werden dafür Beispiele für eher  empfehlenswerte oder eher nicht empfehlenswerte Lebensmittel benötigt. In  dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der  Datenkarten hergestellt.
|-
|'''4'''
1 U.-Std.
|'''Einführung in das Aufstellen datenbasierter Entscheidungsregeln'''
|Ziel innerhalb der Unterrichtsreihe ist es, ein  mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen.  Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln  (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem  Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird.  Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten  Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu  10 g Fett und über 10 g Fett). Die Entscheidungsregeln werden in dieser  Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt.
|-
|'''5'''
2 U.-Std.
|'''Erstellen einstufiger Entscheidungsbäume'''
|Die SuS wissen nun, wie man eine Entscheidungsregel  aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte  ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch  mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde  erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann.  Dabei werden verschiedene Merkmale einbezogen und ein strategisches Vorgehen  beim Suchen des Schwellenwertes erarbeitet.
|-
|'''6'''
1 U.-Std.
|'''Erstellen mehrstufiger Entscheidungsbäume'''
|Nachdem die SuS systematisch nach guten  Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer  Entscheidungsregel nicht alle Lebensmittel korrekt klassifizieren kann. Es  wird offensichtlich, dass man ein mehrstufiges Regelsystem benötigt. Deshalb  werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale  einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu  erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder  mehrstufige Entscheidungsbäume erstellen.
|-
|'''7'''
1 U.-Std.
|'''Testen von Entscheidungsbäumen'''
'''mit neuen Daten'''
|Nachdem verschiedene Gruppen von SuS  unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf  neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht  haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen  klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen  auch Unsicherheiten stecken, da einige Lebensmittel falsch klassifiziert  werden. Um die Unsicherheiten in Entscheidungsbäumen  systematisch weiter zu untersuchen, testet jede Gruppe ihren  Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten  gekennzeichnet sind. So wird es möglich, die Performance der  Entscheidungsbäume miteinander zu vergleichen.
|-
|'''8'''
1 U.-Std.
|'''Automatisiertes Erstellen von Entscheidungs-bäumen mit dem  Computer'''
|Nachdem die SuS den Erstellungsprozess eines Entscheidungsbaums kennengelernt und manuell durchlaufen haben, wird in dieser Stunde im eigentlichen Sinne des maschinellen Lernens ein Entscheidungsbaum automatisch mit Hilfe eines Computers erstellt. In einer vorbereiteten menübasierten digitalen Lernumgebung (basierend auf Jupyter Notebook), die per Link erreichbar ist, können die SuS selbst mit Entscheidungsbäumen arbeiten oder die Lehrkraft kann den Prozess demonstrieren. Die Lernumgebung ist weitgehend selbsterklärend und erfordert keine Programmierkenntnisse. Es ist möglich per Knopfdruck Einfluss auf die Daten zu nehmen und einen Entscheidungsbaum basierend auf den Daten erstellen lassen. Dies ermöglicht auch die Daten zu verändern und die Auswirkungen auf den Entscheidungsbaum zu untersuchen.  
|-
|'''9'''
1 U.-Std.
|'''Reflexion'''
|Abschließend wird noch einmal reflektiert, wie mit Hilfe des Computers aus  Daten Entscheidungsbäume erstellt werden, welche Vor- und Nachteile dies hat  und wo die SuS solche Entscheidungsmodelle in ihrem Alltag wiederfinden.
|}
Ausführliche Beschreibung des Unterrichtsverlaufs:
{| class="wikitable"
{| class="wikitable"
|+
|'''Phase'''
!<big>Phase</big>
|'''Inhalt'''
!<big>Inhalt</big>
|'''Ziele'''
!<big>Ziele</big>
|'''Material'''
!<big>Material</big>
|-
|-
| colspan="4" |'''<center><big>Teil 1: Aufbau und Funktionsweise des Mobilfunknetzes</big></center>'''
| colspan="4" |
|-
|-
|'''1a'''
|'''1'''
|'''Einführung in den Interaktionskontext und Problematisierung:'''
<br />
Als Unterrichtsgespräch wird gemeinsam ein (Gedanken-) Experiment zum Herstellen einer Mobilfunkverbindung beim Telefonieren durchgeführt: (1) Von einem Handy wird ein zweites Handy angerufen – Was passiert dabei? (2) Was passiert nun, wenn ein Handy in einer Metallbox liegt? (3) Was passiert, wenn beide Handys in der Metallbox liegen?
|'''Einführung in den Kontext  KI und Problematisierung'''


Gemeinsam wird die Frage erarbeitet, wie das Mobilfunknetz aufgebaut ist und welche Schritte zum Herstellen einer Mobilfunkverbindung nötig sind.
<u>Motivation:</u>


In dieser Phase wird  als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse  aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen  gewonnen.


<u>Didaktischer Kommentar:</u>


Es werden eigene Erfahrungen der Lernenden zur Nutzung des Mobilfunknetzes aufgegriffen (aus Nutzerperspektive). Außerdem soll eine Neugierde an dem Aufbau und der genauen Funktionsweise des Mobilfunknetzes (aus Anbieterperspektive) geweckt werden. Daraus resultierend wird die Frage nach dem Aufbau und der Funktionsweise des Mobilfunknetzes aufgestellt.
<u>Aktivität:</u>
 
Die SuS probieren Google Quick Draw (<nowiki>https://quickdraw.withgoogle.com/</nowiki>) als ein  fertiges KI-Systems aus. Die Webseite ist nach  Aufrufen des Links selbsterklärend. Alle Schülerinnen und Schüler probieren  Google Quick Draw aus – alle malen 10 Objekte, die automatisch von der  Software vorgegeben werden. Die KI erkennt diese Objekte, wenn sie passend  gezeichnet werden. Anschließend wird automatisch eine Übersicht angezeigt, was erkannt bzw. nicht erkannt wurde. Außerdem werden einige Beispiele  gezeigt, die andere Personen zum gleichen Objekt gemalt haben, um die  Datenbasis zu veranschaulichen, auf deren Grundlage die gemalten Objekte erkannt wurden.
 
 
<u>Besprechung im Plenum</u>
 
Anhand von [https://unterrichtsmaterial-ddi.cs.upb.de/images/3/30/Pr%C3%A4sentation1_QuickDraw.pptx Präsentation 1] und der vorherigen Aktivität kann diskutiert  werden, dass ein KI bestimmte Objekte einer "Klasse" zuordnen kann. Dafür wird vorher aber eine passende Datenbasis benötigt, um bestimmte Objekte einer Klasse zu erkennen. Dazu benötigt man für jede Klasse digital repräsentierte Beispiele mit dem passenden Label. Google Quick Draw ist schon  anhand sehr vieler Beispiele ‘vortrainiert’, daher sieht man hier  Klassifikationen mit nur wenigen Fehlern. Eine untrainierte KI würde am  Anfang viele Fehler machen.
 
Im folgenden wird die Leitfrage der Unterrichtsreihe aufgeworfen: Damit durch  maschinelles Lernen eine KI zum Klassifizieren von Objekten erstellt werden kann, müssen zunächst Beispiele geliefert werden. Ein Beispiel ist jeweils ein Objekt, das durch bestimmte Merkmale beschrieben wird und mit einem Label versehen ist, das die Zugehörigkeit zu einer Klasse kennzeichnet. Aber wie genau funktioniert dieses maschinelle Lernen? Dies wird in den folgenden Stunden an der Methode  Entscheidungsbäume thematisiert. “Es ist erstaunlich, wie ein Computer "lernen" kann Objekte zuzuordnen, allerdings ist es mysteriös, wie dieser Lernprozess funktioniert. Dem gehen wir in den  folgenden Stunden nach.”
 
 
<u>Vertiefungsmöglichkeit:</u>
 
Schön aufbereitetes Video, das Bilderkennung vertieft:
 
<nowiki>https://www.youtube.com/watch?v=HmUzceKCI9I&list=PL4puIg9yEU6yn_XR0TiSLroYO3KAlZmYY&t=1s</nowiki>
 
 
Mit Hilfe von  KI-Systemen können u. A. Bilder klassifiziert werden, zum Beispiel, ob ein  Hund oder eine Katze zu sehen ist. Maschinelles Lernen ermöglicht das  Erstellen solcher KI-Systeme auf der Basis von Trainingsdaten mit Hunde und  Katzenbildern.
 
''Mögliche  Metapher: Man kann gewisse Parallelen zwischen maschinellem Lernen und dem Lernprozess kleiner Kinder erkennen. Kinder lernen dadurch, dass wir ihnen  Objekte zeigen, die Namen dazu sagen und alles so lange wiederholen, bis sie  Hunde von Katzen unterscheiden können. Z. B. wird bei der Begegnung von  Hunden „Hund“ und bei Katzen „Katze“ von Erwachsenen oft genug gesagt, so dass das Kind irgendwann lernt, was eine Katze ist und was ein Hund. Durch Vorsagen und Korrektur.''
 
''Das  Vorgeben von Beispielen und der passenden Lösung wird auch beim maschinellen  Lernen genutzt. Die Beispiele werden als Daten gespeichert (z. B. Fotos von  Hunden bzw. Katzen) und mit einem passenden Label versehen, das die richtige  Lösung enthält.''
 
 
<u>Hintergrundinformationen</u>
 
Bei dieser Form des maschinellen Lernens (überwachtes Lernen) zur Klassifikation von Objekten  wird wie folgt vorgegangen. Es werden verschiedene Beispielobjekte erfasst  und mit Labeln gekennzeichnet.  Ein  Label ist ein Etikett, das anzeigt welcher Klasse dieses Beispiel angehört.  Z. B. erhalten Fotos von Katzen das Label „Katze“ und die von Hunden das  Label „Hund“, je nachdem was auf dem Bild erkannt werden soll. Jedes Foto hat  außerdem verschiedene, digital repräsentierte Eigenschaften, die durch  Merkmale beschrieben werden und verschieden ausgeprägt sein können.  (Anmerkung: Die Eigenschaften, die ein Mensch einem Foto zuweist,  unterscheiden sich von den digitalen Merkmalen. Ein Foto besitzt Merkmale,  wie z.B. Farbwerte einzelner Pixel, die in einem mL-Prozess zum Erstellen  eines Regelsystems genutzt werden. Vereinfachend sprechen wir mit Schülerinnen  und Schülern nur von “dem“ Foto). Durch maschinelles Lernen wird anhand der  Merkmale der Objekte ein Regelsystem erstellt, das die Objekte den passenden,  vorgegebenen Labeln zuordnet. Ein solch fertiges Regelsystem bezeichnet man  als KI oder KI-System. Einen automatisierten Erstellungsprozess der KI nennt  man dann maschinelles Lernen.
 
Begriffe: '''KI''', '''Machinelles  Lernen, Objekt,''' '''Klasse''', '''Label, Merkmal'''
|
 
 
 
 
KI-Systeme können Dinge  einer Klasse zuordnen (Klassifikation)
 
 
Für maschinelles Lernen  benötigt man Beispiele mit dem passenden Label einer Klasse (Trainingsdaten)
 
|
|
*Aktivierung von Vorkenntnissen zum Mobilfunknetz (i.d.R. aus Nutzerperspektive)
[https://unterrichtsmaterial-ddi.cs.upb.de/images/3/30/Pr%C3%A4sentation1_QuickDraw.pptx Präsentation 1]
*Wecken von Neugierde an dem Aufbau und der Funktionsweise des Mobilfunknetzes
 
|[[Medium:Datenbewusstsein Standortdatenmodul Folien Gedankenexperiment Mobilfunknetz.pptx|Unterstützende Folien für das (Gedanken-) Experiment]] (alternativ auch zwei Handys und eine Metallbox)
|-
|-
|'''1b'''
|'''2'''
|'''Erarbeitung des Aufbaus und der Funktionsweise des Mobilfunknetzes:'''
<br />
Gemeinsam oder in Einzelarbeit wird ein Überblicksvideo zum Aufbau und der Funktionsweise des Mobilfunknetzes geschaut (ggf. mehrere Durchläufe). Die Lernenden notieren dabei Informationen zu Komponenten des Mobilfunknetzes (AB1). Danach werden die Begrifflichkeiten zum Mobilfunknetz (Basisstation, Funkzelle, Vermittlungsstelle) im Plenum besprochen und gesichert. Anschließend wird mit einem Puzzle der vereinfachte Aufbau des Mobilfunknetzes rekonstruiert sowie die Funktionsweise mit zwei Szenarien erarbeitet (AB2). [[Datei:Datenbewusstsein-Standortdatenmodul-Puzzle-Lösung.png|zentriert|mini|334x334px|Lösung des Puzzles]]Anhand der beiden Szenarien erarbeiten die Lernenden, welche (persönlichen) Daten bei der Nutzung des Mobilfunknetzes (am Beispiel des Telefonierens) erhoben werden können und auch müssen (AB3). Diese Ideen für die erhobenen Daten werden in einem Unterrichtsgespräch gesammelt. Dabei wird auf den Datenbegriff eingegangen, inwiefern in diesem Beispiel Informationen als Daten aufgefasst werden (z.B. der Standort als Zahlenpaar von Längen- und Breitengrad). Anschließend wird gemeinsam bewertet, welche Daten dafür besonders wichtig und notwendig sind, um eine Mobilfunkverbindung herstellen zu können (z.B. Kontaktdaten des Empfängers oder Standortdaten des Empfängers). Auf dem AB3 stellen die Lernenden vorbereitend für den Teil 2 des Moduls Vermutungen auf, wofür die Standortdaten sonst noch genutzt werden können (sekundäre Zwecke).
|'''Exkurs: Lebensmittel  und Nährwertangaben als Daten'''
 
<u>Motivation:</u>
 
Es existiert ein Ampelsystem für Ernährung, zum Beispiel im Supermarkt (diese basieren i. d.  R. nicht auf maschinellem Lernen) – Ein Ziel innerhalb der Unterrichtsreihe  ist es allerdings ein ähnliches Regelsystem mit Methoden des maschinellen Lernens zu erstellen.
 
In dieser Stunde erfolgt dafür ein Einstieg in den Datenbegriff und das Thema  Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägung von Merkmalen  von Lebensmitteln. Somit kann ein Lebensmittel durch eine Liste von Zahlen (Nährwertangaben) repräsentiert werden. Außerdem soll diese Stunde die SuS hinführend zu einer Unterscheidung von "eher empfehlenswerten" und "eher nicht empfehlenswerten Lebensmitteln" Grundlage dafür, ob ein Lebensmittel  empfehlenswert ist, kann zum Beispiel die Ernährungspyramide der DGE sein.
 
 
<u>Aktivität:</u>
 
*Verschiedene Lebensmittel(-verpackungen) präsentieren  (z.B. Knäckebrot, Chips,  Gummibärchen, Salami, etc.)
*Verschiedene Fragen können diskutiert werden: „Welche Daten findet ihr hier?“ - „Welche  Rolle können Daten für unsere Ernährung spielen?“ - „Warum stehen diese Daten auf allen Lebensmittelverpackungen?
*Optionaler Input (ggf. Kooperation mit Biologieunterricht): Nährstoffgruppen: Man braucht verschiedene  Nährstoffgruppen, am besten täglich. Angaben findet man vor allem über allem Kohlenhydrate, Eiweiß, Fett, Salz, Zucker. Wovon sollte man eher viel oder eher weniger essen?
 
 
Material 3D-Ernährungspyramide:


<nowiki>https://www.dge.de/fileadmin/public/doc/fs/3dlmp/200714-DGE-Arbeitsblaetter-03-formular.pdf</nowiki>


<u>Didaktischer Kommentar:</u>


Die Architektur und Relevanz (s. Glossar in den [[Medium:Exploration Standortdaten - Ergaenzende Informationen.pdf|ergänzende Informationen]]) des Mobilfunknetzes wird in dieser Phase erarbeitet. Der gegebene Interaktionskontext wird dann hinsichtlich der explizit und implizit erhobenen Daten untersucht (zusätzliche Ideen für erhobene Daten können hinsichtlich der Notwendigkeit bewertet werden). Die Lernenden begründen zusätzlich die Verarbeitung der Standortdaten zum primären Zweck der Herstellung einer Mobilfunkverbindung. Sekundäre Zwecke werden in diesem Teil noch nicht aufgegriffen. In dem Teil 2 werden „echte“ Daten aus dem Mobilfunknetz eingeführt, welche dann mit den Ideen der Lernenden verglichen werden können. Das heißt, hier dürften auch noch Ungenauigkeiten bestehen, welche zu Beginn des zweiten Teils besprochen werden können.
Begriffe: '''Objekt''', '''Merkmal, Merkmalsausprägung, Klassifikation'''
|
|
*Verstehen der Architektur und Relevanz (s. Glossar) des Mobilfunknetzes (grob)
 
*ggf. Kennenlernen des Begriffs Daten exemplarisch an den hier erhobenen Daten; ansonsten Anwendung der Kenntnisse zum Datenbegriff (s. Glossar)
 
*Einführung der Begrifflichkeiten „explizit und implizit erhobene Daten“ und identifizieren von explizit und implizit erhobene Daten in diesem Beispiel
 
*Beschreiben des primären Zwecks der Verarbeitung und Verwendung der Standortdaten
 
|[https://www.youtube.com/watch?v=76MD2s2P-DU#action=share Erklärvideo] ([https://www.youtube.com/watch?v=4NOizoHEgF0 Alternative]), [[Medium:Druckvorlage für 2 Puzzle.pdf|Puzzle]], [[Medium:AB1 - Video zum Aufbau Mobilfunknetz.docx|AB1]], [[Medium:AB2 - Niveau 1 - Aufbau und Funktionsweise.docx|AB2 - Niveau 1]], [[Medium:AB2 - Niveau 2 - Aufbau und Funktionsweise.docx|AB2 - Niveau 2]], [[Medium:AB2 - Sprinteraufgabe - Aufbau und Funktionsweise.docx|AB2 - Sprinteraufgabe]] (optional), [[Medium:AB3 - Datenerhebung.docx|AB3]]
 
 
 
 
Nährwertangaben verstehen
 
 
Èinführung in  Begrifflichkeiten rund um Daten<br />
|
 
 
 
 
 
 
 
Verpackte Lebensmittel mit  Nährwertangaben
 
 
[https://unterrichtsmaterial-ddi.cs.upb.de/images/f/f4/AB1_N%C3%A4hrwerte_als_Daten.docx Arbeitsblatt 1]  
 
 
Ernaehrungs-pyramide  (zum Basteln für die SuS)
 
|-
|-
| colspan="4" |'''<center><big>Teil 2: Exploration gegebener Standortdaten</big></center>'''
|'''3'''
<br />
|'''Vorbereiten der Daten: Datenkarten mit Labeln versehen'''
 
<u>Motivation</u>
 
Die zu entwickelnde  künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen,  ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist.  Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele benötigt repräsentiert als Trainingsdaten. Ein Beispiel ist jeweils ein Objekt (Lebensmittel),  das durch bestimmte Merkmale (Nährstoffe) beschrieben wird und mit einem  Label („eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist. Eine  Sammlung und Darstellung solcher Beispiele bezeichnen wir als Daten. In dieser Stunde werden solche Beispiele in Form von  Daten mit Hilfe der Datenkarten hergestellt.
 
 
<u>Aktivität</u>
 
Die SuS modellieren den  Datensatz mit dem später gearbeitet wird, um basierend darauf  Entscheidungsbäume zu erstellen. Dafür vergeben sie zunächst in  Partnerarbeit die Label „eher empfehlenswert“ oder „eher nicht  empfehlenswert“ für alle blauen Datenkarten (blaue Karten = Trainingsdaten). Dabei können sich die SuS an der  Lebensmittelpyramide und an ihrem Alltagswissen über Lebensmittel  orientieren (jeweils 2 SuS haben ein Arbeitsblatt 2 zur Verfügung). Anschließend werden die Label im Klassenverband diskutiert, um sich zu einigen.
 
 
<u>Besprechung der  Aktivität</u>
 
Es wird ein allgemeinen Konsens hergestellt,  welche Nahrungsmittel welches Label erhält. Zwei Möglichkeiten:
 
*Abstimmung im Plenum,
*Abstimmung in Onlineumfrage (als HA möglich, entlastet Unterrichtszeit, stärkere Vorbereitung der Diskussion möglich)
 
Alle Karten werden gemeinsam durchgegangen um gemeinsam die Label an die Karten zu heften. Dafür wird entweder Live übder das Label angestimmt oder es wird basierend auf der vorher durchgeführten Onlineumfrage gemacht. Ablauf:
 
#Jede  Schüler:innengruppe bekommt ein Kartenspiel (die Karten auf jeden Fall in der  Reihenfolge lassen, wie sie in der Schachtel sind, damit alle SuS die Karten  in der gleichen Reihenfolge vorliegen haben)
#Gemeinsam  wird besprochen und festgelegt, welches Label die erste blaue Datenkarte  (Haselnussschnitte) bekommen soll. Zunächst wird einfach abgestimmt. Wenn  keine klare Mehrheit zustande kommt, wird diskutiert.
#Falls  auch nach der Diskussion keine Einigkeit erzielt wird, kann die Karte  beiseitegelegt werden. Andernfalls stecken alle Schüler eine passend farbige  Büroklammer an die Datenkarte.
#2. und 3. werden für die weiteren Karten wiederholt
 
Leitung der Diskussion: Die Lehrkraft kann die  Diskussionen im Plenum moderieren und ggf. bei groben Fehleinschätzungen  (z.B. Gurke als “eher nicht empfehlens-wert”) eingreifen.  Eine Orientierung liefert die Datei  Rumpfdatensatz_28.csv, in der die besonders eindeutig zuzuordnenden Lebensmittel zu finden sind. Einzelne Abweichungen von diesem Vorschlag sind  aber nicht weiter schlimm, d.h. die Diskussion muss nicht strikt geleitet  werden. In vielen Unterrichtserprobungen hat sich gezeigt, dass per Mehrheitsvotum  der Großteil der Lebensmittel wie im Vorschlag zugeordnet wird. Zur Weiterarbeit  empfehlen sich ca. 30 Karten mit Label (etwa 10 beiseite legen). Die Karten aus Rumpfdatensatz_28.csv  sollten größtenteils enthalten sein, um in der Weiterarbeit gute Ergebnisse zu erzielen.
 
 
Jede  Schülergruppe und die Lehkraft haben im Anschluss  einen nach Klassen-konsens mit Labeln  versehenen Datensatz. Arbeitsblatt 2 kann im  späteren Unterrichtsverlauf als Erinnerung dienen, welche Karte in welcher Farbe gelabelt wurde, falls zwischen den Unterrichtsstunden Label abgefallen sind.
 
 
Begriffe: '''Daten, Beispiel, Objekt, Merkmal'''
|
 
 
Labeln von  Lebensmittelkarten = Modellierung der Realität
 
 
Maschinellen  Lernprozess vorbereiten durch Herstellen eines geeigneten einheitlichen Trainingsdatensatzes
 
 
 
 
 
<br />
 
|
[https://unterrichtsmaterial-ddi.cs.upb.de/images/c/c5/AB2_Lebensmittel_Label.docx Arbeitsblatt 2]
 
(in  Farbe ausdrucken!)
 
 
 
Rumpfdatensatz
 
 
 
 
 
 
 
<br />
|-
|-
|'''2a'''
|'''4'''
|'''Vorbereitung der Exploration der Standortdaten mithilfe der interaktiven Web-Anwendung:'''  
|'''Erarbeitung:  Aufstellen einer datenbasierten Entscheidungsregel'''
 
<u>Motivation:</u>
 
Ziel innerhalb der  Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von  Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst  Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten.  Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde  eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines  sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel  mit bis zu 10 g Fett und über 10 g Fett). In beiden Teilgruppen wird dann  geschaut, ob die Mehrheit eher empfehlenswert oder eher nicht empfehlenswert  ist. Wenn in den Teilgruppen unterschiedliche Label zu finden sind (was in  den allermeisten Fällen so ist), gibt es in beiden Teilgruppen Lebensmittel,  die von der Mehrheits-entscheidung abweichen. Diese werden als Fehler oder  Fehlklassifikationen bezeichnet. Es gilt deshalb den Schwellenwert zu finden,  der möglichst wenige Fehler hervorbringt (Anzahl der Fehlklassifikationen).  Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe  des Merkmals Energie erstellt.
 
<u>'''<br />'''Erarbeiten der  Zielstellung für das Erstellen einer Entscheidungsregel:</u>
 
Anahnd von [https://unterrichtsmaterial-ddi.cs.upb.de/images/1/14/Pr%C3%A4sentation2_Datensplit_Einf%C3%BChrung.pptx Präsentation 2] kann die Zielstellung beim Formulieren einer Entscheidungsregel erarbeitet werden. Der Optimalfall (Zeilstellung) liegt vor, wenn man einen Schwellenwert findet, sodass auf einer Seite des  Schwellenwerts möglichst nur eher nicht empfehlenswerte Lebensmittel zu  finden sind und auf der anderen Seite nur eher empfehlenswerte. Eine solch "perfekte" Regel, mit der man von den vorliegenden Trainingsdaten kein Lebensmikttel falsch klassifiziert, findet man meistens nicht, aber man versucht möglichst nah dran zu kommen, sodass möglichst wenige  Lebensmittel falsch klassifiziert werden.
 
 
<u>Aktivität:</u>
 
Lebendige Statistik  durchführen, um das bilden von Datensplits und das vergleichen von Schwellenwerten zu thematisieren:
 
#Alle  SuS gehen nach vorne und holen sich eine gelabelte Karte ab und repräsentiert  nun das Lebensmittel auf der Karte
#Die  Lehrkraft erläutert zunächst, dass nun eine Entscheidungsregel gesucht wird  und formuliert die Zielstellung (s.o.). Nun gibt sie ein Merkmal und einen  Schwellenwert vor (z.B. Energie, 350 kcal) und dann wird der Datensplit in  der Klasse am Merkmal Energie durchgeführt. Das bedeutet: Alle, die  eine Karte mit einem Energiewert ≤ 350 haben, gehen nach links, alle mit  einem Energiewert >350 gehen nach rechts. Daraus entstehen zwei  Teildatensätze.
#Nun  wird per Handzeichen erhoben, wie die Anzahlen von ‚eher empfehlenswert‘ und  ‚eher nicht empfehlenswert‘ in den Teildatensätzen sind und an der Tafel  festhalten
#Den  Baum an der Tafel mitzeichnen als Strukturierungshilfe für SuS (s.u. )
#Diskussion:  In welcher Teilgruppe befinden sich eher empfehlenswerte Lebensmittel?  Ziel: Aufstellen und Verbalisieren einer Entscheidungsregel per Mehrheitsentscheidung. ("Wenn ein Lebensmittel weniger als 350 kcal hat...")
#Vorgeben  eines weiteren Schwellenwertes und Wiederholen der Prozedur (z.B. Minimum der  eher nicht empfehlenswerten Lebensmittel)
#Vergleich  der beiden Datensplits (Bei welchem ist die Anzahl der Fehlklassifikationen niedriger?)
#Geben eines weiteren Schwellenwerts und Wiederholen der Prozedur
#Vergleich  der drei Datensplits (Welcher ist der beste?)
 
 
<u>Hinweis zur  Durchführung der lebendigen Statistik</u>
 
Man kann aufgrund der begrenzten Anzahl an SuS meist nicht alle Karten für die lebendige Statistik  verwenden. Man sollte dabei darauf achten, dass keine ungünstigen Stichproben der Karten genutzt werden. Manche Stichproben vereinfachen das Problem zu  stark, sodass man zu schnell perfekte Regeln findet. Wir schlagen dafür einen  Rumpfdatensatz vor, mit dem die Phase gut durchgeführt werden kann.  Vorschläge für Rumpfdatensätze verschiedener Größe finden sich in den Dateien  „Rumpfdatensatz_22.csv“ und „Rumpfdatensatz_28.csv“. Leichte Abweichungen von  den Rumpfdatensätzen sind kein Problem.
 
 
<u>Reflexion:</u>
 
Zur Aktivität
 
*Für  ein Merkmal haben wir ausprobiert/herausgefunden, wie wir durch mit verschiedenen Schwellenwerten Entscheidungsregeln aufstellen  und vergleichen können. Von allen in Betracht gezogenen können wir sogar die beste Regel finden.
*Eine  Entscheidungsregel ist schon ein kleiner Entscheidungsbaum mit nur einer  Ebene (Aber: Der Baum ist noch nicht sehr gut, da er noch einige Fehler  macht)
*Jetzt: Wir wollen nun noch mehr Entscheidungsregeln überprüfen
*Später: können dann noch Entscheidungsregeln in der nächsten Ebene dazukommen
 
Ausblick maschinelles Lernen- Kann ein Computer das auch?:
 
*Der  Computer kann Schwellenwerte ausprobieren und die “beste” Regel  für das gewählte Merkmal finden, wenn man ihn passend programmiert. Solche AUfgaben erldigt der Computer schneller als ein Mensch
*Außerdem kann der Computer alle Merkmale und alle denkbaren Schwellenwerte ausprobieren.
 
 
<u>Hausaufgabe</u>
 
*Übungen zum Nutzen von Schwellenwerten in der Baumdarstellung (AB3_SchwellenwertAnwenden)
*optionale weitere HAusaufgabe: Mathematische Wiederholung <, >, ≤, ≥ Zeichen  (z.B. <nowiki>https://anton.app/de/lernen/mathematik-5-klasse/thema-01-natuerliche-und-ganze-zahlen/uebungen-04-zahlen-ordnen-vergleichen/</nowiki>)
 
 
Begriffe: '''Schwellenwert''', '''Datensplit'''
|
Einführung des Datensplit  als Grundkonzept von Entscheidungsbäumen
 


Zunächst werden die Mobilfunkdaten von Malte Spitz eingeführt (s. Erklärungen unten), welche u.a. Zeitstempel, genutzte Dienste und Standortdaten enthalten. Dabei sollten keine Hinweise dazu gegeben werden, welche Person das ist. Lediglich sollte angemerkt werden, dass diese Daten in einem halben Jahr von einer Person erhoben wurden. Diese Einführung kann anhand der Datentabelle (beiliegende pdf) geschehen, welche dabei auch besprochen werden sollte (Bezug zu AB3 gut möglich).
Einführung des Schwellenwerts  als Möglichkeit Datensplits herzustellen




Anschließend wird zu folgender Leitfrage hingeleitet:
Datenbasiert Entscheidungsregeln  aufstellen


''Leitfrage:'' Was könnte man über eine Person herausfinden, wenn man diese Daten hätte?




Bevor die Daten mithilfe einer Web-Anwendung exploriert werden, sollten die Lernenden zu dieser Leitfrage Vermutungen äußern, was man mit diesen Daten herausfinden könnte.


Anschließend wird in die interaktive Web-Anwendung eingeführt, in der diese Standortdaten exploriert werden können (Beschreibung s.u.). Dazu könnten die Lernenden etwa zunächst die Anwendung selbst ausprobieren, bevor dann im Plenum anhand eines gemeinsamen Beispielfrage die Daten exploriert werden. An dem gemeinsamen Beispiel sollte das Vorgehen zum Explorieren vermittelt werden, welches die Lernenden in der nächsten Phase selbst durchführen: (1) Fragestellung entwickeln (z.B. Wo wohnt die Person vermutlich?), (2) Entscheiden für zu setzende Filter in der Web-Anwendung (z.B. Zeitraum von 3 bis 4 Uhr), (3) visualisieren und untersuchen der Standortdaten auf der Karte, (4) Interpretation der Daten und Beantwortung der Fragestellung (z.B. Die Person wohnt in Berlin in der Nähe der Zehdenicker Straße) (Beispiel wird unten näher erklärt). Das Vorgehen für eine Fragestellung kann ein „Ausprobieren“ verschiedener Filter umfassen. 




<u>Didaktischer Kommentar:</u>


Mit den verfügbaren Mobilfunkdaten kann dafür exemplarisch sensibilisiert werden, wie viele Daten bei der Nutzung des Mobilfunknetzes erhoben und generiert werden. Bezüglich dieser Daten sollte stets darauf geachtet werden, dass diese die Standorte der Basisstationen und eben keine GPS-Daten o.ä. darstellen (s. Erklärung in den ergänzenden Informationen). Das Explorieren der Standortdaten zum Erstellen einer modellhaften Charakterisierung der Person (vgl. der Idee des digitalen Doppelgängers) stellt einen sekundären Zweck der Verwendung und Verarbeitung der Standortdaten dar. Dieser Zweck sollte nicht als reale Verwendung und Verarbeitung dargestellt werden, aber als mögliche, wenn diese Daten weitergegeben werden, was in Phase 2c vertieft diskutiert wird. In dieser Phase wird das Explorieren der Daten erstmal nur eingeführt, woraufhin die Lernenden in der nächsten Phase die Daten mit der Web-Anwendung selbstständig explorieren.
<br />
|
|
*Verbessern des Verständnisses (der Menge) der erhobenen Daten einer Person im Mobilfunknetz
 
*Umgang mit Datenbegriff und deren Repräsentation am Beispiel der Datentabelle und der Karte üben
 
*Vorgehen zur Exploration der Standortdaten mit der Web-Anwendung exemplarisch kennenlernen
 
*Verstehen der Charakterisierung der Person als einen sekundären Zweck der Verwendung und Verarbeitung der Standortdaten (fiktiv!)
 
|[[Medium:Tabelle der vorhandenen Standortdaten.pdf|Datentabelle zum zeigen]], Web-Anwendung (s.u.)[[Medium:Hilfszettel - Interaktive Web Anwendung.docx|Hilfszettel zur Web-Anwendung]]
 
 
 
 
 
 
 
 
[https://unterrichtsmaterial-ddi.cs.upb.de/images/1/14/Pr%C3%A4sentation2_Datensplit_Einf%C3%BChrung.pptx Präsentation 2]
 
 
 
 
 
 
 
Rumpfdatensatz
 
(in einer Variante für 22 oder  28 SuS)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
[https://unterrichtsmaterial-ddi.cs.upb.de/images/3/36/AB3_Schwellenwerte_Anwenden.docx Arbeitsblatt 3]
 
|-
|-
|'''2b'''
|'''5'''
|'''Exploration der Standortdaten mithilfe der interaktiven Web-Anwendung:'''  
<br />
In Gruppen explorieren die Lernenden eigenständig die Standortdaten mithilfe der Web-Anwendung. Dabei erstellen sie als Gruppe einen gemeinsamen Steckbrief als eine Charakterisierung der ihnen unbekannten Person, etwa mit Interpretationen zum Wohnort, dem Arbeitsort oder Freizeitaktivitäten (AB4). Dazu können sich die Lernenden innerhalb einer Gruppe arbeitsteilig mit verschiedenen Fragestellungen befassen, um gemeinsam eine umfassendere Charakterisierung vornehmen zu können.  
|'''Erstellen einstufiger  Entscheidungsbäume'''  
 
<u>Motivation:</u>
 
Die SuS wissen nun, wie  man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein  Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden  Entscheidungsbaum zu verbessern und noch mehr Lebensmittelkarten richtig zu  klassifizieren, wird in dieser Stunde erarbeitet, wie man systematisch nach  guten Entscheidungsregeln suchen kann. Dafür wird ein strategisches Vorgehen beim Suchen des Schwellenwertes erarbeitet. Anschließend werden die verschiedenen Merkmale auf unterschiedliche Gruppen verteilt um als Klassenverband für alle Merkmale verschiedene Entscheidungsregeln aufzustellen und zu vergleichen.
 
 
<u>Einführung der Linealmethode</u>
 
Die  [[Lineal-/Bleistiftmethode]] kann zunächst im Plenum basierend auf [https://unterrichtsmaterial-ddi.cs.upb.de/images/6/63/Pr%C3%A4sentation3_Schwellenwert_suchen.pptx Präsentation 3] erarbeitet werden. Dabei kann man schon Strategiehinweise geben wie man einen [https://unterrichtsmaterial-ddi.cs.upb.de/index.php?title=Lineal-/Bleistiftmethode&oldid=2680 Schwellenwert nach Augenmaß] wählen kann. Anhand von [https://unterrichtsmaterial-ddi.cs.upb.de/images/4/49/AB4_Schwellenwert_Suchen.docx Arbeitblatt 4] kann dies dann in Einzelarbeit eingeübt werden, um die Methode  danach in Kleingruppen mit den Datenkarten anzuwenden.
 
 
<u>Besprechung von  Arbeitsblatt 4:</u>
 
Im Plenum werden die Ergebnisse verglichen und ggf. korrigiert. Die SuS können ihre Begründungen vortragen und diskutieren. Bei der Besprechung sollte insbesondere auf folgende Aspekte geachtet werden:
 
*Was  ist ein Kriterium für einen „besten“ Schwellenwert? (Anzahl falsch klassifizierte Karten/ Fehlklassifikationen)
*Welcher  ist der beste Schwellenwert für das jeweilige Merkmal?
 
 
<u>Aktivität:</u>
 
Jede Zweiergruppe arbeitet mit ihrem Kartensatz und bekommt ein Merkmal zugeteilt, für das eine Entscheidungsregel gesucht wird. Alle Merkmalen sollten an mindstens eine Gruppe vergeben werden, um im Nachhinein auch die verschiedenen Merkmale vergleichen zu können. Es sollen mehrere Schwellenwerte in Betracht gezogen  werden und es soll begründet der beste Schwellenwert unter den in Betracht  gezogenen ausgewählt werden.  Um die  global beste Entscheidungsregel zu finden, müssten sehr viele verschiedene  Schwellwerte ausprobiert werden, was sehr mühsam und daher für die SuS wenig  praktikabel ist (ein Computer geht allerdings so vor). Optional kann Spielplan 1 als Unterstützung des Prozesses eingesetzt werden. DIe Dokumentation erfolgt auf [https://unterrichtsmaterial-ddi.cs.upb.de/images/4/4a/AB5_Entscheidungsregeln_Verlgeichen.docx Arbeitsblatt 5].
 
 
<u>Hintergrundinformationen:</u>
 
Das Sortieren der  Karten im Hinblick auf ein ausgewähltes Merkmal ist ein zentrales Element zum Finden eines guten Schwellenwerts, weil auf diese Weise schnell ein guter  Überblick über die Verteilung gewonnen werden kann (siehe [[Lineal-/Bleistiftmethode]]). Man erkennt schnell, wie  viele Lebensmittel über und unter dem Schwellenwert als empfehlenswert bzw.  nicht empfehlenswert gekennzeichnet sind. Nur so ist es möglich, per Augenmaß  einen günstigen Schwellenwert zu finden. Andernfalls bleibt nur das  Ausprobieren von zufälligen Werten. Das Vorgehen entspricht nicht ganz dem eines Computers, da mit dessen Hilfe einfach alle in Frage kommenden Schwellenwerte ausprobiert werden können und er nicht über Augenmaß verfügt. Bei diesem "menschlichen" Vorgehen sollten natürlich trotz Augemaß immer einige unterschiedliche Schwellenwerte verglichen werden.
|
 
 
 
 
 
 
Heuristik zum finden  von Entscheidungsregeln verstehen (Linealmethode + Schwellenwert per  Augenmaß)
 
 
 
Anzahl der falsch  klassifizierten Karten als Gütekriterium für eine Entscheidungsregel nutzen
 
 
 
Datenkarten nach einem  Merkmal aufsteigend sortieren
 
 
Finden eines „besten“  Schwellenwerts
 
 
Anwenden der  „Linealmethode/ Bleistiftmethode“


In der anschließenden Auswertung der Gruppenergebnisse werden die verschiedenen Interpretationen diskutiert und zusammengeführt, wobei die Lernenden ihre Interpretationen begründen sollen. Dabei kann auch diskutiert werden, wie sicher sich die Lernenden mit einer bestimmten Interpretation sind.
<br />




Während der Explorationsphase in den Gruppen kann den Lernenden optional die Möglichkeit gegeben werden, weitere Kontextinformationen heranzuziehen, wie etwa was sich an einem bestimmten Ort befindet oder was ein bestimmtes Unternehmen macht – die Lernenden würden damit den Kontext explorieren.




<u>Didaktischer Kommentar:</u>


Durch das Filtern als [[Data Moves|Data Move]] beim Explorieren können bereits einige Informationen über die Person gefunden werden. Die Interpretationen bei der Charakterisierung durch die Lernenden beruhen auf individuellem Kontextwissen und sind somit subjektiv. Das führt zum Auftreten konträrer Interpretationen, welche gewinnbringend diskutiert werden können und müssen. Beachtet werden sollte auch, dass die Charakterisierungen bzw. Steckbriefe einen modellhaften Charakter haben, der durch die ausgewählten Merkmale in den verfügbaren Daten bestimmt wird.
<br />
|
|
*Subjektiver Charakter von Informationen durch die Interpretation verstehen (im Gegensatz zu Daten)
 
*Erkennen eines Umfangs an Informationen, die aus Standortdaten gewonnen werden können („relativ umfassende Charakterisierung ist möglich“)
 
*Charakterisierung (digitaler Doppelgänger) als modellhaft mit subjektiven Interpretationen verstehen (können auch Fehlinformationen enthalten)
 
*Üben des Vorgehens zur Exploration der Daten
 
|Web-Anwendung (s.u.), [[Medium:AB4 - Personensteckbrief.docx|AB4]]
 
 
 
 
 
[https://unterrichtsmaterial-ddi.cs.upb.de/images/6/63/Pr%C3%A4sentation3_Schwellenwert_suchen.pptx Präsentation 3]
 
 
[https://unterrichtsmaterial-ddi.cs.upb.de/images/4/49/AB4_Schwellenwert_Suchen.docx Arbeitsblatt 4]
 
 
 
 
[https://unterrichtsmaterial-ddi.cs.upb.de/images/4/4a/AB5_Entscheidungsregeln_Verlgeichen.docx Arbeitsblatt 5]
 
 
Spielplan 1 (optional)
 
|-
|-
|'''2c'''
|'''6'''  
|'''Reflexion und Bewertung:'''
<br />
Die Erhebung und Verarbeitung persönlicher Daten bei der Nutzung des Mobilfunknetzes wird nun im Unterrichtsgespräch reflektiert und anschließend durch die Lernenden bewertet. An dieser Stelle sollte dringend darauf eingegangen werden, dass ein deutscher Mobilfunkanbieter die erhobenen Daten auf dieser Art und Weise zur Charakterisierung der Personen nicht ohne weitere nutzen darf. Mithilfe der Erfahrungen aus der Exploration kann diese Regulierung auch von den Lernenden exemplarisch nachvollzogen werden.  
|'''Erstellen mehrstufiger  Entscheidungsbäume'''  
 
<u>Motivation:</u>
 
Nachdem die SuS  systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen,  dass man mit einer Entscheidungsregel allein nicht alle Lebensmittel korrekt  klassifizieren kann. Es wird motiviert, dass man ein mehrstufiges  Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der  ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS  arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.
 
 
<u>Hintergrundinformationen:</u>
 
Beim Erstellen eines  mehrstufigen Entscheidungsbaums geht es darum, dass weitere Regeln erstellt  werden, die hierarchisch auf die erste Regel folgen, um die Anzahl der  falschen Klassifikation sukzessive zu verringern. Die weiteren Regeln werden  basierend auf den Teildatensätzen erstellt, die durch die erste  Entscheidungsregel entstanden sind. Falls in einem der Teildatensätze nur grüne oder nur rote Label zu finden sind ("reiner" Teildatensatz), so braucht man für diesen Teildatensatz keine weitere Regel suchen. Ansonsten wird in jedem Ast des Baums mit einem  anderen Teildatensatz weitergearbeitet, um weitere Entscheidungsregeln  aufzustellen.  
 
 
<u>Anleitung durch Lehrkraft</u>
 
Im Unterricht muss explizit darauf geachtet werden, dass jeweils nur mit den Karten eines Teildatensatzes weitergearbeitet wird, wenn ein weiterer Split erstellt wird. Ein typischer SuS-Fehler ist es, mit allen  Karten in einem Ast weiterzuarbeiten, obwohl nur mit einer Teilgruppe gearbeitet werden darf. Das kann entweder im Plenum mit Unterstützung von [https://unterrichtsmaterial-ddi.cs.upb.de/images/b/bd/Pr%C3%A4sentation4_Zweiter_Datensplit.pptx Präsentation 4] besprochen werden oder optional durch eine weitere Aktivität in der lebendigen Statistik  veranschaulicht werden. In [https://unterrichtsmaterial-ddi.cs.upb.de/images/b/bd/Pr%C3%A4sentation4_Zweiter_Datensplit.pptx Präsentation 4] kann man auch die Dokumentation eines mehrstufigen Baums gemäß [https://unterrichtsmaterial-ddi.cs.upb.de/images/5/5f/AB6_Zweiter_Datensplit.docx Arbeitsblatt 6] vorbesprechen.
 


<u>''Optionale  Aktivität - Lebendige Statistik:''</u>


''Optional abhängig von Lerngruppe könnten die Lernenden in den Quellen zu den weiteren Beispielen (s.u.) reale Beispiele für die sekundären Zwecke der Verarbeitung und Verwendung der Standortdaten durch Mobilfunkanbieter im Rahmen einer Recherche untersuchen. Dazu könnten sich die Lernenden in Gruppen einem der beiden Beispiele widmen und sich diese als Gruppenpuzzle gegenseitig vorstellen. Anschließend könnten diese diskutiert und bewertet werden, zum Beispiel indem eine Abwägung von Kosten (Preisgabe vieler persönlicher Informationen) und Nutzen (Vorteile für den Betrieb des Mobilfunknetzes und für gesellschaftliche Belange) vorgenommen wird.''
''In zweiter Stufe das  Merkmal Eiweiß (oder Zucker) ausprobieren.''


<u>Didaktischer Kommentar:</u>
''Vorgehen:''


Es sollte zum einen darauf geachtet werden, dass nicht die Fehlvorstellung entwickelt wird, dass Mobilfunkanbieter die Standortdaten einer Einzelperson tatsächlich so auswertet. Zum anderen sollte deutlich sein, dass die Standortdaten hier sinnvollerweise erhoben werden und die Regulierung auch sinnvoll sein kann.
#''Jeder Schüler nimmt wieder eine Datenkarte''
#''Noch einmal bezüglich Energie und dem in der ersten lebendigen Statistik  gewählten Schwellenwert in zwei Schülergruppen (Teildatensätze) aufteilen''
#''Zunächst kann der Status Quo diskutiert werden:''
#*''Anzahl der Fehler gemeinsam Auszählen''
#*''Feststellen, dass in der Gruppe mit der höheren Kalorienanzahl (über dem Schwellenwert) sich jetzt noch sowohl eher empfehlenswerte als auch eher nicht empfehlenswerte Lebensmittel befinden. Also passieren dort noch Fehler und die Anzahl der Fehler soll nun noch durch einen weiteren Datensplit verringert werden.''
#''Explizit darauf hinweisen, dass nur mit einem  Teildatensatz gearbeitet wird für den zweiten Datensplit und dass die restlichen Karten (erstmal) beiseite gelegt werden können''
#''Dazu: Jetzt in  der Gruppe (Teildatensatz) mit der Kalorienanzahl über dem Schwellenwert  einen weiteren Datensplit durchführen (z.B. eignet sich das Merkmal Eiweiß  mit Schwellenwert 11 g)''
#''Erneutes Auszählen aller Fehlklassfikationen und vergleichen mit vorher''
#''Fazit: Jetzt sind wir näher an unserer Zielstellung dem ‚perfekten‘ Baum''


''Die optionale Erarbeitung der Beispiele für reale sekundäre Zwecke der Verarbeitung und Verwendung von Standortdaten durch Mobilfunkanbieter kann den Lernenden einen differenzierten Blick geben, wofür diese Standortdaten tatsächlich genutzt werden.''
''An der Tafel  dokumentieren: Ergebnis: Tafelbild mit Baumdiagramm wie auf AB5 (Dieser fertige Baum kann später noch genutzt werden, also dauerhaft konservieren,  z.B. auf Plakat).''
 
 
<u>Partnerarbeit:</u>
 
Wieder in  Partnerarbeit: Basierend auf den Entscheidungsregeln, die in Phase 5 erarbeitet  wurden, folgt nun die zweite Stufe des Entscheidungsbaums für jede Gruppe.  Jede Gruppe wählt das nächste Merkmal frei aus.  Spielplan Teil 2 kann für die organisation der Datenkarten genutzt werden, um z.B. gerade nicht genutzte Karten passend abzulegen.
 
#Beide  Teildatensätze aus dem Ersten Datensplit passend auf dem Spielplan Teil 1 ablegen
#Jetzt  die erste Teilgruppe nehmen (z.B. linken Teilkartenstapel, NICHT alle Karten)  und nach einem weiteren Merkmal die Karten aufsteigend auf dem Tisch ordnen  (Merkmal frei ausprobieren). Die nicht genutzten Karten können so lange auf  dem Spielplan verwahrt werden.
#Einen  Schwellenwert mit der „Linealmethode” finden und die Karten auf dem Spielplan  Teil 2 ablegen
#Jetzt  die zweite Teilgruppe nehmen (NICHT alle Karten) und ggf. ein anderes oder  das gleiche Merkmal wie in 2. nehmen
#Einen  Schwellenwert mit der Linealmethode für die zweite Teilgruppe finden (kann  der gleiche oder ein anderer Wert sein wie in 3.) und auf dem Spielplan Teil  2 auslegen
#Den  fertigen Baum auf AB 5 dokumentieren
 
 
<u>Zur Differenzierung für  schnelle Gruppen</u>
 
*Dritte  Stufe möglich machen (Hierfür kann Spielplan Teil 2 genutzt werden, indem  „einzelne Datensplits” durch Zerschneiden von Spielplan Teil 2 ausgelegt  werden)
*Weitere  Merkmale im zweiten Split ausprobieren
*Optional:  Entscheidungsregeln formulieren ([https://unterrichtsmaterial-ddi.cs.upb.de/images/2/24/AB7_Entscheidungsregeln_formulieren.docx Arbeitsblatt 7])
 
 
<u>Diskussion der erstellten  Bäume</u>
 
Jede Gruppe stellt  ihren Baum vor:
 
#Welche  Merkmale wurden benutzt? Und welche Schwellenwerte?
#Wörtlich  die Entscheidungsregeln formulieren
#Wie  viele Lebensmittel wurden damit richtig klassifiziert?<br /> Anschließend:
#Welcher Baum hat die meisten Lebensmittel richtig  klassifiziert?
 
Punkt 4 wird noch  einmal mit den sogenannten Testdaten in der nächsten Stunde überprüft,  möglicherweise ändert sich die Bewertung der Bäume dann. Für die nächste  Aktivität werden die Entscheidungsbäume in der Klasse aufgehängt (bzw. durch  Lehrkraft eingesammelt). Diese werden in der nächsten Stunde nochmal  benötigt.
 
 
<u>Reflexion:</u>
 
*Nun  haben wir weitere Entscheidungsregel(n) gefunden, diese sind mehrstufig.
*Für  ein Merkmal haben wir ausprobiert/herausgefunden, wie wir eine Entscheidungsregel  begründet auswählen.
*Wenn  ein Entscheidungsbaum automatisiert durch den Computer erstellt wird, so  werden alle Schwellenwerte ausprobiert und die beste Regel ganz schnell  gefunden und alle Merkmale ausprobiert.
 
<u><br />Hausaufgabe:</u>
 
Jeder füllt eine  Blankokarte ([https://unterrichtsmaterial-ddi.cs.upb.de/Datei:AB8_Blankokarten.docx Arbeitsblatt 8] vorher passend zurechtschneiden) für ein  Lebensmittel zu Hause aus. Diese soll in der nächsten Stunde mit den  erstellten Bäumen klassifiziert werden.
 
 
Optional kann  7 noch als weitere Übung für das Ausformulieren der  Entscheidungsregeln genutzt werden.
|
|
*Reflektieren der Erkenntnisse zur Erhebung und Verarbeitung der Daten (v.a. Standortdaten) im Beispiel des Mobilfunknetzes und bewerten dessen
Einführung in den  zweiten Datensplit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Mehrstufige  Entscheidungsregeln als Baumstruktur erkennen
 
 
Auszählen, wie viele  Karten ein Baum richtig klassifiziert
 
 
Entscheidungsregeln  passend zum Baum verbal ausformulieren
 
|
|
[https://unterrichtsmaterial-ddi.cs.upb.de/images/b/bd/Pr%C3%A4sentation4_Zweiter_Datensplit.pptx Präsentation 4]
Spielplan Teil 2
[https://unterrichtsmaterial-ddi.cs.upb.de/images/5/5f/AB6_Zweiter_Datensplit.docx Arbeitsblatt 6]
AB 6 einsammeln oder aufhängen
[https://unterrichtsmaterial-ddi.cs.upb.de/images/2/24/AB7_Entscheidungsregeln_formulieren.docx Arbeitsblatt 7] (opt.)
[https://unterrichtsmaterial-ddi.cs.upb.de/Datei:AB8_Blankokarten.docx Arbeitsblatt 8]
|-
|-
|'''2d'''
|'''7a'''
|'''Mögliche Hausaufgabe zur individuellen Reflexion:'''
<br />
Die Lernenden formulieren ein persönliches Fazit zur Erhebung und Verarbeitung der Daten im Mobilfunknetz und begründen dieses (z.B. als Essay). Dabei sollen sie eine persönliche Bewertung vornehmen, die z.B. auch Folgerungen für eigenes Handeln beinhalten kann. Die Aufgabe kann alternativ auch am Ende dieser Phase (dann auch allgemeiner zu allen thematisierten Kontexten) eingegliedert werden.  
|'''Testen verschiedener  Entscheidungsbäume anhand einer neuen Lebensmittelkarte'''  
 
<u>Motivation:</u>
 
Nachdem verschiedene  Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden  diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten  selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit  allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den  Entscheidungsbäumen auch Unsicherheiten stecken, da sich die Ergebnisse der verschiedenen Bäume bezogen auf das gleiche Lebensmittel unterscheiden können.
 
 
<u>Aktivität:</u>
 
Die Bäume (als  ausgefüllte AB 6 aus der vorherigen Stunde) liegen als Stationen in der  Klasse, zusammen mit neuen roten und grünen Büroklammern. Jeder Schüler/jede  Schülerin geht mit seiner ausgefüllten Blankokarte (AB 8) von Station zu  Station. An jeder Station durchläuft er mit der Karte den jeweiligen Baum und heftet am Ende eine farbige Büroklammer an die Karte (je nachdem, ob der Baum  das Lebensmittel als eher empfehlenswert oder eher nicht empfehlenswert  klassifiziert)
 
 
Mit einem  Beispiellebensmittel kann vorher demonstriert werden, wie das Durchlaufen  eines Baumes funktioniert! Optional kann dies mit [https://unterrichtsmaterial-ddi.cs.upb.de/images/e/eb/Pr%C3%A4sentation5_Baum_Anwenden.pptx Präsentation 5] vernanschaulicht werden.
 
 
<u>Reflexion:</u>
 
Hierbei geht es um das  Thema Unsicherheit, das bei Entscheidungsbäumen (und beim Arbeiten mit Daten) immer eine wichtige Rolle spielt. Hier geschieht die  Auswertung, ob das Lebensmittel eher empfehlenswert oder eher nicht  empfehlenswert ist anhand des Auszählens der farbigen Büroklammern.
 
Diskussion: Was  bedeutet es, dass an manchen Lebensmitteln unterschiedliche Klammern hängen?
 
#Die  Entscheidung eines Entscheidungsbaums ist mit Unsicherheit behaftet.
#Unterschiedliche Bäume können unterschiedliche Entscheidungen liefern, wir können aber  überprüfen, welcher Baum zuverlässig ist (welcher Baum die meisten Objekte  richtig klassifiziert), indem wir Testdaten nutzen – das kommt in der  nächsten Phase.
#Entscheidungen  eines Entscheidungsbaums können darüber hinaus mit gesundem Menschenverstand beurteilt  werden.
|
|
*Festhalten einer Bewertung (z.B. durch Abwägung) der Erhebung und Verarbeitung von Standortdaten im Mobilfunknetz (alternativ: in den thematisierten Kontexten)
 
 
 
 
Entscheidungsbäume auf  ein neues Lebensmittel anwenden
 
 
 
„Unsicherheit“ im Regelsystem erkennen
<br />
 
|
|
[https://unterrichtsmaterial-ddi.cs.upb.de/images/e/eb/Pr%C3%A4sentation5_Baum_Anwenden.pptx Präsentation 5]
<br />
|-
|-
| colspan="4" |'''<center><big>Teil 3: Weitere Kontexte mit der Erhebung und Verarbeitung von Standortdaten</big></center>'''
|'''7b'''
<br />
|'''Systematisches  testen von Entscheidungsbäumen anhand mehrerer Testkarten'''
 
<u>Motivation:</u>
 
Um die Unsicherheiten  in Entscheidungsbäumen systematisch weiter zu untersuchen, testet nun jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im  Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die  Performance der Entscheidungsbäume miteinander zu vergleichen.
 
<u><br />Aktivität:</u>
 
Die Testkarten werdenj im Plenum eingeführt und mit Hilfe von Arbeitsblatt 9 mit Labeln versehen. Um die Entscheidunsgbäume wirklich zu testen, müssen vorher schon Label an der Karte sein, die man dann mit dem Ergebnis eines Baums vergleichen kann. Jede Gruppe testet mit den Testdaten den Baum der eigenen Gruppe (Ergebnis aus der vorherigen Stunde  auf AB6). Dafür wird jede Testkarte genommen und Baum klassifiziert. Passt das Ergebnis zum im PLenum gewählten Label zählt die Klassifikation als korrekt. Währenddessen dokumentieren die SuS, wie viele Karten der Baum “richtig” und “falsch”  klassifiziert hat. Am Ende kann auf AB 6 folgender Satz ergänzt werden: „Mit diesem Baum wurden von den Testdaten ___  Lebensmittel richtig klassifiziert und ____ Lebensmittel falsch  klassifiziert.”
 
 
<u>Besprechung:</u>
 
Im Plenum wird verglichen, wie gut die Bäume jeweils mit  Testdaten abschneiden.
 
Welcher Baum hat die meisten Lebensmittel von  den Testdaten richtig klassifiziert? Wie unterscheidet sich die Performance der Entscheidunsgbäume von Trainings- zu Testdaten
 
<br />
|
 
 
 
 
 
Testkarten zum Prüfen  eines Baums nutzen
 
 
Einen Entscheidungs-baum  mit Testdaten bewerten
 
 
 
 
Verschiedene Bäume  anhand von Tesdaten gegenüberstellen und bewerten<br />
|
 
 
 
 
Testkarten
 
Arbeitsblatt 9
 
[https://unterrichtsmaterial-ddi.cs.upb.de/images/5/5f/AB6_Zweiter_Datensplit.docx Arbeitsblatt 6]
 
 
 
 
 
 
 
 
 
<br />
|-
|-
|'''3a'''
|'''8'''
|'''Identifizieren weiterer Kontexte im Alltag der Lernenden:'''
<br />
Im Plenum werden weitere Interaktionskontexte aus dem Alltag der Lernenden gesammelt, in denen ebenfalls Standortdaten erhoben und verarbeitet werden. Dabei sollte beachtet werden, dass es auch andere Erhebungsarten von Standortdaten gibt (Mobilfunknetz: Standorte der Basisstationen; andere Kontexte: z.B. GPS-Daten; s. Erklärung in ergänzenden Informationen). In der nächsten Phase werden dann ausgewählte Beispiele näher untersucht.  
|'''Erstellen von  Entscheidungsbäumen mit dem Computer'''  
 
<u>Motivation:</u>
 
Nachdem die SuS den Erstellungsprozess eines Entscheidungsbaums kennengelernt und manuell durchlaufen haben, wird in dieser Stunde im eigentlichen Sinne des maschinellen Lernens ein Entscheidungsbaum automatisch mit Hilfe eines Computers erstellt. In einer vorbereiteten menübasierten digitalen Lernumgebung (basierend auf Jupyter Notebook), die per Link erreichbar ist, können die SuS selbst mit Entscheidungsbäumen arbeiten oder die Lehrkraft kann den Prozess demonstrieren. Die Lernumgebung ist weitgehend selbsterklärend und erfordert keine Programmierkenntnisse. Es ist möglich per Knopfdruck Einfluss auf die Daten zu nehmen und einen Entscheidungsbaum basierend auf den Daten erstellen lassen. Dies ermöglicht auch die Daten zu verändern und die Auswirkungen auf den Entscheidungsbaum zu untersuchen.  
 
 
<u>Aktivität:</u>
 
Um noch einmal zu  thematisieren, wie ein Computer algorithmisch vorgeht, um Schwellenwerte zu  finden, wird zunächst [https://unterrichtsmaterial-ddi.cs.upb.de/images/d/dd/AB10_Systematik.docx Arbeitsblatt 10] ausgefüllt.
 
 
Unter folgendem Links gibt es ein vorbereitetes Jupyter Notebook, das per „Click and play“ benutzt  werden kann: <nowiki>https://go.upb.de/auto-baum</nowiki>
 
Mit den folgenden LogIn Daten kann auf das Notebook zugegriffen werden.
 
Benutzer: jupyter
 
Passwort: upb_jupyter
 
Im Jupyter Notebook haben die SuS verschiedenen Aktivitäten. Die Benutzung so wie die Aufgabenstellungen sind für SuS (fast) selbsterklärend:
 
#Alle SuS vergeben zunächst wieder Label für den Trainingsdatensatz wie  in Stunde 2 (kann z:B. mit Hilfe von AB2 rekonstruiert werden).
#Anschließend wird durch den Computer automatisch ein  Entscheidungsbaum erstellt. DIe Tiefe des Baums kann dabei eingestellt werden, sodass etwas heruprobiert werden kann.
#Der automatisch erstellte Baum kann mit den Testdaten  überprüft werden.
#Am Ende können Daten für ein neues Lebensmittel  eingegeben werden und durch den Baum klassifiziert werden.
 
 
Anmerkung zum Jupyter Notebook:
 
Im Jupyter Notebook arbeiten die SuS nur mit menübasierten Elementen. Der Quellcode ist versteckt. Um das Notebook "zu starten" empfehlen wir einmal in der obigen Menüleiste "Cell" auszuwählen und dann "Run all" anzuklicken. Damit werden alle Zellen des Notebooks in der richtigen Reihenfolge ausgeführt und von da an ist es nur noch über die interaktiven Menüs benutzbar. Wenn die Zellen jeeils einzeln mit "Run" ausgeführt werden, kann es zu Fehlermeldungen kommen.


<u><br />Vertiefungsmöglichkeit:</u>


<u>Didaktischer Kommentar:</u>
Zum Vertiefen können  die Ausgangsdaten im Jupyter Notebook unterschiedlich mit Labeln versehen werden.  Dadurch lässt sich erkennen, welchen Einfluss die Daten bzw. Die Modellierung  der Daten (hier der menschliche Einfluss durch Vergabe der Label) auf die  Ergebnisse hat. Z. B. kann die anfängliche Vergabe der Label so verändert  werden, dass sie willkürlich ist und dann wird auch als Ergebnis ein Entscheidungsbaum  erstellt, der inhaltlich keinen Sinn ergibt. Dies verdeutlicht, dass die  Qualität der Daten(-modellierung) entscheidend für Qualität eines  Regelsystems ist, das durch maschinelles Lernen erstellt wird.


In dieser Phase geht es nicht um die genaue Rekonstruktion verschiedener weiterer Kontexte hinsichtlich der Datenerhebung und -verarbeitung, dies passiert in der nachfolgenden Phase. Es geht zunächst erstmal darum, weitere Kontexte, in denen Standortdaten von Nutzenden erhoben werden, zu identifizieren und zu beschreiben. Dadurch sollen die Lernenden einen breiteren und differenzierteren Blick für die Rolle von Standortdaten im eigenen Alltag entwickeln und datengetriebene digitale Artefakte, die Standortdaten erheben, eher erkennen.
 
<u>Reflexion:</u>
 
Es sollte nach der Einheit reflektiert werden, wie die Entscheidungsbäume mit Hilfe des Computers erstellt wurden. Man sieht nur das Endergebnis, aber im Hintergrund ist vergleichbares passiert, wie beim manuellen Prozess mit den Datenkarten. 
 
Manueller Prozess:
 
*Merkmal auswählen und Karten danach sortieren
*Schwellenwerte ausprobieren
*Anzahl und falscher/korrekter Klassifikationen abhängig vom Schwellenwerten auswerten und damit Schwellenwerte/Entscheidungsregeln vergleichen
 
Mit dem Computer ist es möglich alle Merkmale zu testen und alle sinnvollen Schwellenwerte auszuprobieren, d.h. bildliche formuliert für jede "Lücke" zwischen zwei Datenkarten wird ein Schwellenwert ausprobiert. Dabei wird jeweils die Anzahl der Fehlklassifikationen ausgewertet. Mit Hilfe des Computers wird also auf vergleichbare Art ein Entscheidungsbaum erstellt. Der Computer führt diese Schritte allerdings viel schneller aus und somit können mehr Merkmale und Schwellenwerte ausprobiert werden. Diesen automatisierten Erstellungsprozess eines Entscheidungsmodells ist eine Form von (überwachtem) maschinellen Lernen.  
|
|
*Erkennen weiterer Interaktionskontexte aus dem eigenen Alltag, in denen Standortdaten erhoben und verarbeitet werden
 
 
Einen Entscheidungs-baum  maschinell erstellen lassen
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Einfluss von Daten auf  das Ergebnis untersuchen
 
 
 
 
 
 
 
 
 
<br />
|
|
[https://unterrichtsmaterial-ddi.cs.upb.de/images/d/dd/AB10_Systematik.docx <br />Arbeitsblat 10]
Computer
<br />
|-
|-
|'''3b'''
|'''9'''
|'''Anwendung und Bewertung (Variante 1: Rollenspiel):'''
|'''Reflexion''' 
Die Lernenden bearbeiten ein Rollenspiel zu der Erhebung und Verarbeitung von Standortdaten in verschiedenen weiteren Interaktionskontexten (AB5-A bis AB5-E). In dem Rollenspiel wird im Rahmen einer Talkshow über die Erhebung und Verarbeitung von Standortdaten in verschiedenen Kontexten diskutiert:
 
'''Was hat uns das Erstellen des  Entscheidungsbaums gebracht?'''
 
Wir haben nun Erkenntnisse über die  Rolle verschiedener Merkmale von Lebensmitteln erlangt:
 
*Es reicht nicht ein Merkmal zu betrachten, um zu entscheiden ob eine Lebenmittel empfehlenswert ist.
*Die Merkmale Fett, Zucker und Energie sind besonders gute Indikatoren (dürfen allerdings nicht alleine als Entscheidungskriterium genutzt werden)
*Es ist möglich durch das Erstellen von Entscheidungsbäumen Erkenntnisse zu gewinnen und zu visualisieren, die in Daten verborgen liegen
*Konkrete Bäume aus dem Unterricht können nocheinmal als Grundlage genommen werden die Entscheidungsregeln zu replizieren
 
 
'''Welche Schwächen kann der Entscheidungsbaum haben?'''
 
Ein resultierender Entscheidungsbaum  ist kein absolut gültiges Regelsystem für empfehlenswerte Lebensweise, aber er kann uns trotzdem gute Hinweise geben. Wir haben gesehen, dass die Entscheidungsbäume auch immer Fehler machen können.
 
 
Gründe für Schwächen die auf Daten zurückzuführen sind:
 
*Die Daten wurden eher intuitiv mit Label versehen. Bei der Zuordnung von eher empfehlenswert/eher  nicht empfehlenswert war sich die Klasse nicht immer einig bzw. sicher. Mit der Modellierung der Daten steht und fällt die Güte des Entscheidungsbaums. (ggf. Verweis auf Phase 8 wenn im Jupyter Notebook ein durchlauf mit Daten gemacht wurde die zufällig bzw. falsch gelabelt wurden) --> Daten sind als Grundlage für die Lösung der wichtigste Baustein
*Vielleicht  gibt es noch weitere wichtige Merkmale von Lebensmitteln die gar nicht erhoben wurden gar nicht erhoben. (Zum  Beispiel Ballaststoffe)
 
Gründe für Schwächen die auf den Kontext zurückzuführen sind:
 
*Eine  empfehlenswerte Ernährung ist in erster Linie vielseitig und nicht eins zu eins durch einen Entscheidungsbaum abzudecken.
 


*''Vorbereitungsphase:'' Die Lernenden arbeiten sich in eine gegebene Rolle ein und bereiten Argumente vor. Drei Rollen sind Vertretende von datengetriebenen digitalen Artefakten aus dem Alltag der Lernenden, bei deren Nutzung Standortdaten erhoben und verwendet werden. Zwei Rollen sind Bürger, die für oder gegen die Erhebung und Verarbeitung persönlicher Daten sind.
'''Zentrale Erkenntnis:'''
*''Spielphase:'' In einer Talkshow wird über die Erhebung und Verarbeitung von Standortdaten diskutiert. Die Vertreter von datengetriebenen digitalen Artefakten nutzen dies, um Werbung für ihre Anwendung zu machen und den Nutzen der Erhebung und Verarbeitung der Daten für die Nutzenden zu verdeutlichen (v.a. primäre Zwecke). Die Rollen der Bürger greifen hingegen kritischer und differenzierter auch die sekundären Zwecke auf.
*''Auswertungsphase:'' Die Positionen werden kommentiert und die Lernenden beziehen zu diesen eine eigene begründete Stellung. Die verschiedenen Perspektiven auf die Zwecke der Verwendung und Verarbeitung der Daten werden festgehalten.


Ein Entscheidungsbaum ist eine mögliche Form dessen, was man KI nennt. Durch  einen Entscheidungsbaum wird eine Entscheidung vorgeschlagen. Der  Entscheidungsbaum gibt aus, ob etwas eher empfehlenswert oder nicht ist. Der  Computer ist aber nicht “intelligent”, sondern wurde anhand von Daten auf das  entsprechende Regelsystem trainiert. Das heißt nicht, dass der Computer  „weiß” oder „verstanden” hat, was empfehlenswert ist, sondern nur, dass er  Daten auswertet und basierend darauf Klassifikationen vorgenommen werden  (können).


'''Anwendung und Bewertung (Variante 2: Plakate zur Erhebung und Verarbeitung von Standortdaten erstellen):'''
<u>Vertiefung:</u>


Die Lernenden erstellen in Gruppen Plakate zu der Erhebung und Verarbeitung von Standortdaten in gegebenen Kontexten (AB5). Aus der Perspektiven von Anbietern einer Anwendung, die Standortdaten erhebt, erarbeiten die Lernenden, wie die Standortdaten erhoben werden und wozu diese genutzt werden (könnten).  
*Für  welche Situationen können Entscheidungsbäume hilfreich sein? Gib ein Beispiel  an. (z.B. personalisierte Werbung, Vorschläge auf online Plattformen)
*Als Zielmerkmal wird dabei vorhergesagt ob einer Person beispielsweise ein Produkt, ein Film etc. gefällt. Das Zielmerkmal in dieser Reihe war ob das Lebensmittel empfehlenswert oder nicht empfehlenswert ist.
*Welche  Daten werden dafür benötigt? Es werden Daten über verschiedene Merkmale des Verhaltens einzelner Personen gesammelt. Diese Merkmale werden dann genutzt um Entscheidungsregeln aufzustellen, ähnlich zu den Nährwertangaben in der Unterrichtsreihe.
*Mit Daten von vielen Nutzern werden dann passende Entscheidungsmodell erstellt die versuchen vorherzusagen, ob mir ein Produkt gefällt um es mir dann anzuzeigen.   <br />
|Prozess beim Erstellen  eines Entscheidungs-baums rekapitulieren


Im Anschluss werden die Plakate durch die Gruppen vorgestellt. Danach kommentieren die Lernenden die Plakate sowie bewerten begründet die Erhebung und Verarbeitung der Daten in den jeweiligen Interaktionskontexten.




<u>Didaktischer Kommentar:</u>


Die Lernenden sollten in dieser Anwendungs- und Bewertungsphase (in beiden Varianten) einen breiteren Blick für die Erhebung und Verarbeitung von Standortdaten in ihrem Alltag entwickeln. Dabei sollten sie auch die Erhebung von Standortdaten in den verschiedenen Kontexten und verschiedene Zwecke der Verarbeitung und Verwendung beschreiben können.


Dies soll durch den Perspektivwechsel von Nutzenden zu Anbietern von datengetriebenen digitalen Artefakten unterstützt werden. In beiden Varianten sollten die Lernenden eine persönliche (begründete) Bewertung der datengetriebenen digitalen Artefakte in den verschiedenen Interaktionskontexten vornehmen und sich selbst dazu positionieren.
|
*Wechsel der Perspektive eines Nutzenden zu einem Anbieter eines datengetriebenen digitalen Artefakts
*Bewertung der Erhebung und Verarbeitung von Standortdaten im Mobilfunknetz und weiteren Kontexten (v.a. individuell, lerngruppenabhängig auch auf einer gesellschaftlichen Ebene)
*Reflektieren der Erhebung und Verarbeitung von Standortdaten im eigenen Alltag
|'''Für Variante 1:'''
[[Medium:AB5-A - Rollenspiel.docx|AB5-A - Rollenspiel]], [[Medium:AB5-B - Rollenspiel.docx|AB5-B - Rollenspiel]], [[Medium:AB5-C - Rollenspiel.docx|AB5-C - Rollenspiel]], [[Medium:AB5-D - Rollenspiel.docx|AB5-D - Rollenspiel]], [[Medium:AB5-E - Rollenspiel.docx|AB5-E - Rollenspiel]]


'''Für Variante 2:''' [[Medium:AB5 - Plakat.docx|AB5 - Plakat]]
|}


==Beschreibungen ausgewählter Materialien==


===Puzzle zum Aufbau und der Funktionsweise des Mobilfunknetzes===
[[Datei:Datenbewusstsein-Standortdatenmodul-Puzzle-Lösung.png|mini|465x465px|Beispiellösung für das Puzzle in analoger Version]]
[[Datei:Exploration Standortdaten Kalsse 8 bis 10 - Puzzle.png|mini|504x504px|Digitale Version des Puzzles zum kollaborativen Bearbeitung des Puzzles|alternativtext=|verweis=https://unterrichtsmaterial-ddi.cs.upb.de/Datei:Exploration_Standortdaten_Kalsse_8_bis_10_-_Puzzle.png]]


====Puzzleteile:====
Ergebnisse kritisch  beurteilen


=====Personenplättchen:=====
Modellierung durch  Daten aufgreifen
Die drei Personenkärtchen stellen symbolisch die drei Personen mit ihren Handys bzw. mobilen Stationen dar. Diese spielen in den Simulationen der Funktionsweise des Mobilfunknetzes in der zweiten Aufgabe des Arbeitsblattes 2 eine große Rolle.


=====Elemente des Mobilfunknetzes:=====
|
In dem Puzzle kommen stellvertretend für das reduzierte Mobilfunknetz neben den Personenplättchen vier Puzzleteile vor: 1) Antenne + Basisstation (viermal), 2) Vermittlungsstelle, 3) Datenspeicher, 4) Internet.


Eine detaillierte Beschreibung des Mobilfunknetzes und der jeweiligen Elemente findet sich in dem zuvor verlinkten [[Medium:Exploration Standortdaten - Ergaenzende Informationen.pdf|Dokument zu ergänzenden Hintergrundinformationen]].
|-
|
|'''Evaluation'''


Nachfolgend wird eine Lösung des Puzzles beschrieben. Die Puzzleteile sind, wie dort dargestellt, auf der Puzzlevorlage (s.u.) abzulegen, um das Mobilfunknetz adäquat darzustellen und die Funktionsweise daran zu simulieren. Die Schnittstelle zwischen Vermittlungsstelle und Datenbank wurde zur Reduktion der Komplexität durch eine direkt verbundene Anordnung ersetzt. Die Vermittlungsstelle und die Datenbank sind also als zwei verknüpfte Elemente zu verstehen. Das Puzzleteil Internet (4) steht in äußerst abstrakter Art und Weise stellvertretend für die Verbindung zwischen Vermittlungsstelle und „dem Internet“. Die Thematisierung des, wenn auch grundlegenden, Aufbaus des Internets in diesem Unterrichtsmodul würde im Sinne der Komplexität zu weit führen. (Denkbar wäre an dieser Stelle jedoch in Abhängigkeit der Lerngruppe ein sehr kurzer Exkurs zum Aufbau des Internets.)
Bitte als Abschluss der  Unterrichtsreihe den Schülerinnen und Schülern das [https://unterrichtsmaterial-ddi.cs.upb.de/images/8/82/AB11_Evaluation.docx Arbeitsblatt 11] Evaluation  (Rückmeldung) geben mit dem Hinweis, dass dies eine anonyme Rückmeldung an  die „Erfinder“ der Unterrichtsreihe ist. Die „Erfinder“ sind sehr daran  interessiert zu erfahren, wie die Reihe den Schülerinnen und Schülern  gefallen hat.


====Puzzlevorlage:====
Das Arbeitsblatt findet  sich auch digitalisiert auf einem Server datenschutzrechtlich unbedenklich  der Universität Paderborn.
Die Puzzleteile und Personenplättchen werden in der ersten Aufgabe des Arbeitsblattes 2 im Sinne einer Rekonstruktion des Aufbaus des Mobilfunknetzes auf einer Puzzlevorlage abgelegt. Die Puzzlevorlage wird die Lernenden gemeinsam mit den Puzzleteilen und dem Arbeitsblatt 2 ausgehändigt. In durchgeführten Erprobungen des Unterrichtsmoduls hat sich gezeigt, dass es ratsam ist, die Materialien des Puzzles bereits zuvor ausgeschnitten in den Unterricht mitzubringen, um die effektive Lernzeit nicht wesentlich zu verkürzen, ein Ausschneiden im Unterricht durch die Schülerinnen und Schüler ist unter Umständen auch möglich.


====Lösung des Puzzles:====
Die eingescannten  Arbeitsblätter schicken Sie bitte per E-Mail an podworny@math.uni-paderborn.de; alternativ kann  die anonyme Evaluation unter <nowiki>https://go.upb.de/ev-lebensmittel</nowiki>  von den SuS ausgefüllt werden.
Eine mögliche Lösung für das Puzzle in dem nebenstehendem Bild dargestellt. Variationen bestehen lediglich in der Wahl der Funkzellen, in denen sich die drei Personen aufhalten. Die Elemente des Mobilfunknetzes (graue Puzzleteile) sollten nicht anders gewählt werden. Die Pfeile werden in der zweiten Aufgabe des Arbeitsblattes 2 auf das Puzzle gelegt, um das Herstellen einer Verbindung im Mobilfunknetz nachzustellen. Dazu werden zwei Szenarien zum Telefonieren (Situation 1: orangene Pfeile, Situation 2: grüne Pfeile) aufgegriffen. Optional kann ein drittes Szenario zum ''Aufrufen einer Internetseite'' (blaue Pfeile) als „Sprinteraufgabe“ bearbeitet werden. Die Pfeilrichtung stellt vereinfacht das Senden von Datenpaketen bei der Anfrage der jeweiligen Mobilfunkverbindung dar.


===Hinweise zu den explorierten Daten von Malte Spitz===
Die Standortdaten wurden während der Nutzung des Mobilfunknetzes von einem Mobilfunkanbieter erhoben. Die Datensätze wurden aus Gründen des Datenschutzes gefiltert, sodass nicht alle erhobenen Daten in der Tabelle aufgefasst werden und die Tabelle somit lediglich als Ausschnitt der erhobenen Daten bezeichnet werden sollte. Die Daten gehören zu einer Einzelperson – genauer zum Politiker Malte Spitz. Veröffentlicht wurden sie gemeinsam mit ''Zeit Online'' im Kontext des Diskurses um die Vorratsdatenspeicherung. Die inbegriffenen Daten umfassen einen Zeitraum zwischen September 2009 und Februar 2010. Bei der Interpretation der auf der Karte visualisierten Standortdaten sollte gegebenenfalls berücksichtigt werden, dass es sich um inzwischen ältere Daten auf einer aktuellen Karte handelt und somit die weiteren Hinweise auf der Karte (z.B. Cafe, Restaurant, Firmen) nicht unbedingt immer stimmen müssen. Dies hindert den Erkenntnisgewinn der Lernenden aus unserer Sicht jedoch nicht.


'''Weiterführende Quellen zu den Daten:'''
Herzlichen Dank dafür!
|Rückmeldung geben
|[https://unterrichtsmaterial-ddi.cs.upb.de/images/8/82/AB11_Evaluation.docx Arbeitsblatt 11]  
 
(oder digital: siehe Link)
 
|}
'''Glossar'''
 
'''Ast''' Ein Ast innerhalb eines Entscheidungsbaums ist eine von mehreren Abzweigungen, die von einem Regelknoten zu einem nächsten Knoten führt.


https://www.zeit.de/digital/datenschutz/2011-02/vorratsdaten-malte-spitz
'''Ausprägung/Merkmalsausprägung''' Die Werte, die ein Merkmal annehmen kann, nennt man Merkmalsausprägung.


https://www.zeit.de/datenschutz/malte-spitz-vorratsdaten
'''Beispiel (im Kontext von KI)''' Ein Beispiel ist ein Objekt (z. B. Lebensmittel), das durch bestimmte Merkmale (z. B. Nährstoffe) beschrieben wird und mit einem Label (z. B. „eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist.


===Interaktive Web-Anwendung===
'''Blattknoten''' Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Die Knoten am Ende eines Entscheidungsbaums nennt man Blattknoten und in ihnen ist immer eine Entscheidung für eine Ausprägung des Zielmerkmals eingetragen.
[[Datei:Exploration von Standortdaten - Web-Anwendung.png|Ausschnitt der gestarteten interaktiven Web-Anwendung zu diesem Unterrichtsmodul (Stand: Mai 2021)|alternativtext=|mini|591x591px]]Für das Unterrichtsmodul haben wir eine interaktive Webanwendung entwickelt. Diese ist unter folgendem Link erreichbar: [https://go.upb.de/ExplorationStandortdaten go.upb.de/ExplorationStandortdaten]


Sie basiert auf einem Jupyter Notebook und ist mit Python entwickelt worden. Von den Lernenden werden hingegen keine Kenntnisse im Umgang mit Jupyter Notebooks sowie keinerlei Programmierkenntnisse vorausgesetzt.
'''Datenkarte''' Eine Datenkarte repräsentiert ein Objekt, indem darauf die Ausprägungen einer Liste von Merkmalen dargestellt sind (z. B. ein Lebensmittel durch Nährwertangaben zu einer Liste von Nährstoffen). Eine Datenkarte kann digital oder analog repräsentiert sein.


Zunächst müssen die Standortdaten eingelesen werden, was über den Button ''Lade die Standortdaten'' geht. Prinzipiell ist es auch möglich eigene Standortdaten einzuladen bzw. die Anwendung, um diese zu erweitern, die an dieser Stelle ausgewählt werden könnten.  
'''Datensplit''' Ein Datensplit ist die Aufteilung von Daten in Teildatensätze basierend auf den Ausprägungen eines Merkmals, z. B. durch einen Schwellenwert.


Nach Laden der Standortdaten wird die Bedienoberfläche angezeigt (s. Bild).  
'''Entscheidungsbaum''' Ein Entscheidungsbaum ist ein (übersichtliches, in gewissen Grenzen nachvollziehbares) Regelsystem, das als Baumdiagramm dargestellt werden kann. Ein solcher Entscheidungsbaum veranschaulicht hierarchisch aufeinanderfolgende Entscheidungsregeln, an deren Ende immer eine Entscheidung für eine bestimmte Fragestellung steht.


Sie besteht im Wesentlichen aus drei Bereichen: 1) Eingabemaske zum Einstellen von Filtern (oben links), 2) Anzeige der verarbeiteten Filter und der Tabelle der aktuellen Standortdaten (oben rechts) und 3) Karte zur Visualisierung der Standortdaten mit mehreren Widgets zur Steuerung der Visualisierung (unten).
'''Fehlklassifikation''' Eine Objekt, das durch einen Klassifikator einer falschen Klasse zugeordnet wird nennt man Fehlklassifikation.


In der Eingabemaske (1) können drei Filter separat oder zusammen eingestellt werden. Erstens kann nach einer Zeitspanne gefiltert werden, dann werden alle Standortdaten außerhalb dieser Zeitspanne entfernt. Es können lediglich ganze Stunden eingegeben werden, etwa 16 für 16:00 Uhr. Zweitens kann nach einem Wochentag gefiltert werden, etwa „Montag“, der als Textform in das Textfeld eingegeben bzw. aus dem Dropdown-Menü ausgewählt werden kann. Alle Standortdaten von Tagen außer dem gewählten Wochentag werden entfernt. Drittens kann nach einem Monat gefiltert werden, der ebenfalls als Text eingegeben oder aus dem Dropdown-Menü ausgewählt werden kann. Alle Standortdaten aus anderen Monaten werden entfernt. Ein oder mehrere verwendete Filter werden durch Klicken auf den Button ''Wende Filter an und aktualisiere die Karte'' auf die aktuellen Standortdaten angewendet. Die Karte wird dann zurückgesetzt und kann zum Visualisieren der aktuellen Standortdaten verwendet werden. Durch Klicken auf den Button ''Setze alle Filter zurück'' werden die ursprünglichen Standortdaten wiederhergestellt, sodass neue Filter gesetzt werden können.  
'''Klasse (im Kontext von KI)''' Eine Klasse ist eine Ausprägung eines kategorialen Zielmerkmals beim überwachten maschinellen Lernen.


In der Anzeige (2) werden die zuletzt angewendeten Filter mit jeweils einem Satz beschrieben sowie die aktuellen Standortdaten in tabellarischer Form dargestellt.  
'''Klassifikation''' Mit einem Entscheidungsbaum kann man Ausprägungen eines (mit einer gewissen Wahrscheinlichkeit) Merkmals vorhersagen. Anders formuliert kann man also ein Objekt einer Klasse zuordnen. Eine solche regelgeleitete Zuordnung zu einer Klasse nennt man Klassifikation.


Auf der Karte (3) werden die Standortdaten visualisiert. Dynamisch können diese mit dem Play-Widgets unten links nach und nach eingeblendet werden. Dadurch kann der Verlauf der Standortdaten gut nachvollzogen werden. Dieses Einzeichnen der Standorte kann mit dem Pause Button in diesem Widget pausiert und mit dem Stopp Button zurückgesetzt werden. Die Geschwindigkeit des Einzeichnens kann mit dem Schieberegler ''Speed'' unten rechts angepasst werden. Der Button ''Alle Standorte einzeichnen'' kann als Ersatz für die dynamische Visualisierung der Standortdaten verwendet werden, um alle Standorte auf einmal einzeichnen zu lassen. Aus Performancegründen ist dieser jedoch für wenige Standortdaten empfohlen und auch reguliert. Oben rechts auf der Karte wird in einem Textfeld der Zeitpunkt des zuletzt eingezeichneten Standortes angegeben. Mit den Buttons Plus und Minus oben links auf der Karte kann die Zoomstufe der Kartenanzeige verändert werden.
'''Klassifikator''' Ein Klassifikator ist ein Regelsystem (z. B. Entscheidungsbaum), das bestimmte Objekte anahand von Prädiktormerkmalen klassifizieren kann.


Standorte werden als Marker dargestellt. Durch Halten der Maus über einen Marker wird ein Tooltip mit dem Zeitpunkt dieses Standortes eingeblendet. Wenn mehrere Marker nah beieinander liegen, werden diese zu einem Cluster (farbiger Kreis mit einer Zahl) zusammengefasst. Durch Anklicken des Kreises bzw. durch Hineinzoomen in die Karte werden die Cluster wieder (abhängig von der Zoomstufe) getrennt.
'''Klassifizieren''' Das Klassifizieren eines Objekts entspricht dem Zuordnen eines Objekts zu einer Klasse (aus einer Menge möglicher Klassen). Klassen können auch als Merkmalsausprägungen eines kategorialen Merkmals verstanden werden.  


Kontaktieren Sie uns gerne bei Fragen, entdeckten Fehlern oder Verbesserungsideen. Wir sind stets daran interessiert, die Web-Anwendung weiterzuentwickeln.
'''Künstliche Intelligenz (KI)''' Künstlicher Intelligenz befasst sich mit der Frage, wie man Computer dazu bringen kann, Dinge zu tun, die Menschen bisher besser beherrschen. Dazu gehören verschiedenste Anwendungen, u. A. die Fähigkeit in verschiedenen Szenarios Vorhersagen zu treffen oder Klassifikationen vorzunehmen die mit einer hohen Rate korrekt sind. Somit zählen leistungsfähige Klassifikatoren (z.B. Entscheidungsbäume) zu den Anwendungen von Künstlicher Intelligenz.


===Beispiel für die Interpretation der visualisierten Standortdaten===
'''Label''' Ein Label gibt die Klassenzugehörigkeit eines Objekts an. Das Label kann als Ausprägung eines Merkmals (Zielmerkmal) verstanden werden.
In den Explorationsphasen des Unterrichtsmoduls mit der interaktiven Web-Anwendung filtern und interpretieren die Lernenden die visualisierten Standortdaten. Da die Interpretationen subjektiv sind, werden sich diese in der Lerngruppe durchaus widersprechen. So wird für den Beruf typischerweise eine breite Vielfalt angeboten, die durchaus plausibel sind. Für die Interpretationen muss es im Unterrichtsverlauf auch kein richtig oder falsch geben. Wichtig ist, dass für die eigenen Interpretationen mit Bezugnahme auf die Daten argumentiert werden kann.
[[Datei:Datenbewusstsein-Standortdatenmodul-Beispielbild-Interpretation.png|mini|250x250px|Auswahl der Standorte für den Filter von 3 bis 4 Uhr]]


====Beispiel einer Interpretation:====
'''Maschinelles Lernen''' Maschinelles Lernen bezeichnet Verfahren, in denen eine Lernaufgabe automatisiert durch Lernalgorithmen basierend auf Daten gelöst wird. Maschinelles Lernen unterscheidet verschiedene Arten von Lernaufgaben. Typischerweise wird zwischen drei Arten von Lernaufgaben unterschieden: überwachtes Lernen, unüberwachte Lernen und bestärkendes Lernen. Beim überwachten Lernen geht es darum, die Ausprägung eines Zielmerkmals für eine bestimmte Art von Objekten vorherzusagen. Beim unüberwachten Lernen geht es darum, Objekte anhand bestimmter Merkmale in Gruppen ähnlicher Objekte zusammenzufassen und beim bestärkenden Lernen geht es darum, sogenannte „Agenten“ (z.B. Roboter) zum Handeln zu bringen. Bei allen Lernaufgaben kommen unterschiedlichste Lernalgorithmen zum Einsatz.
Die meisten Menschen schlafen nachts. In Deutschland würde das dann heißen, dass z.B. zwischen 3:00 bis 4:00 Uhr viele Menschen schlafen. Stellt man nun den Filter für die Zeitspanne auf 3 bis 4 Uhr ein, so stehen insgesamt 294 Standorte zur Verfügung. Nach Einzeichnen auf der Karte können 208 Standorte in Berlin lokalisiert werden. Schaut man diese nun genauer an, so befinden sich 189 von diesen in der Nähe der U-Bahn Haltestelle Rosenthaler Platz (s. Bild).


====Weiteres Beispiel einer Interpretation:====
'''Merkmal''' Merkmale charakterisieren Objekte und können verschiedene Ausprägungen annehmen. Es gibt numerische und kategoriale Merkmale.
Die Lernenden können dazu neigen, sehr stark zu interpretieren. So etwa folgendes Beispiel aus einer Erprobung: Ich habe die Standortdaten gefiltert und bekomme heraus, dass er sich oft bei einer bestimmten Firma aufgehalten hat. Die Firma ist in einer bestimmten Branche tätig, was ich mit einer Suchmaschine herausgefunden habe. Deswegen arbeitet er nun also etwa in der Finanzbranche.  


Ein Schüler erwiderte darauf in einer Unterrichtserprobung, dass der Aufenthaltsort tagsüber bei einer Firma lediglich die Interpretation ermöglichen würde, dass er vielleicht dort arbeiten würde, aber nicht welchen Beruf er dort nachgeht. Er könnte etwa auch einer Hausmeister-Tätigkeit nachgehen.
'''Objekt'''  Objekte sind Merkmalsträger jeglicher Art. D. h. Objekte können durch Merkmale beschrieben werden (Z. B. Lebensmittel werden durch Nährwerte beschrieben, Menschen durch charakterisierende Eigenschaften wie Haarfarbe oder Körpergröße). Dabei ist nicht festgelegt welche Merkmale zum beschreiben eines Objektes herangezogen werden.


Diskussionen dieser Art zeigen ein gutes Verständnis für die Gewinnung einer Information durch Interpretation von (Standort-) Daten und können sehr gewinnbringend für den Unterrichtsverlauf sein. Die Sicherheit der Interpretationen sollte also durchaus beachtet aber auch nicht unterschätzt werden. Die Auswertungsphase dieser Explorationen ist knapp bemessen. Zugunsten von Diskussionen dieser Art kann diese durchaus verlängert werden. Dabei kann dann auch aufgegriffen werden, dass bei solchen Datenauswertungen auch weitere Datenquellen hinzugenommen werden (s. optionale Ergänzung in Phase 2b), um genauere Interpretationen zu ermöglichen.
'''Pfad''' Ein Pfad innerhalb eines Entscheidungsbaums ist eine Abfolge von Ästen, die im Wurzelknoten beginnt und in einem Blattknoten endet.


===Beispiele für sekundäre Zwecke der Verwendung von Standortdaten aus dem Mobilfunknetz===
'''Prädiktormerkmal''' Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Zielmerkmals vorherzusagen. Für die Vorhersage wird ein Regelsystem basierend auf weiteren Merkmalen erstellt. Diese weiteren Merkmale, auf denen also die Vorhersage beruht nennt man Prädiktormerkmale.  


====Beispiel 1: Analyse der Mobilität während der Coronapandemie====
'''Regelknoten''' Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Zu Beginn stehen immer Regelknoten, die anhand von Prädiktormerkmalen gebildete Entscheidungsregeln repräsentieren. Alle Knoten in einem Entscheidungsbaum, bis auf die jeweils letzten Knoten weines Pfades, sind Regelknoten.
Zur Eindämmung der Covid-19-Pandemie wurden verschiedene Maßnahmen (u.a. „Lockdown“) veranlasst. Die Wirkung der Maßnahmen kann anhand der Mobilität der Bevölkerung untersucht werden. Dazu wurden etwa Mobilfunkdaten des Mobilfunkanbieters Telefónica bereitgestellt, die zuvor anonymisiert und aggregiert wurden. Ein Bericht dazu findet sich bei destatis. Dort sind ebenfalls interessante Visualisierungen eingefügt, welche im Unterricht mit aufgegriffen werden könnten.  


https://www.destatis.de/DE/Service/EXDAT/Datensaetze/mobilitaetsindikatoren-mobilfunkdaten.html
'''Schwellenwert''' Ein Schwellenwert ist eine Ausprägung, die zu einem numerischen Merkmal gewählt werden kann, um Objekte in Teildatensätze zu gruppieren. Die Teildatensätze ergeben sich aus den Objekten, deren jeweilige Ausprägung kleiner oder gleich dem Schwellenwert ist und denjenigen, deren jeweilige Ausprägung größer als der Schwellenwert ist.


====Beispiel 2: Analyse zur Optimierung des ÖPNV====
'''Trainingsdaten''' Trainingsdaten sind ein Satz von Daten, die genutzt werden, um mit Hilfe von maschinellem Lernen einen Klassifikator (z. B. Entscheidungsbaum) zu erstellen.
Mobilfunkanbieter nutzen erhobene Mobilfunkdaten (v.a. auch Standortdaten) für verschiedene Projekte im Kontext der Verkehrsoptimierung oder auch Optimierung des öffentlichen Personennahverkehrs. Telefónica berichtet dazu etwa von mehreren Projekten zum ÖPNV in Leipzig in München, der Verkehrsplanung in Deutschland oder zur Auswertung von Staus auf deutschen Straßen.  


https://www.telefonica.de/analytics/anonymisierte-daten.html
'''Testdaten''' Testdaten sind ein weiterer Satz von Daten, mit denen ein erstellter KLassifikator getestet wird. Trainings- und Testdaten sind disjunkt.


Ähnlich berichtet auch der Mobilfunkanbieter Deutsche Telekom von einem Projekt mit Verkehrsbetrieben in Nürnberg, wo anonymisierte Standortdaten verwendet werden, um das Verkehrsangebot zu optimieren. Unter dem zweiten Link findet sich auch ein Video, welches dazu die sekundäre Verwendung der Standortdaten beschreibt und eventuell für den Unterricht genutzt werden könnte.
'''Zielmerkmal''' Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Merkmals vorherzusagen. Das betreffende Merkmal nennt man Zielmerkmal.  


https://www.telekom.com/de/medien/medieninformationen/detail/data-analytics-handy-schwarm-hilft-strassenbahn-349426
'''Überwachtes maschinelles Lernen (engl.: supervised learning)''' Überwachtes maschinelles Lernen wird angewandt, um Entscheidungsmodelle zu erstellen, die für eine bestimmte Art von Objekten vorhersagen über ein Zielmerkmal treffen zu können. (z.B. Klassifizieren von Lebensmitteln als “eher empfehlenswert” und “eher nicht empfehlenswert”). Damit das überwachte Lernen angewandt werden  kann, benötigt man zuerst digitale Repräsentationen von Objekten, worin die Objekte anhand bestimmer (Prädiktor-)Merkmale beschrieben sind (z. B. Lebensmittel, die durch Nährwertangaben repräsentiert sind). Zusätzlich müssen für alle Objekte die gewünschten Ausprägungen des Zielmerkmals (z.B. eher empfehlenswert/eher nicht empfehlenswert) bekannt sein. Eine Sammlung von Beispielobjekten, denen Werte von Prädiktormerkmalen und Labeln zugeordnet werden, werden so zu einem Satz von Daten, der modellhaft eine ganze Klasse an Objekten repräsentiert. Mit diesen Daten können mit Hilfe von Lernalgorithmen verschiedene Arten von Regelsystemen/Entscheidungsmodellen (z.B. Entscheidungsbaum, neuronales Netz) erstellt werden. Den Erstellungprozess nennt man auch “Lernprozess” oder "Trainingsprozess" und die Daten, die dafür genutzt werden, nennt man Trainingsdaten.  Das Verarbeiten der Daten in diesem gesamten Trainingsprozess kann man als “überwachtes maschinelles Lernen” bezeichnen und dabei wird das Regelsystem immer besser an die vorliegenden Daten angepasst, bis am Ende möglichst wenig Fehler bei der Zuordnung (Fehlklassifikationen) passieren. Im ersten Schritt wird ein Entscheidungsmodell also so trainiert, dass es die Trainingsdaten korrekt zuordnet. Zielstellung ist es aber eigentlich, dass das Entscheidungsmodell über die Trainingsdaten hinaus funktioniert und auch neue Objekte (z.B. neue Lebensmittel) korrekt zuordnet. Im Anschluss wird das Entscheidungsmodell mit neuen Objekten bzw. Daten getestet und evaluiert. Dann spricht man von Testdaten. Der Begriff „überwacht“  wird in diesem Zusammenhang genutzt, da für alle verwendeten Objekte in den Daten die Ausprägung des Zielmerkmals bekannt ist und daher genau überwacht werden kann, wie gut des erstellte Entscheidungsmodell für die Daten funktioniert. Ein solches gut funktionierendes Entscheidungsmodell kann man als KI bezeichnen.       


https://www.telekom.com/de/medien/mediencenter/medienmappen/medienmappen-2015/data-analytics
*


__INHALTSVERZEICHNIS_ERZWINGEN__
<br />
[[Kategorie:Datenbewusstsein]]
[[Kategorie:ProDaBi]]

Aktuelle Version vom 11. März 2024, 10:53 Uhr


Download aller Materialien gesammelt als ZIP-Ordner: Unterrichtsreihe_Datenkarten.zip

Übersicht

{{#if:Datei:ProDaBi Logo.png|

}}

{{#if:Entscheidungsbäume| }} {{#if:Yannik Fleischer, Susanne Podworny| }} {{#if:Media:Nutri-Score und Entscheidungsbäume.pdf| {{#if:Nutri-Score und Entscheidungsbäume| | }} }} {{#if:| {{#if:| | }} }} {{#if:| {{#if:| | }} }} {{#if:| {{#if:| | }} }} {{#if:| {{#if:| | }} }} {{#if:| }}
Themenfeld Entscheidungsbäume
Autor Yannik Fleischer, Susanne Podworny
Editiert am 11.3.2024
Material Nutri-Score und Entscheidungsbäume
Material Media:Nutri-Score und Entscheidungsbäume.pdf
[[:|]]
[[:|]]
[[:|]]
[[:|]]
[[:|]]
[[:|]]
[[:|]]
[[:|]]
Unterseiten


Künstliche Intelligenz spielt im alltäglichen Leben sehr vieler (junger) Menschen mittlerweile eine große Rolle. Schülerinnen und Schüler (SuS) interagieren tagtäglich mit verschiedenen Anwendungen (z.B. Social Media Plattformen, Youtube, Spotify, Amazon, Smartphone Kamera, Videospiele), die KI beinhalten. Auch in nicht so alltäglichen, aber gesellschaftlich relevanten Bereichen wie Medizin und Justiz gibt es Beispiele für die Verwendung von KI. Fast alle KI Anwendungen die jüngst entwickelt wurden basieren auf maschinellem Lernen und somit dem Verarbeiten von Daten. Gemessen daran, dass KI so allgegenwärtig ist, sind fundierte Kenntnisse über KI und maschinelles Lernen nicht sehr weit verbreitet. Es wird häufig als nicht zugänglich und fast mystisch angesehen, was zu verschiedenen Fehleinschätzungen führen kann. Um dieser Entwicklung entgegenzuwirken hat das Thema nun Platz in Kernlehrplan NRW für die KLasse 5 und 6 gefunden. Anhand dieses Unterrichtsmoduls soll Basiswissen über maschinelles Lernen am Beispiel datenbasierter Entscheidungsbäume vermittelt werden. Dabei ist das Thema altergerecht aufgearbeitet, sodass SuS am für sie relevanten Kontext Ernährung mit Datenkarten vorwiegend handlungsorientiert auf enaktiver Ebene arbeiten können, um Grundprinzipien von datenbasierten Entscheidungsbäumen und maschinellem Lernen zu verstehen.

Steckbrief des Unterrichtsmoduls

Titel: Apfel oder Popcorn? Eine enaktive Einführung in Entscheidungsbäume, maschinelles Lernen und KI mit Datenkarten

Stichworte: Data Science, KI, Maschinelles Lernen, Entscheidungsbäume, Ernährung

Zielgruppe: Informatik in Klasse 5 und 6 (alle Schulformen) - Anknüpfungen an den Biologieunterricht möglich. Wir empfehlen den Einsatz der Unterrichtsreihe in Klasse 6.

Inhaltsfeld: "Automaten und künstliche Intelligenz" (insbesondere der Schwerpunkt: Entscheidungsbäume), "Daten und Information",

Vorkenntnisse: Basiskenntnisse über Nährwertangaben sind wünschenswert, entsprechende Erklärungen könnten aber auch in diesem Modul integriert werden (Vorschlag s.u.).

Zeitlicher Umfang: 8 bis 10 Unterrichtsstunden a 45 Minuten

Überblick

In dieser Unterrichtsreihe geht es darum Schülerinnen und Schülern (SuS) eine Vorstellung von maschinellem Lernen und Künstlicher Intelligenz zu vermitteln. Dies wird anhand von datenbasierten Entscheidungsbäumen erarbeitet. Die Umsetzung in dieser Reihe basiert hauptsächlich auf unplugged Materialien, die das handlungsorientierte Lernen auf enaktiver Ebene ermöglichen. Dies wird ergänzt durch eine digitale Lernumgebung, die zum Ende der Reihe flexibel einsetzbar ist. Der ausgewählte Kontext „Lebensmittel“ ist für alle SuS relevant und insbesondere auch für jüngere SuS geeignet.  

Lebensmittel kann man anhand von Nährwertangaben als “eher empfehlenswert” oder “eher nicht empfehlenswert” klassifizieren. Dabei müssen mehrere Merkmale wie Fettgehalt, Zuckergehalt und Kalorien berücksichtigt werden. Ein mehrstufiges Regelsystem, mit dem solche Klassifikationen durchgeführt werden können, sind sogenannte Entscheidungsbäume (engl. decision trees). Solche Entscheidungsbäume kann man basierend auf Daten erstellen. Mit Daten ist hier gemeint: Man geht von einer Menge von Lebensmitteln aus, zu dem Nährwertangaben bekannt sind, und zu denen man weiß, ob sie eher empfehlenswert oder nicht empfehlenswert sind. Darauf aufbauend kann man “manuell” schrittweise Entscheidungsbäume erstellen, die die Lebensmittel zunehmend fehlerfreier klassifizieren.  Dieser Erstellungsprozess kann auch automatisiert werden, um nach bestimmten Kriterien optimale Entscheidungsregeln zu finden. Die Automatisierung erfordert, jedes Lebensmittel als “Datenkarte” - das ist eine Liste von Zahlenwerten zu den verschiedenen Nährwertmerkmalen - digital zu repräsentieren. Ein maschinelles Lernverfahren entwickelt zu diesen Daten einen passenden (daten-basierten) Entscheidungsbaum. In der Praxis sind neben Entscheidungsbäumen auch andere Typen von Klassifikatoren - z.B. neuronale Netze - im Gebrauch, mit darauf angepassten maschinellen Lernverfahren.

Entscheidungsbäume haben den Vorteil, dass sie als Regelsystem von SuS verstanden werden können, ebenso können die Erstellungsverfahren eines Baumes zunächst manuell erarbeitet und dann am Computer automatisiert werden. Im Unterricht werden Lebensmittel zunächst als reale Datenkarten modellhaft repräsentiert und die SuS können Karten sortieren und klassifizieren, um sich auf einer enaktiven Ebene Verfahren anzueignen. Der Anspruch ist, einen Einblick “in den Maschinenraum” des maschinellen Lernens zu gewinnen und nicht nur vorgegebene Systeme, die eine völlige Black-Box bleiben, als Klassifikatoren mit Daten zu trainieren.

Abbildung 1: Beispiele Datenkarten über Lebensmittel

In dieser Unterrichtsreihe wird in ca. 9 Unterrichtsstunden in datenbasierte Entscheidungsbäume eingeführt. Dabei steht im Vordergrund, wie ein Entscheidungsbaum aufgebaut ist und wie die passenden Entscheidungsregeln datenbasiert hergeleitet werden. Dieser systematische, datenbasierte Erstellungsprozess kann dann als eine Methode des maschinellen Lernens automatisiert erfolgen und ein resultierender Entscheidungsbaum kann als eine Form künstlicher Intelligenz bezeichnet werden. Dazu erstellen SuS manuell mit Hilfe von Datenkarten (siehe Abb. 1) eigene Entscheidungsbäume, um zu verstehen, erstens wie ein Entscheidungsbaum als Regelsystem aufgebaut ist, und zweitens wie man systematisch bei der Konstruktion vorgehen kann, um Entscheidungsbäume mit möglichst geringer Fehlklassifikationsanzahl zu erhalten. Ergänzend gibt es eine vorbereitete digitale Lernumgebung, in der SuS Entscheidungsbäume automatisiert erstellen können. Dabei lernen sie etwas über Künstliche Intelligenz und maschinelles Lernen. Sie Lernen Entscheidungsbäume als gewinnbringende Repräsentation von Daten kennen, mit deren Hilfe Erkenntnisse gewonnen und Vorhersagen getroffen werden können, bei deren Anwendung aber auch Fehler passieren können.

Auf fachlicher Basis der deutschen Gesellschaft für Ernährung (DGE) wird das Thema Ernährung aufgegriffen, welches in der Sekundarstufe I behandelt werden sollte, aber aktuell in den Lehrplänen der verschiedenen Fächer unterrepräsentiert ist. Auf diese Weise wird das Thema maschinelles Lernen mit einem bildungsrelevanten Sachthema verknüpft. Der Kontext ist nicht typische für den Bereich KI und maschinelles Lernen, eignet sich aber für die Anbindung an die Erfahrungswelt aller SuS (unabhängig von Alter, Geschlecht, etc.). Es gibt dazu Verknüpfungsmöglichkeiten z. B. zum Biologieunterricht und die Behandlung des Kontextes kann einen Beitrag zu allgemeinbildendem Unterricht darstellen.

Leitfragen des Moduls

  • Wie kann man anhand der Nährwertangaben einen Entscheidungsbaum konstruieren, der die Beurteilung unterstützt, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist?
  • Wie kann man einen Entscheidungsbaum für dieses Problem automatisiert (durch maschinelles Lernen) erstellen lassen?

Ziele des Moduls

Bezogen auf Datenkarten Entscheidungsbäume:              

Die SuS...

  • können einen Entscheidungsbaum als Regelsystem zum Klassifizieren von Objekten anwenden.
  • verstehen eine Datenkarte als Repräsentation eines Objekts, auf dem die Ausprägungen verschiedener Merkmale dieses Objekts erfasst sind.
  • erstellen Entscheidungsregeln zum Klassifizieren von Objekten hinsichtlich eines (Ziel-)Merkmals systematisch basierend auf Daten (in Form einer Sammlung von Datenkarten), d. h. basierend auf den Ausprägungen anderer (Prädiktor-)Merkmale der Objekte.
  • präsentieren und reflektieren eigene Entscheidungsbäume angemessen.
  • verstehen die Rolle von Daten als Grundlage für die Erstellung von Entscheidungsbäumen.
  • verstehen, dass Entscheidungsbäume Prognosen liefern sollen (Klassifikationen neuer Objekte) und deshalb mit neuen Daten getestet werden müssen und dass dabei Fehler in Form falscher Prognosen auftreten können.
  • bewerten Entscheidungsbäume anhand der Anzahl falsch klassifizierter Objekte in einem Datensatz.
  • beschreiben anhand ihrer manuellen Erfahrungen mit Datenkarten, wie ein Computer Entscheidungsbäume automatisiert erstellen kann und identifizieren diesen Vorgang als maschinelles Lernen.


Bezogen auf den Inhalt Lebensmittel:

Die SuS...

  • lernen die Bedeutung einzelner Nährwertangaben (Merkmale) bei Lebensmitteln und ihre Relevanz für die Qualitätsbewertung von Lebensmitteln kennen.
  • leiten aus den gegebenen Nährwertdaten ein Regelsystem ab, das Prognosen darüber trifft , ob ein (neues) Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist.

Material und Umgang damit

Das Thema KI und Entscheidungsbäume wird in diesem Unterrichtsvorschlag anhand des Themas Lebensmittel erarbeitet, das die Schülerinnen und Schüler aus ihrer Lebenswelt kennen. Dabei wird ein Kartenspiel mit entsprechenden Datenkarten genutzt, um Entscheidungsbäume zunächst unplugged, enaktiv und altersgerecht zu behandeln.

Mit einem Spielkartensatz zu Lebensmitteln wird anhand der „Big 7“ der Nährstoffe (Energie, Fett, gesättigte Fettsäuren, Eiweiß, Kohlenhydrate, Zucker, Salz) ein Regelsystem mit der Methode der datenbasierten Entscheidungsbäume erarbeitet.

Man bezeichnet dabei das Merkmal, für das eine Klassifikation erstellt werden soll, als Zielmerkmal und die übrigen Merkmale (hier Nährstoffe), mit deren Hilfe Regeln aufgestellt werden, als Prädiktormerkmale.

Mithilfe von Spielkarten wie in Abb. 1 über Lebensmittel mit den zugehörigen Nährwertangaben (pro 100 g) erarbeiten SuS von Hand nach und nach erst einstufige, später zwei- oder mehrstufige Entscheidungsbäume. Diese Entscheidungsbäume werden mit Testkarten validiert. Das dabei aufgebaute Wissen wird genutzt, um zu verstehen, wie Entscheidungsbäume als Regelsysteme basierend auf Daten (systematisch) erstellt und anschließend genutzt werden können. Das dabei angewandte Vorgehen kann in Grundzügen auf das maschinelle Lernen (wie es ein Computer macht) übertragen werden. In der letzten Unterrichtsstunde wird ein Entscheidungsbaum automatisch durch den Computer mit Hilfe eines Jupyter Notebooks generiert und in der Klasse diskutiert (optional durch die SuS selbst oder in einer Präsentation durch die Lehrkraft).

Material

  • 55 Karten, davon
    • 40 Trainingskarten (blau),
    • 15 Testkarten (gelb)
  • 50 grüne und 50 rote Büroklammern zum Labeln
  • 11 Arbeitsblätter
  • 4 PowerPoint Präsentationen als Grundlage für Plenumsphasen im Unterricht
  • 1 digitale menübasierte Lernumgebung in einem Jupyter Notebook

Download: Druckvorlage für die Datenkarten inkl. Anleitung

Die blauen Trainingskarten werden verwendet, um die Entscheidungsbäume unplugged zu erarbeiten. In einem ersten Schritt werden die Karten mit Unterstützung durch die Ernährungspyramide der Deutschen Gesellschaft für Ernährung (DGE) gelabelt. Eher empfehlenswerte Lebensmittelkarten bekommen eine grüne Büroklammer angeheftet, eher nicht empfehlenswerte Lebensmittel bekommen eine rote Büroklammer.

Schülerinnen und Schüler vergeben zunächst die Label für die Lebensmittel als “eher empfehlenswert” oder “eher nicht empfehlenswert” in Partnerarbeit. Anschließend wird dies im Plenum diskutiert und ein einheitlicher Konsens getroffen, sodass nach der Diskussion alle Schülerinnen und Schüler einen Kartensatz mit identischen Labeln vorliegen haben. Beim Labeln können zudem 10 Karten ausgewählt werden, bei denen Uneinigkeit für das Klassifizieren herrscht. Es ist günstig etwa 10 Karten auszusortieren, da das Arbeiten später mit maximal 30 Karten angenehmer ist. Diese Karten bleiben ohne Büroklammer und können später mithilfe der fertigen Bäume klassifiziert werden. Durch das Labeln entstehen Modelle der Realität, die möglicherweise von der Realität abweichen.

Wir empfehlen den Einsatz der Unterrichtsreihe in Klasse 6.

Differenzierung: Eine vereinfachte und funktionierende Variante des Kartendatensatzes stellt die Variante „Lebensmittel light“ dar. Dieser vereinfachte Datensatz enthält 22 Trainingskarten (blau) und 10 Testkarten (gelb) mit jeweils ganzzahligen Werten.

Unterrichtsverlauf

Auf den folgenden Seiten wird ein möglicher Unterrichtsverlauf beschrieben. Eine U-Stunde ist dabei mit 45 Minuten geplant. Aus Sicht der Autorinnen und Autoren dieser Reihe hat es sich in zahlreichen Erprobungen als sinnvoll herausgestellt, die Reihe im Ganzen durchzuführen. Sollte jedoch Zeitknappheit herrschen, ist es möglich, die als optional gekennzeichneten (graue Schrift) Stunden verkürzt zu unterrichten.

Kurzübersicht zur Unterrichtsreihe

Phase Thema Inhalt
1

1 U.-Std.

Einführung in den Kontext KI und Formulierung der

Leitfrage

In dieser Phase wird als Einstieg ein fertiges KI-System (Google QuickDraw) exploriert. Dabei werden Vorkenntnisse aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen. Ziel ist es Klassifizieren von Objekten als eine Anwendung von KI einzuführen und zu erarbeiten, dass dies durch (überwachtes) maschinelles Lernen möglich ist, das auf Daten basiert. Abschließend wird als eine Leitfrage der Unterrichtsreihe die Frage aufgeworfen, wie maschinelles Lernen basierend auf Daten funktionieren kann.
2

1 U.-Std.

Exkurs: Lebensmittel In dieser Phase erfolgt ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu wird die Bedeutung verschiedener Nährstoffe thematisiert. Verschiedene Lebensmittel können durch Datenkartne repräsentiert werden. Nährwertangaben als Ausprägungen von Merkmalen von Lebensmitteln aufgefasst und somit als als Daten interpretiert die jeweils ein Lebensmittel modellieren.
3

1 U.-Std.

Vorbereiten der Daten: Datenkarten mit Labeln versehen Die zu entwickelnde künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele für eher empfehlenswerte oder eher nicht empfehlenswerte Lebensmittel benötigt. In dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der Datenkarten hergestellt.
4

1 U.-Std.

Einführung in das Aufstellen datenbasierter Entscheidungsregeln Ziel innerhalb der Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu 10 g Fett und über 10 g Fett). Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt.
5

2 U.-Std.

Erstellen einstufiger Entscheidungsbäume Die SuS wissen nun, wie man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann. Dabei werden verschiedene Merkmale einbezogen und ein strategisches Vorgehen beim Suchen des Schwellenwertes erarbeitet.
6

1 U.-Std.

Erstellen mehrstufiger Entscheidungsbäume Nachdem die SuS systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer Entscheidungsregel nicht alle Lebensmittel korrekt klassifizieren kann. Es wird offensichtlich, dass man ein mehrstufiges Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.
7

1 U.-Std.

Testen von Entscheidungsbäumen

mit neuen Daten

Nachdem verschiedene Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen auch Unsicherheiten stecken, da einige Lebensmittel falsch klassifiziert werden. Um die Unsicherheiten in Entscheidungsbäumen systematisch weiter zu untersuchen, testet jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die Performance der Entscheidungsbäume miteinander zu vergleichen.
8

1 U.-Std.

Automatisiertes Erstellen von Entscheidungs-bäumen mit dem Computer Nachdem die SuS den Erstellungsprozess eines Entscheidungsbaums kennengelernt und manuell durchlaufen haben, wird in dieser Stunde im eigentlichen Sinne des maschinellen Lernens ein Entscheidungsbaum automatisch mit Hilfe eines Computers erstellt. In einer vorbereiteten menübasierten digitalen Lernumgebung (basierend auf Jupyter Notebook), die per Link erreichbar ist, können die SuS selbst mit Entscheidungsbäumen arbeiten oder die Lehrkraft kann den Prozess demonstrieren. Die Lernumgebung ist weitgehend selbsterklärend und erfordert keine Programmierkenntnisse. Es ist möglich per Knopfdruck Einfluss auf die Daten zu nehmen und einen Entscheidungsbaum basierend auf den Daten erstellen lassen. Dies ermöglicht auch die Daten zu verändern und die Auswirkungen auf den Entscheidungsbaum zu untersuchen.  
9

1 U.-Std.

Reflexion Abschließend wird noch einmal reflektiert, wie mit Hilfe des Computers aus Daten Entscheidungsbäume erstellt werden, welche Vor- und Nachteile dies hat und wo die SuS solche Entscheidungsmodelle in ihrem Alltag wiederfinden.

Ausführliche Beschreibung des Unterrichtsverlaufs:

Phase Inhalt Ziele Material
1


Einführung in den Kontext KI und Problematisierung

Motivation:

In dieser Phase wird als Einstieg ein fertiges KI-System exploriert. Dabei werden Vorkenntnisse aktiviert und erste Erkenntnisse über KI-Systeme und maschinelles Lernen gewonnen.


Aktivität:

Die SuS probieren Google Quick Draw (https://quickdraw.withgoogle.com/) als ein fertiges KI-Systems aus. Die Webseite ist nach Aufrufen des Links selbsterklärend. Alle Schülerinnen und Schüler probieren Google Quick Draw aus – alle malen 10 Objekte, die automatisch von der Software vorgegeben werden. Die KI erkennt diese Objekte, wenn sie passend gezeichnet werden. Anschließend wird automatisch eine Übersicht angezeigt, was erkannt bzw. nicht erkannt wurde. Außerdem werden einige Beispiele gezeigt, die andere Personen zum gleichen Objekt gemalt haben, um die Datenbasis zu veranschaulichen, auf deren Grundlage die gemalten Objekte erkannt wurden.


Besprechung im Plenum

Anhand von Präsentation 1 und der vorherigen Aktivität kann diskutiert werden, dass ein KI bestimmte Objekte einer "Klasse" zuordnen kann. Dafür wird vorher aber eine passende Datenbasis benötigt, um bestimmte Objekte einer Klasse zu erkennen. Dazu benötigt man für jede Klasse digital repräsentierte Beispiele mit dem passenden Label. Google Quick Draw ist schon anhand sehr vieler Beispiele ‘vortrainiert’, daher sieht man hier Klassifikationen mit nur wenigen Fehlern. Eine untrainierte KI würde am Anfang viele Fehler machen.

Im folgenden wird die Leitfrage der Unterrichtsreihe aufgeworfen: Damit durch maschinelles Lernen eine KI zum Klassifizieren von Objekten erstellt werden kann, müssen zunächst Beispiele geliefert werden. Ein Beispiel ist jeweils ein Objekt, das durch bestimmte Merkmale beschrieben wird und mit einem Label versehen ist, das die Zugehörigkeit zu einer Klasse kennzeichnet. Aber wie genau funktioniert dieses maschinelle Lernen? Dies wird in den folgenden Stunden an der Methode Entscheidungsbäume thematisiert. “Es ist erstaunlich, wie ein Computer "lernen" kann Objekte zuzuordnen, allerdings ist es mysteriös, wie dieser Lernprozess funktioniert. Dem gehen wir in den folgenden Stunden nach.”


Vertiefungsmöglichkeit:

Schön aufbereitetes Video, das Bilderkennung vertieft:

https://www.youtube.com/watch?v=HmUzceKCI9I&list=PL4puIg9yEU6yn_XR0TiSLroYO3KAlZmYY&t=1s


Mit Hilfe von KI-Systemen können u. A. Bilder klassifiziert werden, zum Beispiel, ob ein Hund oder eine Katze zu sehen ist. Maschinelles Lernen ermöglicht das Erstellen solcher KI-Systeme auf der Basis von Trainingsdaten mit Hunde und Katzenbildern.

Mögliche Metapher: Man kann gewisse Parallelen zwischen maschinellem Lernen und dem Lernprozess kleiner Kinder erkennen. Kinder lernen dadurch, dass wir ihnen Objekte zeigen, die Namen dazu sagen und alles so lange wiederholen, bis sie Hunde von Katzen unterscheiden können. Z. B. wird bei der Begegnung von Hunden „Hund“ und bei Katzen „Katze“ von Erwachsenen oft genug gesagt, so dass das Kind irgendwann lernt, was eine Katze ist und was ein Hund. Durch Vorsagen und Korrektur.

Das Vorgeben von Beispielen und der passenden Lösung wird auch beim maschinellen Lernen genutzt. Die Beispiele werden als Daten gespeichert (z. B. Fotos von Hunden bzw. Katzen) und mit einem passenden Label versehen, das die richtige Lösung enthält.


Hintergrundinformationen

Bei dieser Form des maschinellen Lernens (überwachtes Lernen) zur Klassifikation von Objekten wird wie folgt vorgegangen. Es werden verschiedene Beispielobjekte erfasst und mit Labeln gekennzeichnet.  Ein Label ist ein Etikett, das anzeigt welcher Klasse dieses Beispiel angehört. Z. B. erhalten Fotos von Katzen das Label „Katze“ und die von Hunden das Label „Hund“, je nachdem was auf dem Bild erkannt werden soll. Jedes Foto hat außerdem verschiedene, digital repräsentierte Eigenschaften, die durch Merkmale beschrieben werden und verschieden ausgeprägt sein können. (Anmerkung: Die Eigenschaften, die ein Mensch einem Foto zuweist, unterscheiden sich von den digitalen Merkmalen. Ein Foto besitzt Merkmale, wie z.B. Farbwerte einzelner Pixel, die in einem mL-Prozess zum Erstellen eines Regelsystems genutzt werden. Vereinfachend sprechen wir mit Schülerinnen und Schülern nur von “dem“ Foto). Durch maschinelles Lernen wird anhand der Merkmale der Objekte ein Regelsystem erstellt, das die Objekte den passenden, vorgegebenen Labeln zuordnet. Ein solch fertiges Regelsystem bezeichnet man als KI oder KI-System. Einen automatisierten Erstellungsprozess der KI nennt man dann maschinelles Lernen.

Begriffe: KI, Machinelles Lernen, Objekt, Klasse, Label, Merkmal



KI-Systeme können Dinge einer Klasse zuordnen (Klassifikation)


Für maschinelles Lernen benötigt man Beispiele mit dem passenden Label einer Klasse (Trainingsdaten)

Präsentation 1

2


Exkurs: Lebensmittel und Nährwertangaben als Daten

Motivation:

Es existiert ein Ampelsystem für Ernährung, zum Beispiel im Supermarkt (diese basieren i. d. R. nicht auf maschinellem Lernen) – Ein Ziel innerhalb der Unterrichtsreihe ist es allerdings ein ähnliches Regelsystem mit Methoden des maschinellen Lernens zu erstellen.

In dieser Stunde erfolgt dafür ein Einstieg in den Datenbegriff und das Thema Lebensmittel. Dazu begreifen wir Nährwertangaben als Ausprägung von Merkmalen von Lebensmitteln. Somit kann ein Lebensmittel durch eine Liste von Zahlen (Nährwertangaben) repräsentiert werden. Außerdem soll diese Stunde die SuS hinführend zu einer Unterscheidung von "eher empfehlenswerten" und "eher nicht empfehlenswerten Lebensmitteln" Grundlage dafür, ob ein Lebensmittel empfehlenswert ist, kann zum Beispiel die Ernährungspyramide der DGE sein.


Aktivität:

  • Verschiedene Lebensmittel(-verpackungen) präsentieren (z.B. Knäckebrot, Chips, Gummibärchen, Salami, etc.)
  • Verschiedene Fragen können diskutiert werden: „Welche Daten findet ihr hier?“ - „Welche Rolle können Daten für unsere Ernährung spielen?“ - „Warum stehen diese Daten auf allen Lebensmittelverpackungen?
  • Optionaler Input (ggf. Kooperation mit Biologieunterricht): Nährstoffgruppen: Man braucht verschiedene Nährstoffgruppen, am besten täglich. Angaben findet man vor allem über allem Kohlenhydrate, Eiweiß, Fett, Salz, Zucker. Wovon sollte man eher viel oder eher weniger essen?


Material 3D-Ernährungspyramide:

https://www.dge.de/fileadmin/public/doc/fs/3dlmp/200714-DGE-Arbeitsblaetter-03-formular.pdf


Begriffe: Objekt, Merkmal, Merkmalsausprägung, Klassifikation





Nährwertangaben verstehen


Èinführung in Begrifflichkeiten rund um Daten




Verpackte Lebensmittel mit Nährwertangaben


Arbeitsblatt 1


Ernaehrungs-pyramide (zum Basteln für die SuS)

3


Vorbereiten der Daten: Datenkarten mit Labeln versehen

Motivation

Die zu entwickelnde künstliche Intelligenz soll später basierend auf Nährwertangaben vorschlagen, ob ein Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn ein KI-System mit maschinellem Lernen erstellt wird, dann werden dafür Beispiele benötigt repräsentiert als Trainingsdaten. Ein Beispiel ist jeweils ein Objekt (Lebensmittel), das durch bestimmte Merkmale (Nährstoffe) beschrieben wird und mit einem Label („eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist. Eine Sammlung und Darstellung solcher Beispiele bezeichnen wir als Daten. In dieser Stunde werden solche Beispiele in Form von Daten mit Hilfe der Datenkarten hergestellt.


Aktivität

Die SuS modellieren den Datensatz mit dem später gearbeitet wird, um basierend darauf Entscheidungsbäume zu erstellen. Dafür vergeben sie zunächst in Partnerarbeit die Label „eher empfehlenswert“ oder „eher nicht empfehlenswert“ für alle blauen Datenkarten (blaue Karten = Trainingsdaten). Dabei können sich die SuS an der Lebensmittelpyramide und an ihrem Alltagswissen über Lebensmittel orientieren (jeweils 2 SuS haben ein Arbeitsblatt 2 zur Verfügung). Anschließend werden die Label im Klassenverband diskutiert, um sich zu einigen.


Besprechung der Aktivität

Es wird ein allgemeinen Konsens hergestellt, welche Nahrungsmittel welches Label erhält. Zwei Möglichkeiten:

  • Abstimmung im Plenum,
  • Abstimmung in Onlineumfrage (als HA möglich, entlastet Unterrichtszeit, stärkere Vorbereitung der Diskussion möglich)

Alle Karten werden gemeinsam durchgegangen um gemeinsam die Label an die Karten zu heften. Dafür wird entweder Live übder das Label angestimmt oder es wird basierend auf der vorher durchgeführten Onlineumfrage gemacht. Ablauf:

  1. Jede Schüler:innengruppe bekommt ein Kartenspiel (die Karten auf jeden Fall in der Reihenfolge lassen, wie sie in der Schachtel sind, damit alle SuS die Karten in der gleichen Reihenfolge vorliegen haben)
  2. Gemeinsam wird besprochen und festgelegt, welches Label die erste blaue Datenkarte (Haselnussschnitte) bekommen soll. Zunächst wird einfach abgestimmt. Wenn keine klare Mehrheit zustande kommt, wird diskutiert.
  3. Falls auch nach der Diskussion keine Einigkeit erzielt wird, kann die Karte beiseitegelegt werden. Andernfalls stecken alle Schüler eine passend farbige Büroklammer an die Datenkarte.
  4. 2. und 3. werden für die weiteren Karten wiederholt

Leitung der Diskussion: Die Lehrkraft kann die Diskussionen im Plenum moderieren und ggf. bei groben Fehleinschätzungen (z.B. Gurke als “eher nicht empfehlens-wert”) eingreifen.  Eine Orientierung liefert die Datei Rumpfdatensatz_28.csv, in der die besonders eindeutig zuzuordnenden Lebensmittel zu finden sind. Einzelne Abweichungen von diesem Vorschlag sind aber nicht weiter schlimm, d.h. die Diskussion muss nicht strikt geleitet werden. In vielen Unterrichtserprobungen hat sich gezeigt, dass per Mehrheitsvotum der Großteil der Lebensmittel wie im Vorschlag zugeordnet wird. Zur Weiterarbeit empfehlen sich ca. 30 Karten mit Label (etwa 10 beiseite legen). Die Karten aus Rumpfdatensatz_28.csv sollten größtenteils enthalten sein, um in der Weiterarbeit gute Ergebnisse zu erzielen.


Jede Schülergruppe und die Lehkraft haben im Anschluss einen nach Klassen-konsens mit Labeln versehenen Datensatz. Arbeitsblatt 2 kann im späteren Unterrichtsverlauf als Erinnerung dienen, welche Karte in welcher Farbe gelabelt wurde, falls zwischen den Unterrichtsstunden Label abgefallen sind.


Begriffe: Daten, Beispiel, Objekt, Merkmal


Labeln von Lebensmittelkarten = Modellierung der Realität


Maschinellen Lernprozess vorbereiten durch Herstellen eines geeigneten einheitlichen Trainingsdatensatzes




Arbeitsblatt 2

(in Farbe ausdrucken!)


Rumpfdatensatz





4 Erarbeitung: Aufstellen einer datenbasierten Entscheidungsregel

Motivation:

Ziel innerhalb der Unterrichtsreihe ist es, ein mehrstufiges Regelsystem zur Klassifikation von Lebensmitteln zu erstellen. Dafür lernen die SuS in dieser Stunde zunächst Entscheidungsregeln (einstufige Entscheidunsgbäume) aus den Daten abzuleiten. Dies wird mit dem Konzept des Datensplits umgesetzt, das in dieser Stunde eingeführt wird. Dabei werden die Datenkarten anhand eines Merkmals und eines sogenannten Schwellenwerts in zwei Teilgruppen aufgeteilt (z.B. Lebensmittel mit bis zu 10 g Fett und über 10 g Fett). In beiden Teilgruppen wird dann geschaut, ob die Mehrheit eher empfehlenswert oder eher nicht empfehlenswert ist. Wenn in den Teilgruppen unterschiedliche Label zu finden sind (was in den allermeisten Fällen so ist), gibt es in beiden Teilgruppen Lebensmittel, die von der Mehrheits-entscheidung abweichen. Diese werden als Fehler oder Fehlklassifikationen bezeichnet. Es gilt deshalb den Schwellenwert zu finden, der möglichst wenige Fehler hervorbringt (Anzahl der Fehlklassifikationen). Die Entscheidungsregeln werden in dieser Stunde exemplarisch mit Hilfe des Merkmals Energie erstellt.


Erarbeiten der Zielstellung für das Erstellen einer Entscheidungsregel:

Anahnd von Präsentation 2 kann die Zielstellung beim Formulieren einer Entscheidungsregel erarbeitet werden. Der Optimalfall (Zeilstellung) liegt vor, wenn man einen Schwellenwert findet, sodass auf einer Seite des Schwellenwerts möglichst nur eher nicht empfehlenswerte Lebensmittel zu finden sind und auf der anderen Seite nur eher empfehlenswerte. Eine solch "perfekte" Regel, mit der man von den vorliegenden Trainingsdaten kein Lebensmikttel falsch klassifiziert, findet man meistens nicht, aber man versucht möglichst nah dran zu kommen, sodass möglichst wenige Lebensmittel falsch klassifiziert werden.


Aktivität:

Lebendige Statistik durchführen, um das bilden von Datensplits und das vergleichen von Schwellenwerten zu thematisieren:

  1. Alle SuS gehen nach vorne und holen sich eine gelabelte Karte ab und repräsentiert nun das Lebensmittel auf der Karte
  2. Die Lehrkraft erläutert zunächst, dass nun eine Entscheidungsregel gesucht wird und formuliert die Zielstellung (s.o.). Nun gibt sie ein Merkmal und einen Schwellenwert vor (z.B. Energie, 350 kcal) und dann wird der Datensplit in der Klasse am Merkmal Energie durchgeführt. Das bedeutet: Alle, die eine Karte mit einem Energiewert ≤ 350 haben, gehen nach links, alle mit einem Energiewert >350 gehen nach rechts. Daraus entstehen zwei Teildatensätze.
  3. Nun wird per Handzeichen erhoben, wie die Anzahlen von ‚eher empfehlenswert‘ und ‚eher nicht empfehlenswert‘ in den Teildatensätzen sind und an der Tafel festhalten
  4. Den Baum an der Tafel mitzeichnen als Strukturierungshilfe für SuS (s.u. )
  5. Diskussion: In welcher Teilgruppe befinden sich eher empfehlenswerte Lebensmittel? Ziel: Aufstellen und Verbalisieren einer Entscheidungsregel per Mehrheitsentscheidung. ("Wenn ein Lebensmittel weniger als 350 kcal hat...")
  6. Vorgeben eines weiteren Schwellenwertes und Wiederholen der Prozedur (z.B. Minimum der eher nicht empfehlenswerten Lebensmittel)
  7. Vergleich der beiden Datensplits (Bei welchem ist die Anzahl der Fehlklassifikationen niedriger?)
  8. Geben eines weiteren Schwellenwerts und Wiederholen der Prozedur
  9. Vergleich der drei Datensplits (Welcher ist der beste?)


Hinweis zur Durchführung der lebendigen Statistik

Man kann aufgrund der begrenzten Anzahl an SuS meist nicht alle Karten für die lebendige Statistik verwenden. Man sollte dabei darauf achten, dass keine ungünstigen Stichproben der Karten genutzt werden. Manche Stichproben vereinfachen das Problem zu stark, sodass man zu schnell perfekte Regeln findet. Wir schlagen dafür einen Rumpfdatensatz vor, mit dem die Phase gut durchgeführt werden kann. Vorschläge für Rumpfdatensätze verschiedener Größe finden sich in den Dateien „Rumpfdatensatz_22.csv“ und „Rumpfdatensatz_28.csv“. Leichte Abweichungen von den Rumpfdatensätzen sind kein Problem.


Reflexion:

Zur Aktivität

  • Für ein Merkmal haben wir ausprobiert/herausgefunden, wie wir durch mit verschiedenen Schwellenwerten Entscheidungsregeln aufstellen und vergleichen können. Von allen in Betracht gezogenen können wir sogar die beste Regel finden.
  • Eine Entscheidungsregel ist schon ein kleiner Entscheidungsbaum mit nur einer Ebene (Aber: Der Baum ist noch nicht sehr gut, da er noch einige Fehler macht)
  • Jetzt: Wir wollen nun noch mehr Entscheidungsregeln überprüfen
  • Später: können dann noch Entscheidungsregeln in der nächsten Ebene dazukommen

Ausblick maschinelles Lernen- Kann ein Computer das auch?:

  • Der Computer kann Schwellenwerte ausprobieren und die “beste” Regel für das gewählte Merkmal finden, wenn man ihn passend programmiert. Solche AUfgaben erldigt der Computer schneller als ein Mensch
  • Außerdem kann der Computer alle Merkmale und alle denkbaren Schwellenwerte ausprobieren.


Hausaufgabe

  • Übungen zum Nutzen von Schwellenwerten in der Baumdarstellung (AB3_SchwellenwertAnwenden)
  • optionale weitere HAusaufgabe: Mathematische Wiederholung <, >, ≤, ≥ Zeichen (z.B. https://anton.app/de/lernen/mathematik-5-klasse/thema-01-natuerliche-und-ganze-zahlen/uebungen-04-zahlen-ordnen-vergleichen/)


Begriffe: Schwellenwert, Datensplit

Einführung des Datensplit als Grundkonzept von Entscheidungsbäumen


Einführung des Schwellenwerts als Möglichkeit Datensplits herzustellen


Datenbasiert Entscheidungsregeln aufstellen











Präsentation 2




Rumpfdatensatz

(in einer Variante für 22 oder 28 SuS)


























Arbeitsblatt 3

5


Erstellen einstufiger Entscheidungsbäume

Motivation:

Die SuS wissen nun, wie man eine Entscheidungsregel aufstellen kann. Bisher wurden aber nur ein Merkmal und drei Schwellenwerte ausprobiert. Um den resultierenden Entscheidungsbaum zu verbessern und noch mehr Lebensmittelkarten richtig zu klassifizieren, wird in dieser Stunde erarbeitet, wie man systematisch nach guten Entscheidungsregeln suchen kann. Dafür wird ein strategisches Vorgehen beim Suchen des Schwellenwertes erarbeitet. Anschließend werden die verschiedenen Merkmale auf unterschiedliche Gruppen verteilt um als Klassenverband für alle Merkmale verschiedene Entscheidungsregeln aufzustellen und zu vergleichen.


Einführung der Linealmethode

Die Lineal-/Bleistiftmethode kann zunächst im Plenum basierend auf Präsentation 3 erarbeitet werden. Dabei kann man schon Strategiehinweise geben wie man einen Schwellenwert nach Augenmaß wählen kann. Anhand von Arbeitblatt 4 kann dies dann in Einzelarbeit eingeübt werden, um die Methode danach in Kleingruppen mit den Datenkarten anzuwenden.


Besprechung von Arbeitsblatt 4:

Im Plenum werden die Ergebnisse verglichen und ggf. korrigiert. Die SuS können ihre Begründungen vortragen und diskutieren. Bei der Besprechung sollte insbesondere auf folgende Aspekte geachtet werden:

  • Was ist ein Kriterium für einen „besten“ Schwellenwert? (Anzahl falsch klassifizierte Karten/ Fehlklassifikationen)
  • Welcher ist der beste Schwellenwert für das jeweilige Merkmal?


Aktivität:

Jede Zweiergruppe arbeitet mit ihrem Kartensatz und bekommt ein Merkmal zugeteilt, für das eine Entscheidungsregel gesucht wird. Alle Merkmalen sollten an mindstens eine Gruppe vergeben werden, um im Nachhinein auch die verschiedenen Merkmale vergleichen zu können. Es sollen mehrere Schwellenwerte in Betracht gezogen werden und es soll begründet der beste Schwellenwert unter den in Betracht gezogenen ausgewählt werden.  Um die global beste Entscheidungsregel zu finden, müssten sehr viele verschiedene Schwellwerte ausprobiert werden, was sehr mühsam und daher für die SuS wenig praktikabel ist (ein Computer geht allerdings so vor). Optional kann Spielplan 1 als Unterstützung des Prozesses eingesetzt werden. DIe Dokumentation erfolgt auf Arbeitsblatt 5.


Hintergrundinformationen:

Das Sortieren der Karten im Hinblick auf ein ausgewähltes Merkmal ist ein zentrales Element zum Finden eines guten Schwellenwerts, weil auf diese Weise schnell ein guter Überblick über die Verteilung gewonnen werden kann (siehe Lineal-/Bleistiftmethode). Man erkennt schnell, wie viele Lebensmittel über und unter dem Schwellenwert als empfehlenswert bzw. nicht empfehlenswert gekennzeichnet sind. Nur so ist es möglich, per Augenmaß einen günstigen Schwellenwert zu finden. Andernfalls bleibt nur das Ausprobieren von zufälligen Werten. Das Vorgehen entspricht nicht ganz dem eines Computers, da mit dessen Hilfe einfach alle in Frage kommenden Schwellenwerte ausprobiert werden können und er nicht über Augenmaß verfügt. Bei diesem "menschlichen" Vorgehen sollten natürlich trotz Augemaß immer einige unterschiedliche Schwellenwerte verglichen werden.




Heuristik zum finden von Entscheidungsregeln verstehen (Linealmethode + Schwellenwert per Augenmaß)


Anzahl der falsch klassifizierten Karten als Gütekriterium für eine Entscheidungsregel nutzen


Datenkarten nach einem Merkmal aufsteigend sortieren


Finden eines „besten“ Schwellenwerts


Anwenden der „Linealmethode/ Bleistiftmethode“









Präsentation 3


Arbeitsblatt 4



Arbeitsblatt 5


Spielplan 1 (optional)

6


Erstellen mehrstufiger Entscheidungsbäume

Motivation:

Nachdem die SuS systematisch nach guten Entscheidungsregeln gesucht haben, ist zu erkennen, dass man mit einer Entscheidungsregel allein nicht alle Lebensmittel korrekt klassifizieren kann. Es wird motiviert, dass man ein mehrstufiges Regelsystem benötigt. Deshalb werden in dieser Stunde basierend auf der ersten Regel weitere Merkmale einbezogen, um Entscheidungsregeln in der zweiten Stufe des Baums zu erstellen. Je nachdem wie schnell die SuS arbeiten, können sie zwei- oder mehrstufige Entscheidungsbäume erstellen.


Hintergrundinformationen:

Beim Erstellen eines mehrstufigen Entscheidungsbaums geht es darum, dass weitere Regeln erstellt werden, die hierarchisch auf die erste Regel folgen, um die Anzahl der falschen Klassifikation sukzessive zu verringern. Die weiteren Regeln werden basierend auf den Teildatensätzen erstellt, die durch die erste Entscheidungsregel entstanden sind. Falls in einem der Teildatensätze nur grüne oder nur rote Label zu finden sind ("reiner" Teildatensatz), so braucht man für diesen Teildatensatz keine weitere Regel suchen. Ansonsten wird in jedem Ast des Baums mit einem anderen Teildatensatz weitergearbeitet, um weitere Entscheidungsregeln aufzustellen.


Anleitung durch Lehrkraft

Im Unterricht muss explizit darauf geachtet werden, dass jeweils nur mit den Karten eines Teildatensatzes weitergearbeitet wird, wenn ein weiterer Split erstellt wird. Ein typischer SuS-Fehler ist es, mit allen Karten in einem Ast weiterzuarbeiten, obwohl nur mit einer Teilgruppe gearbeitet werden darf. Das kann entweder im Plenum mit Unterstützung von Präsentation 4 besprochen werden oder optional durch eine weitere Aktivität in der lebendigen Statistik veranschaulicht werden. In Präsentation 4 kann man auch die Dokumentation eines mehrstufigen Baums gemäß Arbeitsblatt 6 vorbesprechen.


Optionale Aktivität - Lebendige Statistik:

In zweiter Stufe das Merkmal Eiweiß (oder Zucker) ausprobieren.

Vorgehen:

  1. Jeder Schüler nimmt wieder eine Datenkarte
  2. Noch einmal bezüglich Energie und dem in der ersten lebendigen Statistik gewählten Schwellenwert in zwei Schülergruppen (Teildatensätze) aufteilen
  3. Zunächst kann der Status Quo diskutiert werden:
    • Anzahl der Fehler gemeinsam Auszählen
    • Feststellen, dass in der Gruppe mit der höheren Kalorienanzahl (über dem Schwellenwert) sich jetzt noch sowohl eher empfehlenswerte als auch eher nicht empfehlenswerte Lebensmittel befinden. Also passieren dort noch Fehler und die Anzahl der Fehler soll nun noch durch einen weiteren Datensplit verringert werden.
  4. Explizit darauf hinweisen, dass nur mit einem Teildatensatz gearbeitet wird für den zweiten Datensplit und dass die restlichen Karten (erstmal) beiseite gelegt werden können
  5. Dazu: Jetzt in der Gruppe (Teildatensatz) mit der Kalorienanzahl über dem Schwellenwert einen weiteren Datensplit durchführen (z.B. eignet sich das Merkmal Eiweiß mit Schwellenwert 11 g)
  6. Erneutes Auszählen aller Fehlklassfikationen und vergleichen mit vorher
  7. Fazit: Jetzt sind wir näher an unserer Zielstellung dem ‚perfekten‘ Baum

An der Tafel dokumentieren: Ergebnis: Tafelbild mit Baumdiagramm wie auf AB5 (Dieser fertige Baum kann später noch genutzt werden, also dauerhaft konservieren, z.B. auf Plakat).


Partnerarbeit:

Wieder in Partnerarbeit: Basierend auf den Entscheidungsregeln, die in Phase 5 erarbeitet wurden, folgt nun die zweite Stufe des Entscheidungsbaums für jede Gruppe. Jede Gruppe wählt das nächste Merkmal frei aus. Spielplan Teil 2 kann für die organisation der Datenkarten genutzt werden, um z.B. gerade nicht genutzte Karten passend abzulegen.

  1. Beide Teildatensätze aus dem Ersten Datensplit passend auf dem Spielplan Teil 1 ablegen
  2. Jetzt die erste Teilgruppe nehmen (z.B. linken Teilkartenstapel, NICHT alle Karten) und nach einem weiteren Merkmal die Karten aufsteigend auf dem Tisch ordnen (Merkmal frei ausprobieren). Die nicht genutzten Karten können so lange auf dem Spielplan verwahrt werden.
  3. Einen Schwellenwert mit der „Linealmethode” finden und die Karten auf dem Spielplan Teil 2 ablegen
  4. Jetzt die zweite Teilgruppe nehmen (NICHT alle Karten) und ggf. ein anderes oder das gleiche Merkmal wie in 2. nehmen
  5. Einen Schwellenwert mit der Linealmethode für die zweite Teilgruppe finden (kann der gleiche oder ein anderer Wert sein wie in 3.) und auf dem Spielplan Teil 2 auslegen
  6. Den fertigen Baum auf AB 5 dokumentieren


Zur Differenzierung für schnelle Gruppen

  • Dritte Stufe möglich machen (Hierfür kann Spielplan Teil 2 genutzt werden, indem „einzelne Datensplits” durch Zerschneiden von Spielplan Teil 2 ausgelegt werden)
  • Weitere Merkmale im zweiten Split ausprobieren
  • Optional: Entscheidungsregeln formulieren (Arbeitsblatt 7)


Diskussion der erstellten Bäume

Jede Gruppe stellt ihren Baum vor:

  1. Welche Merkmale wurden benutzt? Und welche Schwellenwerte?
  2. Wörtlich die Entscheidungsregeln formulieren
  3. Wie viele Lebensmittel wurden damit richtig klassifiziert?
    Anschließend:
  4. Welcher Baum hat die meisten Lebensmittel richtig klassifiziert?

Punkt 4 wird noch einmal mit den sogenannten Testdaten in der nächsten Stunde überprüft, möglicherweise ändert sich die Bewertung der Bäume dann. Für die nächste Aktivität werden die Entscheidungsbäume in der Klasse aufgehängt (bzw. durch Lehrkraft eingesammelt). Diese werden in der nächsten Stunde nochmal benötigt.


Reflexion:

  • Nun haben wir weitere Entscheidungsregel(n) gefunden, diese sind mehrstufig.
  • Für ein Merkmal haben wir ausprobiert/herausgefunden, wie wir eine Entscheidungsregel begründet auswählen.
  • Wenn ein Entscheidungsbaum automatisiert durch den Computer erstellt wird, so werden alle Schwellenwerte ausprobiert und die beste Regel ganz schnell gefunden und alle Merkmale ausprobiert.


Hausaufgabe:

Jeder füllt eine Blankokarte (Arbeitsblatt 8 vorher passend zurechtschneiden) für ein Lebensmittel zu Hause aus. Diese soll in der nächsten Stunde mit den erstellten Bäumen klassifiziert werden.


Optional kann 7 noch als weitere Übung für das Ausformulieren der Entscheidungsregeln genutzt werden.

Einführung in den  zweiten Datensplit











Mehrstufige Entscheidungsregeln als Baumstruktur erkennen


Auszählen, wie viele Karten ein Baum richtig klassifiziert


Entscheidungsregeln passend zum Baum verbal ausformulieren



Präsentation 4










Spielplan Teil 2

Arbeitsblatt 6

















AB 6 einsammeln oder aufhängen

Arbeitsblatt 7 (opt.)

Arbeitsblatt 8

7a


Testen verschiedener Entscheidungsbäume anhand einer neuen Lebensmittelkarte

Motivation:

Nachdem verschiedene Gruppen von SuS unterschiedliche Entscheidungsbäume erstellt haben, werden diese Bäume auf neue Lebensmittel angewendet, die die SuS auf Blankokarten selbst mitgebracht haben. Die selbst mitgebrachten Lebensmittel werden mit allen Bäumen klassifiziert. Dadurch wird offensichtlich, dass in den Entscheidungsbäumen auch Unsicherheiten stecken, da sich die Ergebnisse der verschiedenen Bäume bezogen auf das gleiche Lebensmittel unterscheiden können.


Aktivität:

Die Bäume (als ausgefüllte AB 6 aus der vorherigen Stunde) liegen als Stationen in der Klasse, zusammen mit neuen roten und grünen Büroklammern. Jeder Schüler/jede Schülerin geht mit seiner ausgefüllten Blankokarte (AB 8) von Station zu Station. An jeder Station durchläuft er mit der Karte den jeweiligen Baum und heftet am Ende eine farbige Büroklammer an die Karte (je nachdem, ob der Baum das Lebensmittel als eher empfehlenswert oder eher nicht empfehlenswert klassifiziert)


Mit einem Beispiellebensmittel kann vorher demonstriert werden, wie das Durchlaufen eines Baumes funktioniert! Optional kann dies mit Präsentation 5 vernanschaulicht werden.


Reflexion:

Hierbei geht es um das Thema Unsicherheit, das bei Entscheidungsbäumen (und beim Arbeiten mit Daten) immer eine wichtige Rolle spielt. Hier geschieht die Auswertung, ob das Lebensmittel eher empfehlenswert oder eher nicht empfehlenswert ist anhand des Auszählens der farbigen Büroklammern.

Diskussion: Was bedeutet es, dass an manchen Lebensmitteln unterschiedliche Klammern hängen?

  1. Die Entscheidung eines Entscheidungsbaums ist mit Unsicherheit behaftet.
  2. Unterschiedliche Bäume können unterschiedliche Entscheidungen liefern, wir können aber überprüfen, welcher Baum zuverlässig ist (welcher Baum die meisten Objekte richtig klassifiziert), indem wir Testdaten nutzen – das kommt in der nächsten Phase.
  3. Entscheidungen eines Entscheidungsbaums können darüber hinaus mit gesundem Menschenverstand beurteilt werden.



Entscheidungsbäume auf ein neues Lebensmittel anwenden


„Unsicherheit“ im Regelsystem erkennen





Präsentation 5




7b


Systematisches testen von Entscheidungsbäumen anhand mehrerer Testkarten

Motivation:

Um die Unsicherheiten in Entscheidungsbäumen systematisch weiter zu untersuchen, testet nun jede Gruppe ihren Entscheidungsbaum mit den 15 Testkarten, die im Katenspiel als gelbe Karten gekennzeichnet sind. So wird es möglich, die Performance der Entscheidungsbäume miteinander zu vergleichen.


Aktivität:

Die Testkarten werdenj im Plenum eingeführt und mit Hilfe von Arbeitsblatt 9 mit Labeln versehen. Um die Entscheidunsgbäume wirklich zu testen, müssen vorher schon Label an der Karte sein, die man dann mit dem Ergebnis eines Baums vergleichen kann. Jede Gruppe testet mit den Testdaten den Baum der eigenen Gruppe (Ergebnis aus der vorherigen Stunde auf AB6). Dafür wird jede Testkarte genommen und Baum klassifiziert. Passt das Ergebnis zum im PLenum gewählten Label zählt die Klassifikation als korrekt. Währenddessen dokumentieren die SuS, wie viele Karten der Baum “richtig” und “falsch” klassifiziert hat. Am Ende kann auf AB 6 folgender Satz ergänzt werden: „Mit diesem Baum wurden von den Testdaten ___ Lebensmittel richtig klassifiziert und ____ Lebensmittel falsch klassifiziert.”


Besprechung:

Im Plenum wird verglichen, wie gut die Bäume jeweils mit Testdaten abschneiden.

Welcher Baum hat die meisten Lebensmittel von den Testdaten richtig klassifiziert? Wie unterscheidet sich die Performance der Entscheidunsgbäume von Trainings- zu Testdaten




Testkarten zum Prüfen eines Baums nutzen


Einen Entscheidungs-baum mit Testdaten bewerten



Verschiedene Bäume anhand von Tesdaten gegenüberstellen und bewerten



Testkarten

Arbeitsblatt 9

Arbeitsblatt 6






8


Erstellen von Entscheidungsbäumen mit dem Computer

Motivation:

Nachdem die SuS den Erstellungsprozess eines Entscheidungsbaums kennengelernt und manuell durchlaufen haben, wird in dieser Stunde im eigentlichen Sinne des maschinellen Lernens ein Entscheidungsbaum automatisch mit Hilfe eines Computers erstellt. In einer vorbereiteten menübasierten digitalen Lernumgebung (basierend auf Jupyter Notebook), die per Link erreichbar ist, können die SuS selbst mit Entscheidungsbäumen arbeiten oder die Lehrkraft kann den Prozess demonstrieren. Die Lernumgebung ist weitgehend selbsterklärend und erfordert keine Programmierkenntnisse. Es ist möglich per Knopfdruck Einfluss auf die Daten zu nehmen und einen Entscheidungsbaum basierend auf den Daten erstellen lassen. Dies ermöglicht auch die Daten zu verändern und die Auswirkungen auf den Entscheidungsbaum zu untersuchen.  


Aktivität:

Um noch einmal zu thematisieren, wie ein Computer algorithmisch vorgeht, um Schwellenwerte zu finden, wird zunächst Arbeitsblatt 10 ausgefüllt.


Unter folgendem Links gibt es ein vorbereitetes Jupyter Notebook, das per „Click and play“ benutzt werden kann: https://go.upb.de/auto-baum

Mit den folgenden LogIn Daten kann auf das Notebook zugegriffen werden.

Benutzer: jupyter

Passwort: upb_jupyter

Im Jupyter Notebook haben die SuS verschiedenen Aktivitäten. Die Benutzung so wie die Aufgabenstellungen sind für SuS (fast) selbsterklärend:

  1. Alle SuS vergeben zunächst wieder Label für den Trainingsdatensatz wie in Stunde 2 (kann z:B. mit Hilfe von AB2 rekonstruiert werden).
  2. Anschließend wird durch den Computer automatisch ein Entscheidungsbaum erstellt. DIe Tiefe des Baums kann dabei eingestellt werden, sodass etwas heruprobiert werden kann.
  3. Der automatisch erstellte Baum kann mit den Testdaten überprüft werden.
  4. Am Ende können Daten für ein neues Lebensmittel eingegeben werden und durch den Baum klassifiziert werden.


Anmerkung zum Jupyter Notebook:

Im Jupyter Notebook arbeiten die SuS nur mit menübasierten Elementen. Der Quellcode ist versteckt. Um das Notebook "zu starten" empfehlen wir einmal in der obigen Menüleiste "Cell" auszuwählen und dann "Run all" anzuklicken. Damit werden alle Zellen des Notebooks in der richtigen Reihenfolge ausgeführt und von da an ist es nur noch über die interaktiven Menüs benutzbar. Wenn die Zellen jeeils einzeln mit "Run" ausgeführt werden, kann es zu Fehlermeldungen kommen.


Vertiefungsmöglichkeit:

Zum Vertiefen können die Ausgangsdaten im Jupyter Notebook unterschiedlich mit Labeln versehen werden. Dadurch lässt sich erkennen, welchen Einfluss die Daten bzw. Die Modellierung der Daten (hier der menschliche Einfluss durch Vergabe der Label) auf die Ergebnisse hat. Z. B. kann die anfängliche Vergabe der Label so verändert werden, dass sie willkürlich ist und dann wird auch als Ergebnis ein Entscheidungsbaum erstellt, der inhaltlich keinen Sinn ergibt. Dies verdeutlicht, dass die Qualität der Daten(-modellierung) entscheidend für Qualität eines Regelsystems ist, das durch maschinelles Lernen erstellt wird.


Reflexion:

Es sollte nach der Einheit reflektiert werden, wie die Entscheidungsbäume mit Hilfe des Computers erstellt wurden. Man sieht nur das Endergebnis, aber im Hintergrund ist vergleichbares passiert, wie beim manuellen Prozess mit den Datenkarten.

Manueller Prozess:

  • Merkmal auswählen und Karten danach sortieren
  • Schwellenwerte ausprobieren
  • Anzahl und falscher/korrekter Klassifikationen abhängig vom Schwellenwerten auswerten und damit Schwellenwerte/Entscheidungsregeln vergleichen

Mit dem Computer ist es möglich alle Merkmale zu testen und alle sinnvollen Schwellenwerte auszuprobieren, d.h. bildliche formuliert für jede "Lücke" zwischen zwei Datenkarten wird ein Schwellenwert ausprobiert. Dabei wird jeweils die Anzahl der Fehlklassifikationen ausgewertet. Mit Hilfe des Computers wird also auf vergleichbare Art ein Entscheidungsbaum erstellt. Der Computer führt diese Schritte allerdings viel schneller aus und somit können mehr Merkmale und Schwellenwerte ausprobiert werden. Diesen automatisierten Erstellungsprozess eines Entscheidungsmodells ist eine Form von (überwachtem) maschinellen Lernen.


Einen Entscheidungs-baum maschinell erstellen lassen









Einfluss von Daten auf das Ergebnis untersuchen











Arbeitsblat 10

Computer























9 Reflexion

Was hat uns das Erstellen des Entscheidungsbaums gebracht?

Wir haben nun Erkenntnisse über die Rolle verschiedener Merkmale von Lebensmitteln erlangt:

  • Es reicht nicht ein Merkmal zu betrachten, um zu entscheiden ob eine Lebenmittel empfehlenswert ist.
  • Die Merkmale Fett, Zucker und Energie sind besonders gute Indikatoren (dürfen allerdings nicht alleine als Entscheidungskriterium genutzt werden)
  • Es ist möglich durch das Erstellen von Entscheidungsbäumen Erkenntnisse zu gewinnen und zu visualisieren, die in Daten verborgen liegen
  • Konkrete Bäume aus dem Unterricht können nocheinmal als Grundlage genommen werden die Entscheidungsregeln zu replizieren


Welche Schwächen kann der Entscheidungsbaum haben?

Ein resultierender Entscheidungsbaum ist kein absolut gültiges Regelsystem für empfehlenswerte Lebensweise, aber er kann uns trotzdem gute Hinweise geben. Wir haben gesehen, dass die Entscheidungsbäume auch immer Fehler machen können.


Gründe für Schwächen die auf Daten zurückzuführen sind:

  • Die Daten wurden eher intuitiv mit Label versehen. Bei der Zuordnung von eher empfehlenswert/eher nicht empfehlenswert war sich die Klasse nicht immer einig bzw. sicher. Mit der Modellierung der Daten steht und fällt die Güte des Entscheidungsbaums. (ggf. Verweis auf Phase 8 wenn im Jupyter Notebook ein durchlauf mit Daten gemacht wurde die zufällig bzw. falsch gelabelt wurden) --> Daten sind als Grundlage für die Lösung der wichtigste Baustein
  • Vielleicht gibt es noch weitere wichtige Merkmale von Lebensmitteln die gar nicht erhoben wurden gar nicht erhoben. (Zum Beispiel Ballaststoffe)

Gründe für Schwächen die auf den Kontext zurückzuführen sind:

  • Eine empfehlenswerte Ernährung ist in erster Linie vielseitig und nicht eins zu eins durch einen Entscheidungsbaum abzudecken.


Zentrale Erkenntnis:

Ein Entscheidungsbaum ist eine mögliche Form dessen, was man KI nennt. Durch einen Entscheidungsbaum wird eine Entscheidung vorgeschlagen. Der Entscheidungsbaum gibt aus, ob etwas eher empfehlenswert oder nicht ist. Der Computer ist aber nicht “intelligent”, sondern wurde anhand von Daten auf das entsprechende Regelsystem trainiert. Das heißt nicht, dass der Computer „weiß” oder „verstanden” hat, was empfehlenswert ist, sondern nur, dass er Daten auswertet und basierend darauf Klassifikationen vorgenommen werden (können).

Vertiefung:

  • Für welche Situationen können Entscheidungsbäume hilfreich sein? Gib ein Beispiel an. (z.B. personalisierte Werbung, Vorschläge auf online Plattformen)
  • Als Zielmerkmal wird dabei vorhergesagt ob einer Person beispielsweise ein Produkt, ein Film etc. gefällt. Das Zielmerkmal in dieser Reihe war ob das Lebensmittel empfehlenswert oder nicht empfehlenswert ist.
  • Welche Daten werden dafür benötigt? Es werden Daten über verschiedene Merkmale des Verhaltens einzelner Personen gesammelt. Diese Merkmale werden dann genutzt um Entscheidungsregeln aufzustellen, ähnlich zu den Nährwertangaben in der Unterrichtsreihe.
  • Mit Daten von vielen Nutzern werden dann passende Entscheidungsmodell erstellt die versuchen vorherzusagen, ob mir ein Produkt gefällt um es mir dann anzuzeigen.
Prozess beim Erstellen eines Entscheidungs-baums rekapitulieren





Ergebnisse kritisch beurteilen

Modellierung durch Daten aufgreifen

Evaluation

Bitte als Abschluss der Unterrichtsreihe den Schülerinnen und Schülern das Arbeitsblatt 11 Evaluation (Rückmeldung) geben mit dem Hinweis, dass dies eine anonyme Rückmeldung an die „Erfinder“ der Unterrichtsreihe ist. Die „Erfinder“ sind sehr daran interessiert zu erfahren, wie die Reihe den Schülerinnen und Schülern gefallen hat.

Das Arbeitsblatt findet sich auch digitalisiert auf einem Server datenschutzrechtlich unbedenklich der Universität Paderborn.

Die eingescannten Arbeitsblätter schicken Sie bitte per E-Mail an podworny@math.uni-paderborn.de; alternativ kann die anonyme Evaluation unter https://go.upb.de/ev-lebensmittel von den SuS ausgefüllt werden.


Herzlichen Dank dafür!

Rückmeldung geben Arbeitsblatt 11  

(oder digital: siehe Link)

Glossar

Ast Ein Ast innerhalb eines Entscheidungsbaums ist eine von mehreren Abzweigungen, die von einem Regelknoten zu einem nächsten Knoten führt.

Ausprägung/Merkmalsausprägung Die Werte, die ein Merkmal annehmen kann, nennt man Merkmalsausprägung.

Beispiel (im Kontext von KI) Ein Beispiel ist ein Objekt (z. B. Lebensmittel), das durch bestimmte Merkmale (z. B. Nährstoffe) beschrieben wird und mit einem Label (z. B. „eher empfehlenswert“ oder „eher nicht empfehlenswert“) versehen ist.

Blattknoten Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Die Knoten am Ende eines Entscheidungsbaums nennt man Blattknoten und in ihnen ist immer eine Entscheidung für eine Ausprägung des Zielmerkmals eingetragen.

Datenkarte Eine Datenkarte repräsentiert ein Objekt, indem darauf die Ausprägungen einer Liste von Merkmalen dargestellt sind (z. B. ein Lebensmittel durch Nährwertangaben zu einer Liste von Nährstoffen). Eine Datenkarte kann digital oder analog repräsentiert sein.

Datensplit Ein Datensplit ist die Aufteilung von Daten in Teildatensätze basierend auf den Ausprägungen eines Merkmals, z. B. durch einen Schwellenwert.

Entscheidungsbaum Ein Entscheidungsbaum ist ein (übersichtliches, in gewissen Grenzen nachvollziehbares) Regelsystem, das als Baumdiagramm dargestellt werden kann. Ein solcher Entscheidungsbaum veranschaulicht hierarchisch aufeinanderfolgende Entscheidungsregeln, an deren Ende immer eine Entscheidung für eine bestimmte Fragestellung steht.

Fehlklassifikation Eine Objekt, das durch einen Klassifikator einer falschen Klasse zugeordnet wird nennt man Fehlklassifikation.

Klasse (im Kontext von KI) Eine Klasse ist eine Ausprägung eines kategorialen Zielmerkmals beim überwachten maschinellen Lernen.

Klassifikation Mit einem Entscheidungsbaum kann man Ausprägungen eines (mit einer gewissen Wahrscheinlichkeit) Merkmals vorhersagen. Anders formuliert kann man also ein Objekt einer Klasse zuordnen. Eine solche regelgeleitete Zuordnung zu einer Klasse nennt man Klassifikation.

Klassifikator Ein Klassifikator ist ein Regelsystem (z. B. Entscheidungsbaum), das bestimmte Objekte anahand von Prädiktormerkmalen klassifizieren kann.

Klassifizieren Das Klassifizieren eines Objekts entspricht dem Zuordnen eines Objekts zu einer Klasse (aus einer Menge möglicher Klassen). Klassen können auch als Merkmalsausprägungen eines kategorialen Merkmals verstanden werden.

Künstliche Intelligenz (KI) Künstlicher Intelligenz befasst sich mit der Frage, wie man Computer dazu bringen kann, Dinge zu tun, die Menschen bisher besser beherrschen. Dazu gehören verschiedenste Anwendungen, u. A. die Fähigkeit in verschiedenen Szenarios Vorhersagen zu treffen oder Klassifikationen vorzunehmen die mit einer hohen Rate korrekt sind. Somit zählen leistungsfähige Klassifikatoren (z.B. Entscheidungsbäume) zu den Anwendungen von Künstlicher Intelligenz.

Label Ein Label gibt die Klassenzugehörigkeit eines Objekts an. Das Label kann als Ausprägung eines Merkmals (Zielmerkmal) verstanden werden.

Maschinelles Lernen Maschinelles Lernen bezeichnet Verfahren, in denen eine Lernaufgabe automatisiert durch Lernalgorithmen basierend auf Daten gelöst wird. Maschinelles Lernen unterscheidet verschiedene Arten von Lernaufgaben. Typischerweise wird zwischen drei Arten von Lernaufgaben unterschieden: überwachtes Lernen, unüberwachte Lernen und bestärkendes Lernen. Beim überwachten Lernen geht es darum, die Ausprägung eines Zielmerkmals für eine bestimmte Art von Objekten vorherzusagen. Beim unüberwachten Lernen geht es darum, Objekte anhand bestimmter Merkmale in Gruppen ähnlicher Objekte zusammenzufassen und beim bestärkenden Lernen geht es darum, sogenannte „Agenten“ (z.B. Roboter) zum Handeln zu bringen. Bei allen Lernaufgaben kommen unterschiedlichste Lernalgorithmen zum Einsatz.

Merkmal Merkmale charakterisieren Objekte und können verschiedene Ausprägungen annehmen. Es gibt numerische und kategoriale Merkmale.

Objekt  Objekte sind Merkmalsträger jeglicher Art. D. h. Objekte können durch Merkmale beschrieben werden (Z. B. Lebensmittel werden durch Nährwerte beschrieben, Menschen durch charakterisierende Eigenschaften wie Haarfarbe oder Körpergröße). Dabei ist nicht festgelegt welche Merkmale zum beschreiben eines Objektes herangezogen werden.

Pfad Ein Pfad innerhalb eines Entscheidungsbaums ist eine Abfolge von Ästen, die im Wurzelknoten beginnt und in einem Blattknoten endet.

Prädiktormerkmal Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Zielmerkmals vorherzusagen. Für die Vorhersage wird ein Regelsystem basierend auf weiteren Merkmalen erstellt. Diese weiteren Merkmale, auf denen also die Vorhersage beruht nennt man Prädiktormerkmale.  

Regelknoten Ein Entscheidungsbaum besteht aus verschiedenen Knoten. Zu Beginn stehen immer Regelknoten, die anhand von Prädiktormerkmalen gebildete Entscheidungsregeln repräsentieren. Alle Knoten in einem Entscheidungsbaum, bis auf die jeweils letzten Knoten weines Pfades, sind Regelknoten.

Schwellenwert Ein Schwellenwert ist eine Ausprägung, die zu einem numerischen Merkmal gewählt werden kann, um Objekte in Teildatensätze zu gruppieren. Die Teildatensätze ergeben sich aus den Objekten, deren jeweilige Ausprägung kleiner oder gleich dem Schwellenwert ist und denjenigen, deren jeweilige Ausprägung größer als der Schwellenwert ist.

Trainingsdaten Trainingsdaten sind ein Satz von Daten, die genutzt werden, um mit Hilfe von maschinellem Lernen einen Klassifikator (z. B. Entscheidungsbaum) zu erstellen.

Testdaten Testdaten sind ein weiterer Satz von Daten, mit denen ein erstellter KLassifikator getestet wird. Trainings- und Testdaten sind disjunkt.

Zielmerkmal Beim überwachten maschinellen Lernen geht es darum für eine bestimmte Art von Objekten die Ausprägung eines Merkmals vorherzusagen. Das betreffende Merkmal nennt man Zielmerkmal.  

Überwachtes maschinelles Lernen (engl.: supervised learning) Überwachtes maschinelles Lernen wird angewandt, um Entscheidungsmodelle zu erstellen, die für eine bestimmte Art von Objekten vorhersagen über ein Zielmerkmal treffen zu können. (z.B. Klassifizieren von Lebensmitteln als “eher empfehlenswert” und “eher nicht empfehlenswert”). Damit das überwachte Lernen angewandt werden kann, benötigt man zuerst digitale Repräsentationen von Objekten, worin die Objekte anhand bestimmer (Prädiktor-)Merkmale beschrieben sind (z. B. Lebensmittel, die durch Nährwertangaben repräsentiert sind). Zusätzlich müssen für alle Objekte die gewünschten Ausprägungen des Zielmerkmals (z.B. eher empfehlenswert/eher nicht empfehlenswert) bekannt sein. Eine Sammlung von Beispielobjekten, denen Werte von Prädiktormerkmalen und Labeln zugeordnet werden, werden so zu einem Satz von Daten, der modellhaft eine ganze Klasse an Objekten repräsentiert. Mit diesen Daten können mit Hilfe von Lernalgorithmen verschiedene Arten von Regelsystemen/Entscheidungsmodellen (z.B. Entscheidungsbaum, neuronales Netz) erstellt werden. Den Erstellungprozess nennt man auch “Lernprozess” oder "Trainingsprozess" und die Daten, die dafür genutzt werden, nennt man Trainingsdaten. Das Verarbeiten der Daten in diesem gesamten Trainingsprozess kann man als “überwachtes maschinelles Lernen” bezeichnen und dabei wird das Regelsystem immer besser an die vorliegenden Daten angepasst, bis am Ende möglichst wenig Fehler bei der Zuordnung (Fehlklassifikationen) passieren. Im ersten Schritt wird ein Entscheidungsmodell also so trainiert, dass es die Trainingsdaten korrekt zuordnet. Zielstellung ist es aber eigentlich, dass das Entscheidungsmodell über die Trainingsdaten hinaus funktioniert und auch neue Objekte (z.B. neue Lebensmittel) korrekt zuordnet. Im Anschluss wird das Entscheidungsmodell mit neuen Objekten bzw. Daten getestet und evaluiert. Dann spricht man von Testdaten. Der Begriff „überwacht“  wird in diesem Zusammenhang genutzt, da für alle verwendeten Objekte in den Daten die Ausprägung des Zielmerkmals bekannt ist und daher genau überwacht werden kann, wie gut des erstellte Entscheidungsmodell für die Daten funktioniert. Ein solches gut funktionierendes Entscheidungsmodell kann man als KI bezeichnen.