Using text-generating AI systems such as ChatGPT at TU Dresden
Table of contents
AI-supported text generation programs such as the ChatBot ChatGPT have been attracting a lot of attention since the end of last year. TU Dresden is observing the rapid development of this AI technology closely. TU Dresden recognizes the potential, but also the challenges that this technology brings with it and promotes the discussion on the classification and use of such programs, especially in a didactic context, but also with regard to legal framework conditions.
We would like to provide you with some information and recommendations for the following topics in the university context.
Data protection and usage information
Ansagerin: Ich glaub, es hackt. IT-Sicherheit für alle außer Nerds. Mit Rüdiger Trost und Tobias Schrödel.
Rüdiger: Hi Tobi.
Tobi: Hi Rüdiger.
Rüdiger: Da sind wir wieder für unsere Freunde bei der TU Dresden und reden heute über das heikle Thema schlechthin Über das Thema KI.
Tobi: Genau, Künstliche Intelligenz. Was ist das überhaupt? Wie funktioniert das? Welche Chancen, welche Risiken hat es da? Und das Ganze mal einfach erklärt?
Rüdiger: Natürlich haben sich die Leute bei der TU schon ein paar Gedanken gemacht. Es gibt auch die Webseite mit den Handlungsempfehlungen zu ChatGPT und generell zu textgenerierenden KI Systemen. Aber wir wollen heute mal ein bisschen zusammenkehren für die Nichtnerds, was man unter dem Thema versteht. Und anfangen möchte ich mit einer Enttäuschung. Also ich bin enttäuscht von uns Deutschen, muss ich dir ganz ehrlich sagen, weil wir haben wieder einen eigenen Begriff für was, was auf der Welt einfach anders heißt. Wir sagen KI und auf der ganzen Welt versteht man es unter AI Artificial Intelligence.
Tobi: Das stimmt. Also wenn man in einem Meeting sitzt und mit internationalen Gästen und und Forscherinnen und Forschern diskutiert, KI zu sagen kommt wahrscheinlich nicht so gut, weil es wahrscheinlich keiner versteht. Es heißt AI Artificial Intelligence, aber wir sagen heute einfach KI in diesem Podcast, oder?
Rüdiger: Genau, Genau, Ja, aber was versteht man genau darunter? Also du hast es schon gesagt Künstliche Intelligenz. Wie würdest du es definieren? Mal mal einfach runtergebrochen?
Tobi: Eine künstliche Intelligenz ermöglicht es Maschinen Aufgaben auszuführen. Also, und zwar in einer Art und Weise, wie wir es typischerweise von von Menschen gewohnt sind. Also menschenähnliche Intelligenz heißt das, Das sieht man ja bei ChatGPT. Das kennt wahrscheinlich auch jeder, wo man Fragen stellen kann, so wie man die auch seinem Partner, seiner Partnerin stellt und dann auch Antworten kriegt, ähnlich wie von einem anderen Menschen und vielleicht den Unterschied zwischen Mensch und Maschine gar nicht auf den ersten Blick so wahrnehmen kann, ja, dass man das erkennt.
Rüdiger: Jetzt ist das ChatGPT ja schon eine der der ja größten Ausbaustufen mit der generativen AI. Davor gab es natürlich noch mal andere Schritte. Es gab das Machine Learning. Das ist im Prinzip das, was wir vielleicht um es mal vereinfacht darzustellen, mit dem mit dem Siri oder mit dem Alexa kannten. Ja, also die haben irgendwie gelernt, wenn ich sage, es ist dunkel, dann haben die das das Wort dunkel gelernt, haben gesagt okay, jetzt muss man das Licht einschalten. Also das war sozusagen die erste Stufe, war so ein Machine Learning und die nächste Stufe ist dann das sogenannte Deep Learning, wo dann ein sogenanntes neuronales Netz noch dabei ist, das quasi diese Algorithmen selbst überwacht und auch dazulernen kann. Also dieses Deep Learning ist auch in der Lage, komplexere Befehle zu erkennen. Wenn ich zum Beispiel sage, ich sehe nichts, dann erkennt quasi das Deep Learning er sieht nichts. Um was zu sehen, braucht man Licht, also muss Licht einschalten. Das ist mal ganz grob erklärt. Dieser Unterschied zwischen diesen Buzzwords Machine Learning und Deep Learning. Und oben drauf sitzt eben diese generative des ChatGPT.
Tobi: Und alle drei brauchen aber zum Lernen ganz, ganz viele Daten. Das ist. Das ist tatsächlich wichtig, weil alle irgendwo auf einem grundlegenden Thema ansetzen, nämlich Mustererkennung. Also Mustererkennung ist so zu erklären, dass man versucht, irgendwelche Gemeinsamkeiten zu erkennen, und zwar in einer Art und Weise. Kann das eine Maschine, ein mathematischer Algorithmus machen? Der ist so komplex, dass das kriegen wir Menschen erstmal gar nicht hin. Aber vereinfacht gesagt ist es so, dass ich versuche herauszufinden, wie oft Wörter aufeinander folgen. Zum Beispiel. Also wenn man jetzt ChatGPT nimmt. Beispiel, das ich immer gerne verwende ist wie sieht ein Pferd aus? Und wenn man mal ganz, ganz viele Texte im Internet liest, die mit Pferden zu tun haben, dann wird man immer wieder auf dieselben Wörter treffen. Also in einem Text über Pferde steht zum Beispiel immer was von Mähne oder Fell, Hufe oder sonst irgendwas. Und wenn man das Ganze mal statistisch ausrechnet und ich frag dich jetzt mal, wenn du das ganze Internet gelesen hast Rüdiger, wie sieht denn ein Pferd aus? Wirst du, wenn du statistisch mal die Wörter betrachtest, wahrscheinlich sagen Das hat ein Fell, eine Mähne und Hufe, aber wahrscheinlich keine Krallen und Federn, weil das in den Texten mit Pferden praktisch nie vorgekommen ist. Und genau auf so eine Art und Weise lernt eine künstliche Intelligenz, das heißt, eigentlich weiß sie gar nichts, sondern sie vermutet nur die richtige Antwort anhand von mathematischen Berechnungen.
Rüdiger: Jetzt hat das aber ein großes Problem, Tobi, denn du liest das Internet und du hast natürlich da einen gewissen Bias auch drin mit diesem, mit diesen Daten. Also es gibt da eine Studie, die hat mal getestet, wenn man neutral fragt, eine KI. Also jetzt in dem Beispiel war es generieren wir eine Person, die gerade weint. Ja dann hat diese KI immer weibliche Personen generiert. Ach was. Ja, das ist natürlich so stereotyp, ja oder? Oder zeig mir eine Person, die handwerklich arbeitet. War immer ein Mann.
Tobi: Also. Aber das liegt ja dann daran, dass die, die die Daten, mit der diese künstliche Intelligenz gefüttert wurde, diese Stereotypen schon mitgegeben haben, weil die die KI ist. Ja erst mal, ich sage jetzt mal relativ neutral und radikalisiert sich erstmal, wenn man das so sagen möchte, eigentlich erst anhand der Informationen, die ich hier gebe. Also wenn ich natürlich nur Handwerkerbilder von von Männern zeige, dann wird die KI natürlich Männer zeigen. Also es ist und das ist auch sicherlich ein fast schon ethisches Problem. Es kommt darauf an, wer diese KI füttert. Also wenn ich jetzt mal das global betrachte oder international, wenn ich in Indien eine KI fütter mit den MIT mit den Daten, die man dort hat und gesammelt hat und vielleicht für wichtig erachtet wird, die andere Ergebnisse ausspucken, als wenn man in Westeuropa die, die ich sag mal die gleiche KI mit den Daten von hier füttert.
Rüdiger: Das ist so und wenn man das weiß, dann muss man aber gegebenenfalls auch bei dem Prompt, also bei der Eingabe, die ich eine KI mitgebe, um meine Sachen zu generieren, eben genau diesen Bias auch austreiben. Also ich muss das gegebenenfalls selbst ausgleichen, so ein Problem. Das ist natürlich muss ich beachten, dass ich die Ergebnisse, die mir so eine so eine KI, sei es jetzt Bildgenerator oder oder Textgenerator ausspuckt, auch nicht immer für bare Münze nehmen, sondern muss das durchaus immer hinterfragen.
Tobi: Du meinst, dass die KI falsche Antworten gibt? Habe ich jetzt bei der ChatGPT erstmal so nicht erlebt, also zumindest nicht auf den ersten Blick. Also das war eigentlich immer also wow muss ich sagen. Also Chat ChatGPT hat glaube ich jeder ausprobiert. Ich glaube 78 % der Deutschen habe ich letztens in der Bitcoin Studie Bitcoin Studie gelesen. Haben das schon mal probiert. Zumindest ein zwei mal und ich. Machen wir uns nichts vor Jeden den ich gesprochen habe, sagte Das ist irre, Du sagst was weiß ich, Schreib mir eine Postkarte im Stil eines 7-jährigen, dann kommt die raus. Oder ein neues Gedicht von Goethe im gleichen Stil. Und dann bumm! Gibt es ein neues Goethe Gedicht, wo du sagen kannst oder nicht erkennst, dass das gar nicht war? Das ist schon Hammer. Jetzt machen wir uns nichts vor. Ist die Filterung die KI?
Rüdiger: Es ist beeindruckend. Ja, ich habe es auch getestet. Ich habe mal einen Text zusammenfassen lassen bzw. habe einen Text mitgegeben, sage ja, sag mir mal alle Länder, die in diesem Text genannt werden und dann kam auch eine Liste raus der Länder die drinstehen. Aber es hat was gefehlt, es hat Portugal gefehlt. Ich wusste, in dem Text steht irgendwo Portugal drin und da habe ich gesagt im zweiten Prompt habe gemeint Ja, aber du hast ja Portugal vergessen. Und dann sagt ChatGPT, tut mir leid, du hast recht, Portugal ist auch noch dabei. Hier ist die aktualisierte Liste. Also nicht alles, was da rauskommt, stimmt auch. Tatsächlich.
Tobi: Es gibt sogar Fälle da, da lügt die KI. Wobei man sagt im Technischen, bei bei KI nicht lügen, sondern halluzinieren. Also eine KI halluziniert, weil schönes Wort, lange nicht mehr gehört irgendwie. Das ist so ein bisschen hui buh mäßig. Aber ich kenne einen Fall aus den USA. Da hat ein Rechtsanwalt gebeten, eine Antwort zu einem Gericht zu schreiben, für irgendeinen Fall oder eine Anfrage was auch immer und wollte dabei das ChatGPT fünf Präzedenzfälle anführt. Und das hat ChatGPT auch getan. Und man muss dazu sagen, dass Präzedenzfälle in so Antworten ans Gericht einem bestimmten Format entsprechen. Also da steht wahrscheinlich erstmal der Name des Gerichts EuGH oder sonst irgendwas. Dann irgendein Aktenzeichen wo welche Seite und und lauter solche Sachen. Und das ist formal immer gleich und ChatGPT hat also fünf geliefert und der Richter war ziemlich sauer, weil der hat alle fünf überprüft und hat festgestellt, ich glaube, zwei von den fünfen gab es gar nicht. Also die waren ausgedacht, aber die waren tatsächlich im richtigen Format. Und das ist ganz, ganz wichtig zu wissen, auch für die Forscherinnen und Forscher in Dresden. ChatGPT liefert oftmals Antworten. Die schauen formal total richtig aus, aber inhaltlich sind sie falsch. Und das liegt daran, dass eine künstliche Intelligenz eben kein Google plus ist, sage ich jetzt mal, sondern schlicht und ergreifend nur ein Sprachmodell, das weiß, also wie Präzedenzfälle auszusehen haben. Und wenn der Anforderer sagt, ich hätte gerne fünf, dann liefert es fünf, egal ob es die gibt oder nicht.
Rüdiger: Das Problem war an der Stelle jetzt wahrscheinlich auch, dass die Datenbasis einfach gar nicht komplett war oder dass das zu wenig Daten da waren, um auszuwerten. Bzw. Die Daten gibt es halt nicht, deswegen konnte er keine fünf nennen. Und natürlich ist das eine eine Verzerrung letzten Endes. Also wenn die Modelle gut trainiert werden und die Datenbasis hatten, hat ein Bias oder ist unvollständig. Das heißt denn.
Tobi: Dieses Bias, was du jetzt schon ich glaube zum Dritten Mal sagst Was, was ist denn das? Das ist gar.
Rüdiger: Nicht das ist eine Tendenz hat in eine Richtung ja dass wenn du zum Beispiel nur rechtsradikale Inhalte rein fütterst, dann wird deine KI auch rechtsradikales Output produzieren. Ja, also egal was du machst, wenn du nur, wie du eben schon gesagt hast, Fotos von männlichen Handwerkern rein fütterst, dann werden auch die Bilder, die generiert werden, auch männlich sein.
Tobi: Aber das heißt ja auch, dass ich als Anwender tatsächlich prüfen muss, wer stellt mir denn diese KI zur Verfügung? Weil ich eben damit auch ausschließen muss, dass ich nicht in irgendeine Tendenz gerutscht werde, ohne es zu merken oder sonst irgendwas.
Rüdiger: Genau. Nicht nur das. Du musst nicht nur wissen, wer dir die KI bereitstellt, im Idealfall bist du das nämlich selbst, sondern du musst auch wissen, wo kommen die Daten her? Sind die Daten, die da rein gefüttert werden auch sozusagen vertrauenswürdig, weil sonst kommt. Die Ergebnisse raus und du hast keine Ahnung, wie die generiert wurden. Du kannst es nicht mehr erklären. Also die Nachvollziehbarkeit ist überhaupt nicht mehr da.
Tobi: Allerdings korrigieren wir die KI ja auch selbst mit unseren Anfragen, also unseren Prompts. So nennt man das ja, wenn man da irgendwie so einen Befehl oder eine Frage oder einen Wunsch reinschreibt. Weil ich habe gelernt, dass wenn ich, wenn ich oder so wie du das gesagt hast Moment, da fehlt ja Portugal, Du korrigierst das mit und beim nächsten Mal bei dem gleichen Text würde die KI diesen Fehler nicht wiederholen. Also ich kenne dann diesen lustigen, dieses lustige Beispiel, dass man mal gesagt hat mach mir mal ein Bild, das war nur so ein Bildgenerator von einem Lachs, der in einem Fluss springt. Und dann wurde also dieses ich sag mal so ein Essenslachs, weißt du, so ein Tiefgefrorener genau wurde also irgendwie reingeneriert in so ein Wasser, weil der einfach aus diesen statistischen Methoden einfach festgestellt hat, dass wenn man Lachs googelt, kommt meistens Essen und dann hat aber der der Bildgenerator gesagt der der Mensch davor. Ich wollte eigentlich einen Fisch haben und wenn man das heute macht und sagt Generiere mir einen Lachs, der im Fluss springt, dann kommt auch ein richtiger Fisch bei raus. Also auch wir User korrigieren die Daten, die die Ergebnisse einer KI. Und auch das kann problematisch sein, weil ich damit unter Umständen interne Forschungsergebnisse, wenn man es jetzt mal auf die Uni Dresden projiziert, veröffentliche oder bekanntgebe oder weitergebe, ohne es zu merken und ohne steuern zu können. Vor allem.
Rüdiger: Ja, das ist ein ganz wichtiger Punkt. Da haben wir noch gar nicht drüber gesprochen. Wenn man jetzt eine öffentliche KI nutzt, also Beispiel ChatGPT, dann darf da natürlich nichts internes rein gepostet werden. Ja, also das ist natürlich verlockend zu sagen, ich poste jetzt mal hier eine keine Ahnung Hausarbeit rein sagt machen wir mal ein Abstract oder ziehe mal die die KE Fakten raus um eben Zeit zu sparen, weil das kann die KI natürlich alles super machen, aber gegebenenfalls trainiere ich dann die KI für den nächsten mit der Hausarbeit, die nicht mir gehört, oder oder? Ja, im Prinzip ja. Daten, die nicht extern gehen, dürfen in so eine KI rein.
Tobi: Ich kenne das von einem Automobilhersteller, für den ich gearbeitet habe und wir haben da auch drüber gesprochen. Einfach so diskutieren. Er hat gesagt also bis auf, also einfach gesagt bis auf unsere Marketingabteilung, die dann nette Prospekte mit generieren können, dürfen zum Beispiel Ingenieurinnen und Ingenieure ChatGPT nicht nutzen. Und das Beispiel dahinter war relativ einfach. Also das waren, ich sag mal ein Automobilhersteller aus Bayern, also da gibt es jetzt auch mehrere. Kannst du aussuchen welcher. Und die haben gesagt, wir haben bei unseren hochklassigen Rennwägen, die wir bauen, dass Probleme mit bremsen. Und wenn man dann als Ingenieur reingeht und mit ChatGPT zum Beispiel sagt Du, pass auf, wie mache ich denn eine bessere Bremse? Wir haben die so und so gebaut und immer wenn wir von 180 voll runter bremsen, dann dann vibriert das Ganze und ChatGPT sagt dann er nimmt ein anderes Metall, nimm halt Platin oder sonst irgendwas. Und dann sagt er Ja, aber Platin wird zu heiß, wenn man darunter bremst und so und und sagt ja, tut 2 % Kupfer mit rein, dann ist alles gut und tatsächlich funktioniert. Und dann hat dieser Hersteller plötzlich die weltbeste Bremse. Dann könnte es passieren, dass zwei, drei Wochen später ein Automobilhersteller aus Baden Württemberg hingeht und sich einfach hinsetzt und sagt Wie macht man denn die beste Bremse der Welt? Und dann kriegt er sofort die Information Du musst Titan nehmen, weil es da nicht vibriert. Und am besten tust du noch 2 % Kupfer oben rein, weil dann eben kein Hitzeproblem besteht. Das heißt, der Automobilhersteller aus Bayern hat durch diese Arbeit quasi dem anderen alles aufs Tablett gelegt. Und das ist natürlich fatal, wenn ich da um Forschungsergebnisse oder sonst irgendwas sich dreht, dann dann sind da Informationen raus, die nicht raus dürfen.
Rüdiger: Ja, und auch private Informationen. Also ich darf auch keine Informationen von Studenten da reinposten zum Beispiel. Ja, machen wir mal eine schöne Liste, sortiert nach Geburtsdaten oder sowas von den Studierenden. Das sind natürlich alles private Daten. Da geht es um das Thema Datenschutz. Da habe ich auch nicht rein reinfüttern. Ganz, ganz klar ja. Aber kommen wir vielleicht mal zu den Cyber Sicherheitsrisiken. Wir sind ein IT Security Podcast und das Thema AI oder KI ist natürlich auch wenn es um den Angriff auf IT Netzwerke geht, ein ganz wichtiges Thema. Ganz vorne eins deiner Lieblingsthemen das Thema Deepfakes.
Tobi: Genau. Deepfakes können wir eigentlich erst mal aus dem Kino. Da gibt es ja Fälle, was weiß ich der, der der Hauptdarsteller ist kurz vor Ende, vor Fertigstellung des Films verstorben oder so und dann macht man noch irgendwie zwei, drei Szenen, die dann anderer Schauspieler nachgestellt hat. Und man hat dann eben nachher quasi das Gesicht des verstorbenen Schauspielers da reinmontiert oder so und das hat man das nicht gemerkt oder solche Sachen. Das war früher relativ komplex und hat einfach die Arbeit von von mehreren Spezialistinnen und Spezialisten gebraucht. Heute haben wir das auf dem Handy. Also das ist richtig krass. Heute ist es möglich, dass ich mein Gesicht verändern kann und damit auch und das macht es problematisch, auch die Stimme und obendrein das Ganze dann zum Beispiel in ein Teams oder Zoom oder sonst irgendwas. Videokonferenzen. Gedöns einspielen kann. Gibt es eine tolle Geschichte. Du hast bestimmt früher auch Computerspiele geklaut. Rüdiger Ich kenne dich bestimmt gar keinen Fall. Du kennst das. Da gab es irgendwie ein neues Formel eins Autorennen oder sonst irgendwas. Kostet einen Haufen Geld, aber irgendwie. Der Kollege hat es auch gehabt und dann hat man die Zd gebrannt. Nero Burning Rom. Gab es da so ein Programm? Bestes Wortspiel für einen Namen von einem von dem CD Programm Nero Burning Rom. Und damit hat man dieses Spiel kopiert und dann hat man das eben auch nutzen können. Und irgendwann sind die Spielehersteller drauf gekommen, dass die ihren Kopierschutz verbessern müssen und haben das gemacht und haben dann CDs werden ja gepresst normalerweise. Also wenn sie in großem Stil hergestellt werden und dann haben sie da so eine, so eine Fehlpressung gemacht, quasi, die dieses Burning Rom Programm nicht mit kopieren konnte. Und dann lief es nicht mehr. Und dann kam jemand auf die grandiose Idee und hat ein sogenanntes Gazi Scsi geschrieben. Laufwerk erzeugt. Das ist ein virtuelles Rom. Also du hast einen Treiber installiert und dann glaubte dein Windows System, du hast zwei CD's Rom Laufwerk, obwohl du nur eines hast und in dem zweiten das es gar nicht gab, also zumindest nicht zum Anfassen war diese diese falsch gepresste Original CDs drin. Und dann konntest du auch dieses Autorennen wieder spielen. So, und genau dieses Prinzip dieses virtuellen SSD Roms kann man auch kopieren auf Kameras, auf USB Kameras und dann hat man, wenn man so einen Treiber installiert Expression Cam zum Beispiel heißt eins hat man eine zweite Kamera, obwohl du nur eine hast in deinem Laptop und diese zweite Kamera, auf die kannst du. Das ist ganz krass ein Foto einer Person laden. Also du lädst irgendwie ein Porträtfoto von Professor aus Dresden, von einem Schauspieler oder was auch immer du möchtest und dann werden deine Gesichtsmimiken von der Kamera automatisch auf dieses Foto projiziert und du kannst in Teams in Zoomen oder was auch immer Skype, was auch immer du machst diese Kamera in den Einstellungen auswählen und dann ist plötzlich dein Professor oder der Schauspieler, den du gewählt hast, in deiner Videokonferenz und bewegt Mund, Augen und Lippen und Nase und alles. Du kannst sogar die Augenbrauen hochziehen und sagen Na, Schatzi, genauso wie du es auch machst, Das ist unglaublich.
Rüdiger: Es ist natürlich noch nicht ganz perfekt, aber machen wir uns nichts vor, Wenn wir schon mal so eine Teams oder Zoom oder Big Blue Button Konferenz gemacht hat, dann weiß man die Kamera, die ist manchmal ein bisschen pixelig und bricht auch mal ab. Also die Qualität ist jetzt nicht 4K, also deswegen reicht das wahrscheinlich schon aus, um den einen oder anderen hinters Licht zu führen. Und das.
Tobi: Vor allem. Entschuldige, vor allem wenn du diesen virtuellen Hintergrund auch noch einschaltest. Auch das geht nämlich. Du kennst diese Leute, die immer so tun, als wären sie am Strand. Morgens 8:30, Videokonferenzen. Der eine sagt am Strand, im Hintergrund ein Sonnenschirm schaut immer blöd aus. Vor allem da kennst du ja, wenn du quasi um deinen Kopf mal rum schaust. Da sind immer so Fehler. Also so Pixelfehler, sage ich jetzt mal und genau das trainiert eigentlich alle anderen Anwesenden darin, diese Fehler zu ignorieren und als für okay zu beachten. Das heißt, wenn ich da mit meiner falschen Kamera komme und ein Gesicht vom vom Professor imitiere, dann fällt es vielen vielleicht gar nicht auf, weil sie sagen Ja, guck mal, der hat ja einen virtuellen Hintergrund. Das ist ganz normal.
Rüdiger: Und das Problem ist eben, dass die Hürde jetzt gesunken ist. Im Prinzip kann jeder mit einem einigermaßen okayen Rechner das in Echtzeit rechnen und so ein deepfake Video erstellen, gegebenenfalls auch so eine Konferenz machen. In Echtzeit, mit einem falschen Gesicht, mit einer falschen Stimme. Alles machbar heutzutage schon. Falsche Stimme geht.
Tobi: Sogar innerhalb von wenigen Sekunden. Also vor einem halben Jahr habe ich das mal getestet. Da brauchte man noch mehrere Stunden Text Material von der Person, die man klonen oder dessen Stimme man klonen möchte. Heute sind das 30 Sekunden. 30 Sekunden ist gar nichts. Das habe ich auf einer Weihnachtsfeier bei einer kurzen Ansprache. Selbst wenn ich eine Person nur noch nach dem Weg frage und irgendwie ein Mikro mitlaufen lasse, komme ich an diese, an diese Textmenge. Und dann klone ich auch die Stimme. Und machen wir uns nichts vor, wenn ich dir eine Textnachricht, eine Sprachnachricht per WhatsApp oder sonst irgendwas schicke und und und sage oh, wir müssen irgendwie Geld überweisen. Oder schicken Sie mal kurz Ihre aktuellen Forschungsergebnisse den aktuellen Stand mal kurz an die Email, der Kollege guckt mal drüber, dann kann man da auch vielleicht wirklich Informationen abgreifen.
Rüdiger: Keine Frage. Und auch aus Transparenzgründen. Wir nehmen den Podcast hier Anfang Dezember 2023 auf und das ist der Stand der Technik. Das wird in drei, in sechs, in zwölf Monaten schon wieder ganz anders aussehen. Also diese die uhren bei bei allen KI Tools läuft irgendwie schneller gefühlt. Also was heute möglich ist, war vor sechs Monaten noch nicht möglich. Also gerade wenn es um Bildgenerierungstools geht, beispielsweise wenn ich von einem halben Jahr ein Bild generiert habe, dann sahen die Gesichter noch so ein bisschen komisch aus. Die Leute haben sechs Finger gehabt oder mehr ist heute schon gar nicht mehr so, Also heute kann ich perfekte Fotos generieren, wo die Gesichter eben ganz normal ausschauen und gegebenenfalls das Ganze sogar auch in Echtzeit. Also die. Uhren ticken sehr schnell.
Tobi: Wie könnte ich denn zum Beispiel feststellen, wenn man das jetzt mal weiterspielt? Wir machen jetzt auch ein bisschen Angst. Wir müssen aber auch eine Lösung mitgeben. Wie könnte ich dann eigentlich feststellen, ob du, lieber Rüdiger, tatsächlich jetzt der Rüdiger bist, der mit mir hier diesen Podcast einspricht und nicht irgendeine KI oder irgendjemand anders, der nur deine Stimme nutzt?
Rüdiger: Ja, also im Prinzip müsstest du mich jetzt auf einem anderen Kanal anrufen und fragen Du, redest du gerade mit mir? Ja, Also rufst mich auf dem Telefon an, übers Festnetz oder schickst mir eine, schickst mir eine Nachricht über einen anderen Kanal und sagst du, sind wir gerade im Gespräch oder ist das ein anderer? Also im Prinzip die gleichen Tipps wie auch bei dem typischen CEO Fraud. Wenn einer anruft. Social Engineering Angriffe muss man im Prinzip ein bisschen skeptisch sein, wenn man den Verdacht hat, der redet normalerweise ganz anders.
Tobi: Das ist aber irgendwie so eine Zwei Faktor Authentisierung, also quasi dieser, dieser Code, den ich beim beim Onlinebanking irgendwie von der Bank auch noch bekomme, die Tanne oder so was. Ich könnte ich auch irgendwas fragen, von dem ich mir sicher bin, dass nur wirklich du es wissen könntest. Zum Beispiel worüber wir gestern gesprochen haben oder oder sonst irgendwas. Auch das geht. Und ganz ehrlich, das ist eine Empfehlung, die muss man fast schon wirklich aussprechen, wenn man zumindest von von Per, per Sprachnachricht oder von mir aus auch in der in der Teams Konferenz oder Big Blue Button oder sonst irgendwas irgendwie eine Aufgabe kriegt, Geld zu überweisen oder sonst irgendwas, was vielleicht untypisch ist oder eine Kontonummer dabei ist, die man sonst typischerweise nicht verwendet.
Rüdiger: Aber Tobi, du sagst jetzt, ich muss beweisen, dass ich das bin. Aber das Problem ist ja, ich muss ja in der Regel beweisen, dass ich es nicht war, weil Leute werden gegebenenfalls diese Deepfakes erstellen von Politikern, von Professoren, von Mitstudierenden und sagen Ja, schau mal, der hat hier was gesagt, der hat hier was Kontroverses gesagt, hat den Professor beleidigt und sonst was. Ist ja nach Stand der Technik heute schon total einfach möglich. Ja und dann muss aber die Person im Endeffekt erstmal beweisen. Ich habe das nie gesagt, das hat jemand generiert und dann wird es schwer.
Tobi: Das ist tatsächlich ein Problem und das bestätigt mich dann auch in der in dieser, in dieser Statistik oder die diese Umfrage, die ich vorhin erwähnt hatte von diesen 78 %, die ChatGPT und Co schon mal ausprobiert haben. Da war nämlich 41 % dabei, die gesagt haben KI macht mir auch Angst. Größtenteils ältere Menschen, also nicht, nicht die ganz jungen. Da war es was deutlich weniger. Aber wenn ich mal so drüber nachdenke eine KI okay bereichert unser Leben. Gerade im medizinischen Bereich werden wir ganz viele Chancen haben. Also zum Beispiel Bilderkennung. Dieses Muster erkennen ist da ist die KI super klasse und richtig groß. Also zum Beispiel wenn man jetzt mal Monografien nimmt zum Beispiel da gucken jetzt glaube ich drei Ärzte drüber, die da unter Umständen mehrere Minuten oder eine halbe Stunde Zeit aufwenden müssen, um wirklich gute Ergebnisse zu liefern. Das wird eine KI in Sekunden vorsortieren und sagen hier sicher nichts hier, guck mal besser drüber. An der Stelle und da bin ich mir sicher, ist ein Problem. Dann spart man sich auch Zeit. Und die Ärztinnen und Ärzte können also viel mehr für den Patienten machen. Auf der anderen Seite? Ja, habe ich auch gelernt, dass die Daten, die bereitgestellt werden, die KI füttern. Und machen wir uns nichts vor, diese Daten, die bereitgestellt werden, korrigieren und stellen bereit, Menschen, also wir wieder nicht die Maschine. Und ganz ehrlich, dann gehöre ich auch zu den 41 %, die Angst haben, weil wir Menschen vielleicht einfach auch die falschen Daten liefern oder Daten liefern wollen. Aber es bedeutet doch im Großen und Ganzen eigentlich nur, dass man eine KI mit wahnsinnig tollen Chancen für die Zukunft und für Verbesserungen im sozialen Umfeld, zum Beispiel auch zum Berechnen von von Klimaschäden oder wie man dagegen vorgehen kann beim Auswerten von Erdbeben und damit Vorwarnungen besser machen kann, also Menschenleben retten kann, damit. Wir können uns Zeit sparen auf der anderen Seite, aber wir müssen höllisch aufpassen, dass wir nicht eine KI generieren, erzeugen oder nutzen von Menschen, die uns eigentlich schaden wollen. Das heißt, mal wieder ist es der Punkt. Es kommt darauf an, wie man es macht.
Rüdiger: Im Prinzip wie bei allen IT Tools. Man muss es verantwortungsvoll nutzen. Man muss wissen, welche Daten gebe ich hin, welche Daten lasse ich lieber privat? Und ich hoffe, wir haben mit dem kleinen Podcast hier einen guten Überblick gegeben für die Freunde bei der TU Dresden. Und dann bleibt mir nur zu sagen Danke, Tobi.
Tobi: Danke Rüdiger.
Notes on the use of text-generating AI systems for users
The data entered in software (both licensed/commercial and available free of charge) is used, for example, by ChatGPT to further develop the AI system. The texts/information generated from this data can be viewed by all users. Deleting the entered data or content is technically difficult and currently hardly feasible. For this reason, among others, the following instructions for use must be observed from a data protection perspective:
- Do not enter personal data
- Please use AI systems with anonymous or anonymized data only (e.g. technical, mathematical data).
- You should refrain from entering personal data (e.g. name, age, gender, contact details, voice, appearance, grades, semester, title, pay grade).
- Avoid such entries that could possibly be related to specific persons. It is not enough to remove names and addresses from the entry. It may also be possible to draw conclusions about authors and data subjects from the context. This risk is particularly high for AI systems, which are designed to create cross-references from unstructured data.
- The person entering the data should also not be identifiable.
- The following methods can be used to anonymize data records/queries:
- Masking/replacement
- Aggregation/cohort formation
- Privacy Enhancing Technologies (PET)
- Differential privacy methods
- Cryptographic methods (e.g. homomorphic encryption)
- No output of personal data
Make sure that the output results do not contain any personal data. Even if the input command does not name a person, the AI system may include previous input or information from the Internet. Inputs should therefore be limited to cases that do not relate to individuals.
Example of an unproblematic input: "Design a presentation on topic X."
Example of a problematic input: "Which persons are suitable as test subjects for project X." - Data minimization during service selection, registration and use
- Some AI systems require prior registration. Only enter a fantasy name and your business (mobile) number, if available. Please also use the functional e-mail address that has been assigned to all members and associates of TU Dresden and which does not allow any conclusions to be drawn about your name. You will find this after logging in to the Self-Service Portal under "Additional e-mail aliases" usually in the form "user.[random character string]@tu-dresden.de".
- The services should only be used via the TU Dresden network. Off-campus, you can use the VPN access to the university network.
- Employees or students can use AI systems at their own discretion, as long as this freedom is guaranteed without any pressure. In any case, subordinates or students should not be pressured into using AI services. In the context of a course, use should therefore only be made via the teacher's account.
- As far as possible, use AI services that you can install locally on TU Dresden computers (e.g. GPT4ALL, OpenAI Whisper) and/or that work without registration.
- Opt-out of the AI training
The manufacturers of AI systems often use all the inputs made for further training of their AI. Private individuals and employees of other companies can then also obtain this content. Therefore, if available, use the option to reject the use of your data for training purposes. In some cases, a specific contract model must be booked for this, which differs from the free standard application.
Example: With ChatGPT, for example, the opt-out is currently possible via the settings under --- → Setting → Data Controls → Chat history and training - Opt-out of the history
In order to be able to resume the dialog with a chat-based AI service on a topic at a later point in time, chat-based services often offer to save previous entries. This inevitably means that a person's entries are linked. The storage of the usage history should be prevented, especially if the chat is shared by several employees, as content can otherwise be viewed by all colleagues. For the settings, for example for ChatGPT, see point 4. - Check results for accuracy
The results of a chatbot request should be treated with caution. Large Language Models (LLM) generate texts that come close to the desired result with mathematical probability. This does not mean that all the information provided is correct. On the contrary: the known LLMs usually take into account comparatively old information. They are also known for the phenomenon of "hallucination", in which the AI system invents statements that appear to be correct and logical but are actually incorrect. It is your responsibility to check the accuracy of the result. - Check results for discrimination
Results can also be inappropriate regardless of their factual accuracy, for example in case of discrimination. Data processing based on these results may therefore be inadmissible, for example because it violates the General Equal Treatment Act or there is no legal basis under data protection law. Here, too, you as the user are responsible for checking whether the answers are acceptable for further use within the legal framework.
Example: Information can be discriminatory even without a direct personal reference. An AI could give the following recommendation without naming names: "Male spectacle wearers should be preferred for the vacancy." Such a result could be based on an inadmissible evaluation of health and gender data. - No automated final decision
Decisions with legal effect (in particular examination results) should only be made by humans. Otherwise, the requirements of Art. 22 GDPR must be observed. If an AI system develops proposals that are accepted by employees, they must ensure that they have an actual scope for decision-making. Avoid being de facto bound by the proposals due to the lack of transparency of the AI-supported preparatory work because you cannot understand the decision-making process. Insufficient resources and time pressure are no excuse for a lack of review and fact checking. - Observe further legal requirements
Regardless of any personal reference, avoid entering potential business or trade secrets of the TUD as well as copyright-protected works (e.g. theses). - Follow further developments
The regulation of artificial intelligence is currently being prepared at EU level. The future AI regulation is expected to affect not only the providers of such services, but also certain users. Due to advancing technical solutions and ongoing updates to new systems and language models, TUD will regularly review whether the internal requirements need to be adapted. Therefore, please also inform yourself regularly about new TUD recommendations.
Data protection-compliant use of AI via the Academic Cloud
The Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) provides a Large Language Model (LLM) service for academia free of charge. This service makes it possible to use locally operated LLMs in a data protection-friendly and secure manner. Access for use is via ZIH login via the Academic Cloud. Unfortunately, it is currently not possible for TU Dresden users to obtain other commercial licenses (e.g. GPT-4) via Academic Cloud. The Academic Cloud only offers open source models at the moment. Access Academic Cloud
Examination law
AI-supported text generation tools, e.g. ChatGPT (Open AI) as a permissible aid
Teachers and examiners can decide whether and to what extent AI-supported text generation tools such as ChatGPT are used. Tools can be used as permitted aids in examinations, which can be regulated in the assignment. Institute or faculty-wide regulations are also possible. The information on this must be made known to students and made transparent.
Mandatory marking in an academic context
Examination papers are to be completed independently, without outside help and only with the permitted aids. Directly and indirectly used sources must be acknowledged (also when using AI-generated texts). References, links or similar are not suitable due to the different answers to the same questions when using GenAI. For example, attachments for term papers in the form of adopted texts would be possible.
Deception
Unlabeled or unauthorized (= not approved) use of aids, including answers/results generated using AI-supported text generation tools such as ChatGPT, constitutes cheating under examination law. An act of cheating exists if it is a pretense of an independent and regular examination performance, although unauthorized or undisclosed aids were used.
Good scientific practice
The principles of good scientific practice also apply when using text-generating AI systems.
TU Dresden adheres to the DFG's guidelines for the use of generative models for text and image generation when using text-generating AI systems for scientific purposes.
In particular, it should be noted at this point that a review is necessary for every single result, as asnwers achieved with generative AI are not reproducible. In addition, many text-generating AI systems do not provide any sources for their answers and generated bibliographies can contain invented titles or publications (so-called “hallucinations” of the AI).
Any questions?
Click here for the competence centers and contact persons on the subject of AI at TU Dresden.