OpenAI stellt KI-Sicherheitskonzept vor

Von: APA/Reuters

Der ChatGPT-Hersteller OpenAI hat ein Sicherheitskonzept für seine fortschrittlichsten KI-Modelle vorgelegt. Im Fokus steht eine Bewertung des Risikos, das von einer Künstlichen Intelligenz (KI) in vier Kategorien ausgeht, wie aus dem am Montag veröffentlichten Dokument hervorgeht: Cybersicherheit; atomare, chemische, biologische oder radiologische Bedrohung; Überzeugungskraft sowie die Autonomie des Modells.

Jede Kategorie einer KI wird nach gewissen Kriterien eine von vier Risikostufen von “niedrig” bis “kritisch” zugeordnet. Als Beispiel eines kritischen Grades von Autonomie wird ein KI-Modell genannt, das allein KI-Forschung betreiben und damit “einen unkontrollierbaren Prozess der Selbstverbesserung” auslösen könne – eine sogenannte “Intelligenzexplosion”.

Die Einstufung soll dem Microsoft-Partner zufolge vor und nach der Umsetzung von Sicherheitsmaßnahmen – “mitigations” – erfolgen. Die Einstufung des Gesamtmodells entspricht dem höchsten Einzelwert in einer der Kategorien. OpenAI zufolge sollen nur solche KI-Modelle eingesetzt werden dürfen, deren Risiko nach dem Einbau der Sicherheitsmaßnahmen höchstens die zweihöchste Stufe “mittel” erreicht. Zudem dürften nur solche Modelle weiterentwickelt werden, bei denen kein als “kritisch” eingestuftes Risiko festgestellt worden ist. Teil des Sicherheitskonzepts sind verschiedene Gruppen zur Überwachung und Beratung. Das Board soll dabei Entscheidungen der Konzernführung kippen dürfen.

OpenAI hatte vor gut einem Jahr mit seiner KI-Chatbot-Software ChatGPT das Interesse der Öffentlichkeit auf die jüngsten Durchbrüche bei der generativen KI gelenkt. Forscher zeigen sich jedoch besorgt über potenzielle Gefahren der Technologie, die auf menschenähnliche Art etwa Texte schreiben, Daten auswerten und Bilder generieren kann. Umfragen zufolge wird diese Sorge in der Bevölkerung geteilt: Einer Reuters/Ipsos-Umfrage vom Mai zufolge glauben 61 Prozent der US-Bürger, dass KI die menschliche Zivilisation bedrohen könnte.