Google Gemini-Plugin

Geändert am Mi, 27 Mai um 12:18 NACHMITTAGS

8.5.0

Das Google Gemini-Plugin integriert Gemini als Prompt-Anbieter in formcycle. Google Gemini steht als eigener Anbietertyp zur Verfügung, nachdem das Gemini-Plugin installiert wurde.

Inhalt

Prompt-Verbindungen

Für allgemeine Informationen siehe den Hilfeartikel Prompt-Verbindungen. Im folgenden wird auf die Konfiguration eingegangen, die spezifisch für Google Gemini ist.

Konfiguration einer Prompt-Verbindung des Anbietertyps "Google Gemini". Mit dem speziellen Plugin für Gemini können erweiterte Funktionalitäten genutzt werden, die von der Gemini-Schnittstelle bereitgestellt werden.

Google Gemini bietet 2 Produkte an: die Gemini Developer API und die Vertex AI Gemini API.

Die Gemini Developer API ist die schnellste Möglichkeit. Diese sollte verwendet werden, es sei denn, es sind spezielle Unternehmenssteuerungen erforderlich.

einfache Anbindung
Authentifizierung ausschließlich über einen API-Schlüssel
keine Google-Cloud-Projektkonfiguration notwendig

Vertex AI bietet weitergehende Möglichkeiten und Funktionen an, ist aber etwas schwieriger einzurichten.

Zugriff erfolgt nicht mit einfachem API-Schlüssel
eine Datei mit den Zugangsdaten wird benötigt
weitere Punkte wie Projekt-ID und Standort/Region werden verlangt

Die Vertex-AI kann auch im Expressmodus genutzt werden. Dieser ist einfacher einzurichten und erfordert nur einen API-Schlüssel, unterstützt aber weniger Funktionalitäten.

weniger Konfigurationsaufwand als die vollständige Vertex-AI-Variante (Authentifizierung über API-Schlüssel)
weiterhin Nutzung über Google Cloud
schneller Einstieg in produktive Umgebung

Konfigurationsfelder

API-Typ: Auswahl des API-Typs, über den Gemini angebunden werden soll.
URL: Basis-URL zum Zugriff auf die API. Vertex AI Gemini API und Vertex AI Gemini API (Expressmodus) nutzen die gleiche URL, nur die Gemini Developer API besitzt eine gesonderte URL.
API-Version: Die API-Version bestimmt, welche Features und Funktionen zur Verfügung gestellt werden und wie stabil diese sind.; v1 = stabil; v1beta = Early-Access (neue Features frühzeitig testen, können sich aber noch ändern); v1alpha = experimentell (sehr instabil und nur für Tests gedacht)
Modell: Auswahl eines verfügbaren Gemini-Modells.

Prompt-Abfragen

Für allgemeine Informationen siehe den Hilfeartikel Prompt-Abfragen. Im folgenden wird auf die Konfiguration eingegangen, die spezifisch für Google Gemini ist.

Aufgaben bei Gemini

Bei der Verwendung des Gemini-Plugins stehen verschiedene Aufgaben zur Auswahl. Die gewählte Aufgabe bestimmt, welche Eingaben möglich sind und in welchem Format das Ergebnis zurückgegeben wird. Je nach Aufgabe unterscheiden sich die verfügbaren Konfigurationsbereiche.

Auswahl der verfügbaren Aufgaben im Google Gemini-Plugin

Im Folgenden werden die einzelnen Aufgaben separat beschrieben.

Aufgabe: Textantwort generieren

Die Aufgabe ''Textantwort generieren'' erzeugt eine freie Antwort in natürlicher Sprache. Sie eignet sich für alle Anwendungsfälle, bei denen ein lesbarer Text ausgegeben werden soll, z.B. Erklärungen, Zusammenfassungen oder Formulierungshilfen.

Prompt

Im Bereich Prompt wird definiert, welche Eingabe die KI erhält und wie die Antwort generiert werden soll. Bei dem Google Gemini-Plugin steht eine Websuche zur Verfügung. Das Modell kann daher auf aktuelle Internetinhalte zugreifen.

Dateien

Optional können Dateien in die Prompt-Abfrage eingebunden werden, um zusätzliche Informationen bereitzustellen.

Detaillierte Informationen zur Konfiguration der Bereiche Prompt und Dateien findet man im Hilfeartikel Prompt-Abfragen.

Feinjustierung

In diesem Bereich können optionale Einstellungen angepasst werden, um das Antwortverhalten des Modells gezielt zu steuern. Für die meisten Anwendungsfälle können die Standardwerte beibehalten werden.

Optionale Parameter zur Anpassung des Antwortverhaltens

Sampling-Temperatur: Beeinflusst, wie kreativ oder zurückhaltend Antworten formuliert werden. Niedrige Werte führen zu sachlicheren und stabileren Ergebnissen, höhere Werte zu abwechslungsreicheren und freieren Formulierungen.
Seed: Legt einen festen Startwert für die Generierung fest. Mit demselben Wert kann bei identischer Anfrage ein vergleichbares Ergebnis erzeugt werden. Wird kein Wert gesetzt, erfolgt die Generierung zufällig.
Max. zu generierende Tokens: Bestimmt die maximale Länge der Antwort. Sobald die definierte Grenze erreicht ist, wird die Ausgabe beendet.
Kumulative Wahrscheinlichkeitsschwelle (top-p): Steuert, wie breit das Modell bei der Wortauswahl mögliche Alternativen berücksichtigt. Niedrige Werte führen zu stärker fokussierten Antworten, höhere Werte ermöglichen mehr sprachliche Vielfalt.
Kandidaten-Token-Limit (top-k): Begrenzt die Anzahl der wahrscheinlichsten Wortoptionen, aus denen das Modell jeweils auswählt. Kleinere Werte machen die Ausgabe kontrollierter, größere Werte lassen mehr Variation zu.
Präsenzstrafe: Reduziert die Wahrscheinlichkeit, dass bereits verwendete Begriffe erneut aufgegriffen werden. Höhere Werte fördern neue Inhalte oder Themen im Verlauf der Antwort.
Frequenzstrafe: Verringert die Wiederholung einzelner Wörter oder Formulierungen. Dies kann helfen, redundante oder sich wiederholende Texte zu vermeiden.

Aufgabe: Sprache synthetisieren

Mit dieser Aufgabe wird eingegebener Text automatisch in gesprochene Sprache umgewandelt. Es wird eine Audiodatei erzeugt, die den Text in natürlicher Stimme wiedergibt.

Einstellung zur Umwandlung von Text in eine Audiodatei

Im Bereich ''Eingabe zur Sprachsynthese'' wird festgelegt, welcher Text gesprochen werden soll. Optional kann eine zusätzliche Anweisung hinterlegt werden, um Stil, Tonfall oder Sprechweise zu beeinflussen.

Über die Auswahlfelder wird bestimmt,

in welcher Sprache die Ausgabe erfolgen soll,
und welche Stimme verwendet wird.

Das Ergebnis ist eine Audiodatei, die den eingegebenen Text in der gewählten Stimme wiedergibt.

Aufgabe: Sprache transkribieren

Diese Aufgabe wandelt gesprochene Sprache aus einer Audiodatei automatisch in geschriebenen Text um. Die KI analysiert den Audioinhalt und erstellt daraus ein Transkript, das je nach gewähltem Format unterschiedlich strukturiert ausgegeben wird.

Konfiguration der Transkription einer Audiodatei

Transkriptionsformat: Hier wird festgelegt, in welcher Form das Ergebnis bereitgestellt wird.; Die Wahl des Formats beeinflusst, wie detailliert und weiterverarbeitbar das Ergebnis ist.
Sprache (Eingabe): Die Sprache der Audiodatei kann automatisch erkannt oder manuell festgelegt werden. Eine explizite Auswahl kann die Genauigkeit verbessern, insbesondere bei kurzen Aufnahmen oder klar definierter Sprache.
Anfrage: Optional kann zusätzlicher Kontext zum Audioinhalt angegeben werden. Das kann helfen, Fachbegriffe, Namen oder thematische Zusammenhänge korrekt zu erkennen.

Aufgabe: Bild skalieren

Mit dieser Aufgabe wird ein vorhandenes Bild in eine andere Größe umgerechnet. Dabei bleibt der Bildinhalt erhalten, die Auflösung wird jedoch erhöht oder verringert. Das ist sinnvoll, wenn ein Bild für Druck, Web oder andere Ausgabeformate angepasst werden soll.

Einstellungen zur Skalierung eines vorhandenen Bildes

Skalierungsfaktor: Legt fest, um welchen Faktor das Bild vergrößert oder verkleinert wird. Ein höherer Wert erhöht die Auflösung entsprechend, ein niedrigerer reduziert sie.
Bildformat: Bestimmt das Format der ausgegebenen Datei. Je nach Verwendungszweck kann hier ein geeignetes Format gewählt werden.
Generierung von Personen: Steuert, ob und in welcher Form Personen im Bild berücksichtigt werden dürfen. Es kann festgelegt werden, ob Personen allgemein erlaubt sind, nur Erwachsene dargestellt werden dürfen oder Personen vollständig ausgeschlossen werden.
Bildbewahrungsfaktor: Beeinflusst, wie stark das ursprüngliche Bild in seiner Struktur und Detailtreue erhalten bleibt. Höhere Werte führen zu einer stärkeren Orientierung am Original.
Eingabebild verbessern: Optional kann das Bild zusätzlich optimiert werden, z.B. durch leichte Qualitätsverbesserungen oder Detailanpassungen im Zuge der Skalierung.

Aufgabe: Bild generieren

Diese Aufgabe erstellt auf Basis einer textlichen Beschreibung ein neues Bild. Entscheidend für das Ergebnis ist, wie präzise Motiv, Stil, Perspektive oder Stimmung im Eingabefeld beschrieben werden. Je genauer die Formulierung, desto gezielter entspricht das Bild der Erwartung.

Einstellungen zur Erstellung eines Bildes auf Basis einer textlichen Beschreibung

Anfrage: Hier wird beschrieben, was auf dem Bild zu sehen sein soll. Neben dem Motiv können auch Details wie Umgebung, Licht, Farben, Kameraperspektive oder Bildstil angegeben werden.
Zu generierende Anzahl: Legt fest, wie viele Bildvarianten gleichzeitig erstellt werden. Mehrere Varianten eignen sich, um unterschiedliche Interpretationen einer Beschreibung zu vergleichen.
Bildformat: Bestimmt das Dateiformat der erzeugten Bilder. Die Auswahl kann je nach Einsatzzweck erfolgen.
Seitenverhältnis: Definiert das Verhältnis von Breite zu Höhe. Dies beeinflusst die Bildkomposition und den verfügbaren Raum für das Motiv.
Bildgröße: Legt die Auflösung des erzeugten Bildes fest. Höhere Werte liefern detailreichere Ergebnisse.
Generierung von Personen: Steuert, ob Personen im Bild enthalten sein dürfen und ob Einschränkungen gelten, etwa nur Erwachsene oder keine Personen.

Datenschutzhinweis