8.5.0
Das Google Gemini-Plugin integriert Gemini als Prompt-Anbieter in formcycle. Google Gemini steht als eigener Anbietertyp zur Verfügung, nachdem das Gemini-Plugin installiert wurde.
Inhalt
Prompt-Verbindungen
Für allgemeine Informationen siehe den Hilfeartikel Prompt-Verbindungen. Im folgenden wird auf die Konfiguration eingegangen, die spezifisch für Google Gemini ist.
|
Google Gemini bietet 2 Produkte an: die Gemini Developer API und die Vertex AI Gemini API.
Die Gemini Developer API ist die schnellste Möglichkeit. Diese sollte verwendet werden, es sei denn, es sind spezielle Unternehmenssteuerungen erforderlich.
- einfache Anbindung
- Authentifizierung ausschließlich über einen API-Schlüssel
- keine Google-Cloud-Projektkonfiguration notwendig
Vertex AI bietet weitergehende Möglichkeiten und Funktionen an, ist aber etwas schwieriger einzurichten.
- Zugriff erfolgt nicht mit einfachem API-Schlüssel
- eine Datei mit den Zugangsdaten wird benötigt
- weitere Punkte wie Projekt-ID und Standort/Region werden verlangt
Die Vertex-AI kann auch im Expressmodus genutzt werden. Dieser ist einfacher einzurichten und erfordert nur einen API-Schlüssel, unterstützt aber weniger Funktionalitäten.
- weniger Konfigurationsaufwand als die vollständige Vertex-AI-Variante (Authentifizierung über API-Schlüssel)
- weiterhin Nutzung über Google Cloud
- schneller Einstieg in produktive Umgebung
Konfigurationsfelder
- API-Typ
- Auswahl des API-Typs, über den Gemini angebunden werden soll.
- URL
- Basis-URL zum Zugriff auf die API. Vertex AI Gemini API und Vertex AI Gemini API (Expressmodus) nutzen die gleiche URL, nur die Gemini Developer API besitzt eine gesonderte URL.
- API-Version
- Die API-Version bestimmt, welche Features und Funktionen zur Verfügung gestellt werden und wie stabil diese sind.
- v1 = stabil
- v1beta = Early-Access (neue Features frühzeitig testen, können sich aber noch ändern)
- v1alpha = experimentell (sehr instabil und nur für Tests gedacht)
- Modell
- Auswahl eines verfügbaren Gemini-Modells.
Prompt-Abfragen
Für allgemeine Informationen siehe den Hilfeartikel Prompt-Abfragen. Im folgenden wird auf die Konfiguration eingegangen, die spezifisch für Google Gemini ist.
Aufgaben bei Gemini
Bei der Verwendung des Gemini-Plugins stehen verschiedene Aufgaben zur Auswahl. Die gewählte Aufgabe bestimmt, welche Eingaben möglich sind und in welchem Format das Ergebnis zurückgegeben wird. Je nach Aufgabe unterscheiden sich die verfügbaren Konfigurationsbereiche.
|
Im Folgenden werden die einzelnen Aufgaben separat beschrieben.
Aufgabe: Textantwort generieren
Die Aufgabe ''Textantwort generieren'' erzeugt eine freie Antwort in natürlicher Sprache. Sie eignet sich für alle Anwendungsfälle, bei denen ein lesbarer Text ausgegeben werden soll, z.B. Erklärungen, Zusammenfassungen oder Formulierungshilfen.
Prompt
Im Bereich Prompt wird definiert, welche Eingabe die KI erhält und wie die Antwort generiert werden soll. Bei dem OpenAI-Plugin steht eine Websuche zur Verfügung. Das Modell kann daher auf aktuelle Internetinhalte zugreifen.
Dateien
Optional können Dateien in die Prompt-Abfrage eingebunden werden, um zusätzliche Informationen bereitzustellen.
Detaillierte Informationen zur Konfiguration der Bereiche Prompt und Dateien findet man im Hilfeartikel Prompt-Abfragen.
Feinjustierung
In diesem Bereich können optionale Einstellungen angepasst werden, um das Antwortverhalten des Modells gezielt zu steuern. Für die meisten Anwendungsfälle können die Standardwerte beibehalten werden.
|
- Sampling-Temperatur
- Beeinflusst, wie kreativ oder zurückhaltend Antworten formuliert werden. Niedrige Werte führen zu sachlicheren und stabileren Ergebnissen, höhere Werte zu abwechslungsreicheren und freieren Formulierungen.
- Seed
- Legt einen festen Startwert für die Generierung fest. Mit demselben Wert kann bei identischer Anfrage ein vergleichbares Ergebnis erzeugt werden. Wird kein Wert gesetzt, erfolgt die Generierung zufällig.
- Max. zu generierende Tokens
- Bestimmt die maximale Länge der Antwort. Sobald die definierte Grenze erreicht ist, wird die Ausgabe beendet.
- Kumulative Wahrscheinlichkeitsschwelle (top-p)
- Steuert, wie breit das Modell bei der Wortauswahl mögliche Alternativen berücksichtigt. Niedrige Werte führen zu stärker fokussierten Antworten, höhere Werte ermöglichen mehr sprachliche Vielfalt.
- Kandidaten-Token-Limit (top-k)
- Begrenzt die Anzahl der wahrscheinlichsten Wortoptionen, aus denen das Modell jeweils auswählt. Kleinere Werte machen die Ausgabe kontrollierter, größere Werte lassen mehr Variation zu.
- Präsenzstrafe
- Reduziert die Wahrscheinlichkeit, dass bereits verwendete Begriffe erneut aufgegriffen werden. Höhere Werte fördern neue Inhalte oder Themen im Verlauf der Antwort.
- Frequenzstrafe
- Verringert die Wiederholung einzelner Wörter oder Formulierungen. Dies kann helfen, redundante oder sich wiederholende Texte zu vermeiden.
Aufgabe: JSON-Antwort generieren
Die Aufgabe ''JSON-Antwort generieren'' erzeugt eine strukturierte Antwort im JSON-Format. Sie eignet sich für Anwendungsfälle, bei denen die Antwort maschinenlesbar sein und weiterverarbeitet werden soll.
Alle weiteren Bereiche wie Prompt, Dateien und Feinjustierung stehen auch bei dieser Aufgabe zur Verfügung und entsprechen in Aufbau und Funktion der Aufgabe ''Textantwort generieren''.
Google Gemini unterstützt nur einen Teil des JSON-Schema-Standards. Das System versucht, das Schema automatisch soweit möglich anzupassen, sodass diese Einschränkungen erfüllt sind. Im Normalfall muss daher nicht darauf geachtet werden. Siehe die Dokumentation der Gemini API für Details bezüglich der Unterstützung von JSON-Schema.
JSON-Schema
Der Abschnitt JSON-Schema ist zusätzlich verfügbar, wenn die Aufgabe ''JSON-Antwort generieren'' ausgewählt wurde. Hier wird definiert, in welcher Struktur das Modell seine Antwort zurückgeben soll.
Die verschiedenen Möglichkeiten zur Definition und Konfiguration des JSON-Schemas werden im Hilfeartikel Prompt-Abfragen ausführlich beschrieben.
Aufgabe: Sprache synthetisieren
Mit dieser Aufgabe wird eingegebener Text automatisch in gesprochene Sprache umgewandelt. Es wird eine Audiodatei erzeugt, die den Text in natürlicher Stimme wiedergibt.
|
Im Bereich ''Eingabe zur Sprachsynthese'' wird festgelegt, welcher Text gesprochen werden soll. Optional kann eine zusätzliche Anweisung hinterlegt werden, um Stil, Tonfall oder Sprechweise zu beeinflussen.
Über die Auswahlfelder wird bestimmt,
- in welcher Sprache die Ausgabe erfolgen soll,
- und welche Stimme verwendet wird.
Das Ergebnis ist eine Audiodatei, die den eingegebenen Text in der gewählten Stimme wiedergibt.
Aufgabe: Sprache transkribieren
Diese Aufgabe wandelt gesprochene Sprache aus einer Audiodatei automatisch in geschriebenen Text um. Die KI analysiert den Audioinhalt und erstellt daraus ein Transkript, das je nach gewähltem Format unterschiedlich strukturiert ausgegeben wird.
|
- Transkriptionsformat
- Hier wird festgelegt, in welcher Form das Ergebnis bereitgestellt wird.
- Text erzeugt einen zusammenhängenden, unformatierten Fließtext.
- Segmentiert gibt das Transkript in einzelnen Abschnitten mit zusätzlichen Informationen wie Zeitangaben oder Sprecherzuordnung aus.
- Die Wahl des Formats beeinflusst, wie detailliert und weiterverarbeitbar das Ergebnis ist.
- Sprache (Eingabe)
- Die Sprache der Audiodatei kann automatisch erkannt oder manuell festgelegt werden. Eine explizite Auswahl kann die Genauigkeit verbessern, insbesondere bei kurzen Aufnahmen oder klar definierter Sprache.
- Anfrage
- Optional kann zusätzlicher Kontext zum Audioinhalt angegeben werden. Das kann helfen, Fachbegriffe, Namen oder thematische Zusammenhänge korrekt zu erkennen.
Aufgabe: Bild skalieren
Mit dieser Aufgabe wird ein vorhandenes Bild in eine andere Größe umgerechnet. Dabei bleibt der Bildinhalt erhalten, die Auflösung wird jedoch erhöht oder verringert. Das ist sinnvoll, wenn ein Bild für Druck, Web oder andere Ausgabeformate angepasst werden soll.
|
- Skalierungsfaktor
- Legt fest, um welchen Faktor das Bild vergrößert oder verkleinert wird. Ein höherer Wert erhöht die Auflösung entsprechend, ein niedrigerer reduziert sie.
- Bildformat
- Bestimmt das Format der ausgegebenen Datei. Je nach Verwendungszweck kann hier ein geeignetes Format gewählt werden.
- Generierung von Personen
- Steuert, ob und in welcher Form Personen im Bild berücksichtigt werden dürfen. Es kann festgelegt werden, ob Personen allgemein erlaubt sind, nur Erwachsene dargestellt werden dürfen oder Personen vollständig ausgeschlossen werden.
- Bildbewahrungsfaktor
- Beeinflusst, wie stark das ursprüngliche Bild in seiner Struktur und Detailtreue erhalten bleibt. Höhere Werte führen zu einer stärkeren Orientierung am Original.
- Eingabebild verbessern
- Optional kann das Bild zusätzlich optimiert werden, z.B. durch leichte Qualitätsverbesserungen oder Detailanpassungen im Zuge der Skalierung.
Aufgabe: Bild generieren
Diese Aufgabe erstellt auf Basis einer textlichen Beschreibung ein neues Bild. Entscheidend für das Ergebnis ist, wie präzise Motiv, Stil, Perspektive oder Stimmung im Eingabefeld beschrieben werden. Je genauer die Formulierung, desto gezielter entspricht das Bild der Erwartung.
|
- Anfrage
- Hier wird beschrieben, was auf dem Bild zu sehen sein soll. Neben dem Motiv können auch Details wie Umgebung, Licht, Farben, Kameraperspektive oder Bildstil angegeben werden.
- Zu generierende Anzahl
- Legt fest, wie viele Bildvarianten gleichzeitig erstellt werden. Mehrere Varianten eignen sich, um unterschiedliche Interpretationen einer Beschreibung zu vergleichen.
- Bildformat
- Bestimmt das Dateiformat der erzeugten Bilder. Die Auswahl kann je nach Einsatzzweck erfolgen.
- Seitenverhältnis
- Definiert das Verhältnis von Breite zu Höhe. Dies beeinflusst die Bildkomposition und den verfügbaren Raum für das Motiv.
- Bildgröße
- Legt die Auflösung des erzeugten Bildes fest. Höhere Werte liefern detailreichere Ergebnisse.
- Generierung von Personen
- Steuert, ob Personen im Bild enthalten sein dürfen und ob Einschränkungen gelten, etwa nur Erwachsene oder keine Personen.
War dieser Artikel hilfreich?
Das ist großartig!
Vielen Dank für das Feedback
Leider konnten wir nicht helfen
Vielen Dank für das Feedback
Feedback gesendet
Wir wissen Ihre Bemühungen zu schätzen und werden versuchen, den Artikel zu korrigieren






