Datenschutzhinweis

 

Beim Laden dieses Inhalts werden Nutzungsinformationen an Vimeo übertragen und dort ggf. verarbeitet.

 

             

Google Gemini-Plugin

Geändert am Mi, 4 Mär um 12:59 NACHMITTAGS

8.5.0


Das Google Gemini-Plugin integriert Gemini als Prompt-Anbieter in formcycle. Google Gemini steht als eigener Anbietertyp zur Verfügung, nachdem das Gemini-Plugin installiert wurde.


Inhalt


Prompt-Verbindungen

Für allgemeine Informationen siehe den Hilfeartikel Prompt-Verbindungen. Im folgenden wird auf die Konfiguration eingegangen, die spezifisch für Google Gemini ist.



Konfiguration einer Prompt-Verbindung des Anbietertyps "Google Gemini". Mit dem speziellen Plugin für Gemini können erweiterte Funktionalitäten genutzt werden, die von der Gemini-Schnittstelle bereitgestellt werden.


Google Gemini bietet 2 Produkte an: die Gemini Developer API und die Vertex AI Gemini API.


Die Gemini Developer API ist die schnellste Möglichkeit. Diese sollte verwendet werden, es sei denn, es sind spezielle Unternehmenssteuerungen erforderlich.

  • einfache Anbindung
  • Authentifizierung ausschließlich über einen API-Schlüssel
  • keine Google-Cloud-Projektkonfiguration notwendig


Vertex AI bietet weitergehende Möglichkeiten und Funktionen an, ist aber etwas schwieriger einzurichten.

  • Zugriff erfolgt nicht mit einfachem API-Schlüssel
  • eine Datei mit den Zugangsdaten wird benötigt
  • weitere Punkte wie Projekt-ID und Standort/Region werden verlangt


Die Vertex-AI kann auch im Expressmodus genutzt werden. Dieser ist einfacher einzurichten und erfordert nur einen API-Schlüssel, unterstützt aber weniger Funktionalitäten.

  • weniger Konfigurationsaufwand als die vollständige Vertex-AI-Variante (Authentifizierung über API-Schlüssel)
  • weiterhin Nutzung über Google Cloud
  • schneller Einstieg in produktive Umgebung


Konfigurationsfelder


API-Typ
Auswahl des API-Typs, über den Gemini angebunden werden soll.
URL
Basis-URL zum Zugriff auf die API. Vertex AI Gemini API und Vertex AI Gemini API (Expressmodus) nutzen die gleiche URL, nur die Gemini Developer API besitzt eine gesonderte URL.
API-Version
Die API-Version bestimmt, welche Features und Funktionen zur Verfügung gestellt werden und wie stabil diese sind.
v1 = stabil
v1beta = Early-Access (neue Features frühzeitig testen, können sich aber noch ändern)
v1alpha = experimentell (sehr instabil und nur für Tests gedacht)
Modell
Auswahl eines verfügbaren Gemini-Modells.


Prompt-Abfragen

Für allgemeine Informationen siehe den Hilfeartikel Prompt-Abfragen. Im folgenden wird auf die Konfiguration eingegangen, die spezifisch für Google Gemini ist.


Aufgaben bei Gemini

Bei der Verwendung des Gemini-Plugins stehen verschiedene Aufgaben zur Auswahl. Die gewählte Aufgabe bestimmt, welche Eingaben möglich sind und in welchem Format das Ergebnis zurückgegeben wird. Je nach Aufgabe unterscheiden sich die verfügbaren Konfigurationsbereiche.



Bildunterschrift


Im Folgenden werden die einzelnen Aufgaben separat beschrieben.


Aufgabe: Textantwort generieren

Die Aufgabe ''Textantwort generieren'' erzeugt eine freie Antwort in natürlicher Sprache. Sie eignet sich für alle Anwendungsfälle, bei denen ein lesbarer Text ausgegeben werden soll, z.B. Erklärungen, Zusammenfassungen oder Formulierungshilfen.


Prompt

Im Bereich Prompt wird definiert, welche Eingabe die KI erhält und wie die Antwort generiert werden soll. Bei dem OpenAI-Plugin steht eine Websuche zur Verfügung. Das Modell kann daher auf aktuelle Internetinhalte zugreifen.


Dateien

Optional können Dateien in die Prompt-Abfrage eingebunden werden, um zusätzliche Informationen bereitzustellen.


Detaillierte Informationen zur Konfiguration der Bereiche Prompt und Dateien findet man im Hilfeartikel Prompt-Abfragen.


Feinjustierung

In diesem Bereich können optionale Einstellungen angepasst werden, um das Antwortverhalten des Modells gezielt zu steuern. Für die meisten Anwendungsfälle können die Standardwerte beibehalten werden.



Optionale Parameter zur Anpassung des Antwortverhaltens


Sampling-Temperatur
Beeinflusst, wie kreativ oder zurückhaltend Antworten formuliert werden. Niedrige Werte führen zu sachlicheren und stabileren Ergebnissen, höhere Werte zu abwechslungsreicheren und freieren Formulierungen.
Seed
Legt einen festen Startwert für die Generierung fest. Mit demselben Wert kann bei identischer Anfrage ein vergleichbares Ergebnis erzeugt werden. Wird kein Wert gesetzt, erfolgt die Generierung zufällig.
Max. zu generierende Tokens
Bestimmt die maximale Länge der Antwort. Sobald die definierte Grenze erreicht ist, wird die Ausgabe beendet.
Kumulative Wahrscheinlichkeitsschwelle (top-p)
Steuert, wie breit das Modell bei der Wortauswahl mögliche Alternativen berücksichtigt. Niedrige Werte führen zu stärker fokussierten Antworten, höhere Werte ermöglichen mehr sprachliche Vielfalt.
Kandidaten-Token-Limit (top-k)
Begrenzt die Anzahl der wahrscheinlichsten Wortoptionen, aus denen das Modell jeweils auswählt. Kleinere Werte machen die Ausgabe kontrollierter, größere Werte lassen mehr Variation zu.
Präsenzstrafe
Reduziert die Wahrscheinlichkeit, dass bereits verwendete Begriffe erneut aufgegriffen werden. Höhere Werte fördern neue Inhalte oder Themen im Verlauf der Antwort.
Frequenzstrafe
Verringert die Wiederholung einzelner Wörter oder Formulierungen. Dies kann helfen, redundante oder sich wiederholende Texte zu vermeiden.


Aufgabe: JSON-Antwort generieren

Die Aufgabe ''JSON-Antwort generieren'' erzeugt eine strukturierte Antwort im JSON-Format. Sie eignet sich für Anwendungsfälle, bei denen die Antwort maschinenlesbar sein und weiterverarbeitet werden soll.


Alle weiteren Bereiche wie Prompt, Dateien und Feinjustierung stehen auch bei dieser Aufgabe zur Verfügung und entsprechen in Aufbau und Funktion der Aufgabe ''Textantwort generieren''.


Google Gemini unterstützt nur einen Teil des JSON-Schema-Standards. Das System versucht, das Schema automatisch soweit möglich anzupassen, sodass diese Einschränkungen erfüllt sind. Im Normalfall muss daher nicht darauf geachtet werden. Siehe die Dokumentation der Gemini API für Details bezüglich der Unterstützung von JSON-Schema.


JSON-Schema

Der Abschnitt JSON-Schema ist zusätzlich verfügbar, wenn die Aufgabe ''JSON-Antwort generieren'' ausgewählt wurde. Hier wird definiert, in welcher Struktur das Modell seine Antwort zurückgeben soll.


Die verschiedenen Möglichkeiten zur Definition und Konfiguration des JSON-Schemas werden im Hilfeartikel Prompt-Abfragen ausführlich beschrieben.

Aufgabe: Sprache synthetisieren

Mit dieser Aufgabe wird eingegebener Text automatisch in gesprochene Sprache umgewandelt. Es wird eine Audiodatei erzeugt, die den Text in natürlicher Stimme wiedergibt.



Einstellung zur Umwandlung von Text in eine Audiodatei


Im Bereich ''Eingabe zur Sprachsynthese'' wird festgelegt, welcher Text gesprochen werden soll. Optional kann eine zusätzliche Anweisung hinterlegt werden, um Stil, Tonfall oder Sprechweise zu beeinflussen.


Über die Auswahlfelder wird bestimmt,

  • in welcher Sprache die Ausgabe erfolgen soll,
  • und welche Stimme verwendet wird.

Das Ergebnis ist eine Audiodatei, die den eingegebenen Text in der gewählten Stimme wiedergibt.


Aufgabe: Sprache transkribieren

Diese Aufgabe wandelt gesprochene Sprache aus einer Audiodatei automatisch in geschriebenen Text um. Die KI analysiert den Audioinhalt und erstellt daraus ein Transkript, das je nach gewähltem Format unterschiedlich strukturiert ausgegeben wird.



Konfiguration der Transkription einer Audiodatei


Transkriptionsformat
Hier wird festgelegt, in welcher Form das Ergebnis bereitgestellt wird.
  • Text erzeugt einen zusammenhängenden, unformatierten Fließtext.
  • Segmentiert gibt das Transkript in einzelnen Abschnitten mit zusätzlichen Informationen wie Zeitangaben oder Sprecherzuordnung aus.
Die Wahl des Formats beeinflusst, wie detailliert und weiterverarbeitbar das Ergebnis ist.


Sprache (Eingabe)
Die Sprache der Audiodatei kann automatisch erkannt oder manuell festgelegt werden. Eine explizite Auswahl kann die Genauigkeit verbessern, insbesondere bei kurzen Aufnahmen oder klar definierter Sprache.


Anfrage
Optional kann zusätzlicher Kontext zum Audioinhalt angegeben werden. Das kann helfen, Fachbegriffe, Namen oder thematische Zusammenhänge korrekt zu erkennen.


Aufgabe: Bild skalieren

Mit dieser Aufgabe wird ein vorhandenes Bild in eine andere Größe umgerechnet. Dabei bleibt der Bildinhalt erhalten, die Auflösung wird jedoch erhöht oder verringert. Das ist sinnvoll, wenn ein Bild für Druck, Web oder andere Ausgabeformate angepasst werden soll.



Einstellungen zur Skalierung eines vorhandenen Bildes


Skalierungsfaktor
Legt fest, um welchen Faktor das Bild vergrößert oder verkleinert wird. Ein höherer Wert erhöht die Auflösung entsprechend, ein niedrigerer reduziert sie.
Bildformat
Bestimmt das Format der ausgegebenen Datei. Je nach Verwendungszweck kann hier ein geeignetes Format gewählt werden.
Generierung von Personen
Steuert, ob und in welcher Form Personen im Bild berücksichtigt werden dürfen. Es kann festgelegt werden, ob Personen allgemein erlaubt sind, nur Erwachsene dargestellt werden dürfen oder Personen vollständig ausgeschlossen werden.
Bildbewahrungsfaktor
Beeinflusst, wie stark das ursprüngliche Bild in seiner Struktur und Detailtreue erhalten bleibt. Höhere Werte führen zu einer stärkeren Orientierung am Original.
Eingabebild verbessern
Optional kann das Bild zusätzlich optimiert werden, z.B. durch leichte Qualitätsverbesserungen oder Detailanpassungen im Zuge der Skalierung.

Aufgabe: Bild generieren

Diese Aufgabe erstellt auf Basis einer textlichen Beschreibung ein neues Bild. Entscheidend für das Ergebnis ist, wie präzise Motiv, Stil, Perspektive oder Stimmung im Eingabefeld beschrieben werden. Je genauer die Formulierung, desto gezielter entspricht das Bild der Erwartung.



Einstellungen zur Erstellung eines Bildes auf Basis einer textlichen Beschreibung


Anfrage
Hier wird beschrieben, was auf dem Bild zu sehen sein soll. Neben dem Motiv können auch Details wie Umgebung, Licht, Farben, Kameraperspektive oder Bildstil angegeben werden.
Zu generierende Anzahl
Legt fest, wie viele Bildvarianten gleichzeitig erstellt werden. Mehrere Varianten eignen sich, um unterschiedliche Interpretationen einer Beschreibung zu vergleichen.
Bildformat
Bestimmt das Dateiformat der erzeugten Bilder. Die Auswahl kann je nach Einsatzzweck erfolgen.
Seitenverhältnis
Definiert das Verhältnis von Breite zu Höhe. Dies beeinflusst die Bildkomposition und den verfügbaren Raum für das Motiv.
Bildgröße
Legt die Auflösung des erzeugten Bildes fest. Höhere Werte liefern detailreichere Ergebnisse.
Generierung von Personen
Steuert, ob Personen im Bild enthalten sein dürfen und ob Einschränkungen gelten, etwa nur Erwachsene oder keine Personen.


War dieser Artikel hilfreich?

Das ist großartig!

Vielen Dank für das Feedback

Leider konnten wir nicht helfen

Vielen Dank für das Feedback

Wie können wir diesen Artikel verbessern?

Wählen Sie wenigstens einen der Gründe aus
CAPTCHA-Verifikation ist erforderlich.

Feedback gesendet

Wir wissen Ihre Bemühungen zu schätzen und werden versuchen, den Artikel zu korrigieren