KI in der Praxis mit Google Gemini und NotebookLM

Während Gemini als gewöhnlicher KI-Assistent vermarktet wird und schnelle Ideen und Antworten liefert, ist NotebookLM das Werkzeug für komplexere Analysen und die Erstellung von generativen Inhalten. Die Audiozusammenfassung ist von der Gemini App in NotebookLM gewandert, die sogar wissenschaftlich anmutende Dokumente erstellen kann. Die Kernfunktion von NotebookLM ist die Recherche aus unzähligen Quellen, dazu zählen Notizen (namensgebend), YouTube-Videos, hochgeladene Inhalte und vieles mehr. All das kann mit entsprechenden Prompts in ein Zielformat ausgegeben werden, je nach Länge oder Format ist bis zur Videoerstellung einiges möglich. Das folgende Video hat mir NotebookLM so ausgeliefert, beim Podcast musste ich deutlich mehr Zeit investieren, Selbst einsprechen ginge vermutlich schneller. Wer es nicht sehen kann, die Bilder haben so rein gar nichts mit der eigentlichen Thematik zu tun.

Der merkst.de-Podcast Nummer 211

Beide Ergebnisse wurden aus denselben 39 Quellen erstellt, allesamt Historien von Herstellern, eigenen Artikeln und Podcast-Episoden von der SightCity. Herausgekommen sind in verschiedenen Versuchen Inhalte, die unterschiedlicher nicht hätten sein können. Nur zwei der Ergebnisse haben überhaupt trotz immer gleichem Prompting berücksichtigt, dass ein merkst.de-Podcast 211 entstehen soll und man bitte die Zuhörer alternativ zu mir begrüßen und entsprechend abmoderieren möge. Das Ende der Audiozusammenfassungen endet traditionell immer mit einer Frage, das mag wohl am Training der KI-Daten liegen und so musste ich auch hier nachschärfen. Nachdem ich dann auf die Schnelle mit Lyria 3 in der Gemini-App ein 30sekündiges Intro habe produzieren lassen, benötigte ich dann noch einen Moderationstext. Hier lautete die einzige Quelle folgendermaßen:

Dieser Text ist einfach nur vorzulesen:
„Das war ein mit Lyria 3 und Gemini von Google generiertes Intro. Wir möchten uns vorstellen: Wir sind NotebookLM und führen heute durch diese Show.“

Daraus entstand im Ergebnis zwar ein verwertbarer Prompt, allerdings mit dem unmissverständlichen Tenor, dass man als KI keine Aufgaben einer TTS übernehmen würde und der Zuhörer dafür sicher Verständnis haben wird, aber hört selbst:

Vielleicht waren es zu viele Quellen, ich hätte mehrere Notebooks zu den einzelnen Themenbereichen erstellen und anschließend zusammenführen sollen. Was ich nämlich nicht wusste ist, dass maximal nur 20minütige Audiozusammenfassungen generiert werden und das ist bei einer solchen Komplexität ohne Weglassen natürlich unmöglich. Wer also komplexe Themen beackern will, sollte sich zumindest bei Audio strategisch vorsortieren und nicht alle Quellen in die Zusammenfassung stecken. Das geht nämlich, man kann für jedes Ergebnis die einzelnen Quellen definieren und einen individuellen Fokus setzen. Das bedeutet natürlich immer neue Rechenpower und Energieverbrauch, vor Allem wenn das Ergebnis nicht den Erwartungen entspricht. Es ist quasi wie das Spielen eines Instruments, man lernt mit der Erfahrung und kommt so zu besseren Ergebnissen. Schön ist, dass selbst im Chatfenster aus den Quellen was entsteht, so dass man direkt sieht, welche Daten zu Grunde liegen. Das sind auch die drei Hauptbereiche, Quellen, Chat und Studio.

Was können Gemini und NotebookLM?

Datenanalyse und Resynthese könnte dies in zwei Worten beschreiben. Aber ich lasse auch hier mal Gemini arbeiten und dies mit der Anweisung: „Erstelle einen kurzen Artikelteext über die Funktionsweise von Gemini und NotebookLM für meine Homepage.“ Dabei verwende ich den „Thinking-Modus“ für längere und komplexere Aufgaben. Das Ergebnis füge ich hier als Markdown ein. Neu ist übrigens auch bei Copilot, dass die Gedankengänge mit angezeigt werden, man also stets über den Verarbeitungsprozess informiert wird.

KI im Fokus: Wie Gemini und NotebookLM eure Arbeit verändern
Die technologische Entwicklung im Bereich der Künstlichen Intelligenz hat mit Modellen wie Gemini und spezialisierten Anwendungen wie NotebookLM neue Maßstäbe gesetzt. Doch wie unterscheiden sie sich eigentlich in ihrer Arbeitsweise?
Gemini: Das universelle Multitalent
Gemini ist Googles modernstes Sprachmodell. Es ist multimodal konzipiert, was bedeutet, dass es nicht nur Text verarbeitet, sondern auch Bilder, Audio-Dateien und Videos versteht und generieren kann.
Funktionsweise: Gemini basiert auf einem riesigen neuronalen Netz. Es berechnet Wahrscheinlichkeiten für Wortfolgen und erkennt komplexe Zusammenhänge. So kann es Fragen beantworten, Programmcode schreiben oder kreative Texte verfassen.
Euer Vorteil: Es agiert als Generalist und greift auf ein breites Weltwissen zurück, um euch als digitaler Assistent im Alltag zu unterstützen.
NotebookLM: Euer privater Experte
NotebookLM nutzt zwar die Intelligenz von Gemini, verfolgt aber einen völlig anderen Ansatz: das sogenannte Source-Grounding.
Funktionsweise: Hier bestimmt ihr die Datenbasis. Ihr ladet eigene Dokumente, PDFs oder Webseiten-Links hoch. Die KI nutzt dann ausschließlich diese Quellen, um Fragen zu beantworten oder Zusammenfassungen zu erstellen.
Euer Vorteil: Da die Antworten direkt auf euren Dokumenten basieren, werden falsche Fakten minimiert. NotebookLM fügt zudem stets Quellenbelege an, damit ihr genau prüfen könnt, aus welchem Absatz die Information stammt. Es ist damit das ideale Werkzeug für die Recherche oder die Analyse komplexer Themengebiete.

Fazit

Zusammenfassend begeistern mich die Ergebnisse schon, zumal ich NotebookLM tatsächlich häufig für komplexe Themen nutze. Allerdings dauern selbst lange Audiozusammenfassungen maximal nur 20 Minuten, selbst wenn man andere Anweisungen gibt. Für einen schnellen Querschnitt, Vergleichen von Quellen oder Anfangsrecherchen auf Basis einer faktischen Datenlage ist NotebookLM wirklich gut. Einzig im Web wirkt das Ganze optisch zwar ansprechend, für Screenreader allerdings etwas überladen. Im Vergleich mit ChatGPT für rund 22 Euro pro Monat kostet mich Gemini Advance, Pro oder wie Google es aktuell nennt inklusive AI-Funktionen für Fotos, 5 TB Cloud-Speicher und Möglichkeit zum Teilen mit sechs Familienmitgliedern rund 250 Euro pro Jahr, da kann man eigentlich nicht meckern.

Sei der Erste, der das kommentiert

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert