Plaud Note Pro
Allgemeines
Das Plaud Note Pro ist ein kreditkartengroßes KI-Diktiergerät, das Gespräche aufzeichnet, transkribiert und automatisch zusammenfasst – entwickelt von Plaud Inc., einem 2021 gegründeten Startup, das zwar in Delaware eingetragen ist, seinen operativen Hauptsitz aber in San Francisco hat.
Inhaltsverzeichnis
Technische Daten
- unterstützte Betriebssysteme: iOS, Android
- Mikrofone: 4 MEMS, 1 VPU
- Aufnahmereichweite: 5m im Leistungsmodus, etwas weniger im Energiesparmodus
- Speicher: 64 GB
- Batterielaufzeit laut Hersteller: 30h im Leistungsmodus, 55,5h im Energiesparmodus
- Maße: 85,6 x 54,1 x 2,99 mm (H x B x T)
- Gewicht: 30g
© VCC
© VCC
© VCC
Lieferumfang
- Plaud Note Pro
- Lederhülle
- Proprietäres Ladekabel
- Magnetring zum Befestigen an Smartphones mit MagSafe
Installation
Nachdem das Gerät vollständig aufgeladen wurde, verbindet man es per Bluetooth mit einem Android-Smartphone. Es erfordert erwartungsgemäß ein Konto bei Plaud, kann also nicht als "dummes" Diktiergerät verwendet werden.
Für die Benutzung des Geräts ist zwingend ein mobiles Endgerät mit entweder iOS oder Android notwendig. Es ist nicht möglich, einen Bluetooth-fähigen Laptop zum Koppeln zu verwenden, da es keine App für Windows oder Mac (ganz zu sgchweigen von Linux) gibt. Seit neuestem gibt es zwar eine Plaud Desktop App für Windows und Mac, diese funktioniert aber ohne das Plaud Note Pro und kann auch nicht damit gekoppelt werden. Das muss sie aber auch nicht, weil in diesem Fall einfach die vorhandene/angeschlossenen Mikrofone des Rechners verwendet werden.
Nach dem Firmwareupgrade auf Version 1.5 ist die Installation damit abgeschlossen.
Private Cloud & Plaud Web
Gleich zu Beginn der Benutzung wird man gefragt, ob man denn die "Private Cloud" benutzen möchte, da von ihr einige Funktionen abhängen. Die Bezeichnung "Private Cloud" ist hierbei aber etwas ungeschickt gewählt: Damit meint Plaud nicht eine tatsächlich private, bei einem selbst gehostete oder zumindest selbstgewählte Cloud (also ein von überall erreichbarer Datenspeicher jeglicher Form), sondern ein entfernter Datenspeicher gehostet bei Plaud selbst, auf den man als Einziger Zugriff hat. Sozusagen eine private Cloud bei Plaud.
Entscheidet man sich gegen die Private Cloud bei Plaud, bleibt einem die Synchronisierung zu Plaud Web verwehrt. Plaud Web ist die Weboberfläche, welche im Grunde die gleichen Funktionalitäten der Smartphone-App bereitstellt, nur eben in einem Browser und synchronisiert. Man könnte also ohne die Private Cloud alles lokal auf dem Smartphone (oder in der wirklich privaten Cloud) speichern und von dort aus alles handlen, das führt aber in der Essenz zu "mehr unnötigen Klicks".
Die Wahl Private Cloud ja/nein hat übrigens keinen Einfluss darauf, ob Daten zu einem LLM-Anbieter fließen oder nicht. Das passiert immer. Mehr dazu im Datenschutzabschnitt.
Kosten
Das Gerät selbst kostet UVP 190€. Ohne einen weiteren Cent zu zahlen, hat man damit Zugriff auf 300 Minuten Aufnahme + Transkription, ergo fünf Stunden pro Monat. Das kann ausreichend sein, ist aber in Abhängigkeit von den Gewohnheiten und Meetings oder Telefonate knapp bemessen.
Möchte man mehr Zeit zur Verfügung haben, so bietet Plaud ein Abomodell an, welches im Grunde zwei Optionen bietet: Für 111€ jährlich erhält man 1200 Min/Monat (also 20 Stunden) und für 225€ jährlich dann unbegrenzt viele Minuten pro Monat.
Test
Das Gerät selbst verfügt über einen Knopf rechts neben dem kleinen OLED Display. Dieser kann zum Starten einer Aufnahme (gedrückt halten, bis es 1x vibriert), zum Markieren eines besonders wichtigen Ereignisses (einmal drücken) und zum Beenden einer Aufnahme (erneut gedrückt halten, bis es 2x vibriert) verwendet werden. Mehr Interaktionsmöglichkeiten bietet das Gerät nicht.
Das Display zeigt Batteriestand in Prozent, Energiemodus in Form von Farbe des Batterieicons und eine Art "Aufnahmezustand" an. Farbige senkrechte Striche bedeuten "nicht-aufnehmend" und graue senkrechte Striche bedeuten "aktuell aufnehmend".
Nach Beendigung einer Aufnahme muss die aufgenommene Audiodatei vom Gerät zum gekoppelten Smartphone übertragen werden. Die Übertragung der Audiodateien kann entweder über Bluetooth (langsam aber bequem, da sowieso permanent gekoppelt) oder über Wi-Fi passieren. Im Falle von letzterem spannt das Gerät für die Dauer der Übertragung einen Hotspot auf, zu dem sich das Smartphone verbindet und dann die Daten überträgt. Somit wird kurz die Konnektivität zum Internet gekappt, um sich mit dem Plaud Note Pro zu verbinden.
Es gibt zwei Aufnahmemodi: Umgebungsaufnahme und Anrufaufzeichnung. Umgebungsaufnahme ist für Meetings und persönliche Diktieraufgaben gedacht. Bei der Anrufaufzeichnung soll das Gerät an die Rückseite des Smartphones per Magnethalterung geheftet werden und bei einer Anruflautstärke von 60-80% beide Parteien klar aufzeichnen können. Anrufe über Kopfhörer können (nachvollziehbarerweise) nicht aufgenommen werden. In den Einstellungen kann festgelegt werden, ob der Modus automatisch (gemessen an Orientierung) gewechselt oder manuell eingestellt werden soll.
Das aufgenommene Audio wird transkribiert und bei der Transkription hat man die Wahl, welches KI-Modell für die Zusammenfassung verwendet werden soll.
In unseren Tests hat die automatische Auswahl immer sehr gut funktioniert. Es ist allerdings positiv zu beurteilen, dass man die Option hat ein bestimmtes LLM auszuwählen.
Es gibt auch noch die Möglichkeit komplett "externe" Audiodateien mit Sprache von Plaud transkribieren und zusammenfassen zu lassen. Somit könnte man sich den Anschaffungspreis des Plaud Note Pro sparen. Unterstützt werden die folgenden Formate: .ogg .wav .opus .m4a
Nicht unterstützt werden: .flac mp3
Merkwürdig ist, dass .mp3-Dateien beim Import nicht unterstützt werden, ein Download auf der Plaud-Web-Plattform aber eine .mp3-Datei ausspuckt, die vorher eigentlich eine .m4a-Datei war...
Vorlagen & Community
Um bessere bzw. verwendbarere Zusammenfassungen zu erhalten, kann man Templates (also Schablonen) erstellen, die dem zugrunde liegenden LLM Anweisungen geben, wie genau das Transkript aufbereitet werden soll. Nachdem man eine Audiodatei hochgeladen und transkribiert hat, wählt man ggf. eines dieser Templates aus und erhält dann entsprechend dieser Anweisungen die fertige Zusammenfassung.
Plaud selbst bietet eine Art Forum an, in der Vorlagen aus der Community stammend veröffentlicht werden, um so die unterschiedlichsten Anwendungsfälle abzudecken. Sozusagen ein community-getriebenes Bestreben, eigens erstellte Vorlagen im Sinne der Gemeinschaft zugänglich zu machen.
Rechts ist ein Beispiel für ein Template zur Aufnahme von Universitätsvorlesungen von einem italienischen Herrn.
Autoflow
Ferner bietet die App die Möglichkeit an, Regeln zu kreieren, welche auf Aufnahmen angewendet werden können. Das kann beispielsweise durch Schlüsselworte geschehen:
"Wenn in den ersten 60 Sekunden das Wort "Meeting" fällt, dann benutze das Meeting-Template, um die Zusammenfassung zu erstellen"
Damit lassen sich komfortabel diverse Vorlagen verknüpfen und automatisch auswählen.
Erfahrungen
Die Installation verlief bei uns problemlos, allerdings mussten wir das Gerät einmal in den Werkszustand zurück versetzen, weil sich irgendetwas mit der Ladezustandsanzeige festgesetzt hatte. Das Note Pro dachte, es hätte 0% Batterie, wenngleich es davor eine Stunde am Ladegerät hing.
Nach dem Factory Reset arbeitete es normal und hielt in puncto Batterielaufzeit recht genau das, was der Hersteller verspricht.
In unseren Tests war sowohl die Aufnahme, die Transkription als auch die Zusammenfassung sehr positiv zu bewerten. Die Aufnahmereichweite von angegebenen 5 Metern können wir bestätigen. Bei dieser Reichweite ist die Aufnahme noch sehr gut verständlich, was offen gesagt beeindruckend für so kleine Mikrofone ist.
Community-Test
Im Community-Test haben sich interessierte Nutzer zusammengefunden um ihre Fragen und Anregungen bezüglich dem Produkt beizusteuern. In einem ca. einstündigem Meeting wurde das Gerät vorgestellt und unsere Erfahrungen damit geteilt. Die Zusammenfassung des Community-Tests ist rechts im Bild zu sehen. Es wurde aus dem Standardtemplate heraus erstellt, und der Autor dieses Berichts hat keinen Einfluss auf den Inhalt genommen. Zwei Dinge sind hierbei interessant: Das LLM hat selbst entschieden, dass die 5 Meter Aufnahmereichweite erreicht wurde. Das war zum Zeitpunkt der Aufnahme (auf der die Zusammenfassung ja beruht) noch nicht geklärt. Zum anderen ist der mittlere linke Kasten "Analyse & Diarisierung" sehr nichtssagend bzw. passt nicht zu dem Gesagten. In der Realität wurde darüber geredet dass die Sprechererkennung einen Mehrwert bietet (korrekt erkannt), aber der Bezug zum Plaud-Gerät ist nicht gegeben, da im Test selbst aufgefallen ist, dass alle Remote-Sprecher als eine Person gezählt werden. Wir haben den Hersteller um Stellungnahme bezüglich der Mechanik hinter der Sprechererkennung gebeten, die Antwort lautet sinngemäß, dass die Stimmfarbe das entscheidene Kriterium ist und nicht die Richtung aus welcher der Schall kommt. Das können wir prinzipiell bestätigen, in dem Test aus Abschnitt Aufnahme wird genauer darauf eingegangen, zu welchem Schluss wir gekommen sind.
Ferner war es der Community ein Anliegen zu prüfen, ob die Transkription genug Informationen liefert, sodass das dahinterarbeitende LLM erkennen kann ob der Sprecher gerade Ironie verwendet. Auch darauf wird im Aufnahme Abschnitt eingegangen.
Datenschutz
Die Firma wirbt mit ISO 27001, ISO 27701, DSGVO und EN 18031 Zertifizierung bzw. Konformität. Womit sie aber nicht wirbt, ist die genaue Aufschlüsselung, wo die Server stehen, mit welchen Servern kommuniziert wird. Durch die Auswahl von verschiedenen LLMs ist aber davon auszugehen, dass Daten zumindest einmal an den jeweiligen Anbieter des LLMs fließen. Es gibt keine Möglichkeit, eine privat gehostete LLM-Instanz oder generell eine andere als in der Liste verfügbare zu verwenden.
In der App kann man zumindest die Einwilligung der Wiederverwertung der eigens erzeugten Daten zu Trainingszwecken zurücknehmen bzw. verweigern.
Die Tatsache, dass man vor jedem Meeting das Einverständnis der teilnehmenden Personen für die Aufnahme und Verarbeitung der Daten einholen muss, ist natürlich richtig und notwendig. Gleichzeitig - so unser Eindruck - gibt es Ressentiments gegenüber der Tatsache, dass wenig Kontrolle über den Abfluss der Daten herrscht. Das führt nicht selten dazu, dass Personen ihr Einverständnis einer Aufnahme verweigern und man in letzter Konsequenz gezwungen ist, entweder die Person aus dem Meeting zu entfernen, oder wenn das nicht möglich ist, die Aufnahme zu unterlassen.
Aufnahmen
Um die Fragen der Community beantworten zu können, hat das VCC zwei Tests gemacht:
Sprechererkennung
Es gilt zu prüfen, ob Sprechererkennung per Stimmmuster oder per direktionale Aufnahme stattfindet.
Zu diesem Zweck wurden zwei Aufnahmen getätigt: Um herauszufinden, ob das Gerät (bzw. die Software dahinter) die Sprechererkennung über die Richtung des Schalls oder über die Stimme macht, wurde inmitten eines Meetings das Gerät um 180° gedreht. Das hätte zur Folge, dass die diametral sitzenden Sprecher ihre Beschriftung im Transkript tauschen würden, sofern eine direktionale Sprecherzuordnung verwendet werden würde.
Es stellt sich heraus, dass die Sprechererkennung tatsächlich über die Stimme funktioniert und nicht über die Richtung. Allerdings bedeutet das auch, dass das Gerät (oder die KI dahinter) Probleme damit hat, Remote-Teilnehmer korrekt zu identifizieren, weil diese über die Lautsprecher ausgegeben werden, was mit viel Informationsverlust einhergeht. Sowohl die App als auch die Weboberfläche bietet aber die Möglichkeit, die Sprecher im Nachgang zu bearbeiten und manuell zuzuweisen, sollte es zu falschen Zuweiseungen gekommen sein.
Ironie-Erkennung
Die zweite Aufnahme stellt sich der Frage, ob ein LLM in der Lage ist - rein auf Grundlage der Transkription - Ironie in Gesprochenem zu erkennen. Schliesslich fehlen hier viele wichtige Meta-Informationen wie Mimik, Gestik, Tonlage und auch Teile des Kontexts. Der Hintergrund der Frage ist nachvollziehbar: Ironie ist die überspitzte Verlautbarung von Sachverhalten, um das Gegenteil von dem auszudrücken, was in Wahrheit der Fall ist. Selbst wir als Menschen sind uns manchmal nicht sicher, ob jemand eine Aussage ironisch oder ernsthaft meint.
Um generell zu prüfen, ob ein LLM aus einem Transkript Ironie herauslesen kann, haben zwei Mitarbeiter des VCCs einen (fiktiven) Text eingesprochen:
© VCC
© VCC
Das lässt die Schlussfolgerung zu, dass LLMs sehr wohl dazu imstande sind, Ironie herauszuerkennen. Zugegebenermaßen ist der Text bis zum Anschlag gefüllt mit ironischen Bemerkungen, was wohl in den wenigsten Fällen ein realweltliches Szenario darstellen wird. Allerdings muss man auch sagen, dass ein wirklich objektiver Test in so einem Fall schwer möglich ist, da man sich nie sicher sein kann, ob eine ironische Bemerkung Opfer der "Zusammenfassungskompression" geworden ist oder ob das LLM schlichtweg nicht erkannt hat, dass die Bemerkung ironisch gemeint war.
Fazit
Das Plaud Note Pro ist in unseren Augen eine echte Bereicherung für den Büro- und Videokonferenzalltag. Die Aufnahmen sind sehr gut, die Transkription ebenso und die Zusammenfassungen über Plaud AI sind eigentlich immer sehr gut. Die Stärken des Geräts kommen dann zum Tragen, wenn man viele unterschiedliche Videokonferenzsysteme benutzt. Microsoft Teams besitzt das Feature, Meetings aufzuzeichnen und zu transkribieren inkl. Zusammenfassung, aber das gilt eben auch nur für Microsoft Teams. Das Plaud Note Pro ist hier VC-System-agnostisch und man hat alles an einem Ort, ohne händisch Aufnahmen von Plattform zu Plattform schieben zu müssen. Ein echter Mehrwert.
Kleinere Probleme, wie die schlechte Erkennung bei Sprechern aus der Ferne und die gelegentlich schlechte Sprecherzuweisung bei sehr dynamischen Sprecherwechseln, sind verschmerzbar und sicherlich durch Softwareupdates behebbar.
Disclaimer
Die Firma Plaud Inc. hat uns freundlicherweise ein Testgerät zugesendet. Eine Beeinflussung seitens des Herstellers in Bezug auf den Testbericht fand nicht statt.