TU Wien:Multimedia 2: Technologien VO (Breiteneder)/Prüfungsfragen ausgearbeitet

Aus VoWi
Zur Navigation springen Zur Suche springen

Beschreiben Sie kurz die General Interval Caching Policy. Worin unterscheidet sie sich vom Interval Caching?[Bearbeiten | Quelltext bearbeiten]

Interval Caching:[Bearbeiten | Quelltext bearbeiten]

  • Datenblöcke zwischen zwei aufeinander folgende Streams, Sij und Si(j+1) (preceding- und following-Stream), werden als Intervall bezeichnet.
  • Durch das Zwischenspeichern des aktuellen Intervalls, dienen die Blöcke aus dem preceding- Stream auch dem following-Stream.
  • Die Intervallgröße wird aus der Zeitdifferenz der Zugriffe beider Streams auf denselben Block geschätzt.
  • Für den Cache-Bedarf eines Intervalls benötigt man eine Menge an Blöcken.
  • Um den Zugriffsquotienten auf den Cache zu maximieren und die I/O zu minimieren, werden die Intervalle nach Größe geordnet und die kürzesten zwischengespeichert.
  • Geringe Implementationskosten, der Cache ändert sich nur durch Hinzufügen oder Entfernen von Streams.

General Interval Caching:[Bearbeiten | Quelltext bearbeiten]

  • IC eignet sich nicht besonders für kleine Medienobjekte, da diese keine Intervalle bilden können.
  • Die GIC-Methode integriert in sich nun stream-bewusstes Cache-Management sowie Zeitlagen.
  • Bei kleinen Objekten wird ein Zeitintervall zwischen den beiden aufeinander folgenden Zugangspunkten desselben Objekts erzeugt.
  • der Cache-Bedarf ist jedoch so groß wie das Objekt; in dem Fall kommt das gesamte Objekt in den Cache
  • Die Größe des letzten Intervalls wird als voraussichtliche Intervallgröße angenommen.

Was versteht man unter einer MPEG-7-Description?[Bearbeiten | Quelltext bearbeiten]

Eine Description besteht aus einem Description Scheme (Struktur) und einer Reihe von Description- Werten (Umschreibungen), die die Daten beschreiben. Eine Description beinhaltet oder zeigt auf ein vollständig oder teilweise umschriebenes Description Scheme

Nennen und erklären Sie kurz 3 Anforderungen an die MPEG-7 DDL.[Bearbeiten | Quelltext bearbeiten]

  • Compositional capabilites: Die DDL liefert die Fähigkeit neue ‘Description Scheme’n und ‘Descriptor’en zu bilden, wobei ‘Description Scheme’n auch aus mehreren ‘Description Scheme’n gebildet werden kann. Ein neu erstelltes ‘Description Scheme’ muss die Erstellung von MPEG-7-konformen ‘Description’en erlauben.
  • Transformational capabilites: Die DDL erlaubt das Wiederverwenden, Erweitern und Vererben von bestehenden ‚Descriptor’en und ‚Description Scheme’n
  • Unique identification: Die DDL bietet Mechanismen zur eindeutigen Identifizierung von ‚Description Scheme’n und ‚Descriptor’en, wodurch diese eindeutig bezeichnet werden können.
  • Data types: Die DDL bietet einen Satz von einfachen Datentypen, wie z.B. text, integer, real, data, time/time index, version, um zusammengesetzte Datentypen kurz und bündig zu beschreiben. Auch wenn diese vielleicht aus aufbereiteten Digitalsignalen (z.B. Histogramme, Grafen, RGB-Werte) hervorgehen. Weiters muss die DDL einen Mechnismus bieten, um ‚Descriptor’en Daten von mehreren Medientypen zuordnen zu können, die eine inhärente Struktur aufweisen (z.B. Audio, Video, Audio-visuelle Präsentationen etc.)

Nennen und erklären Sie kurz 3 Ziele von Caching.[Bearbeiten | Quelltext bearbeiten]

  • Erhöhung der Serverkapazität – Speichern aller oder zum Teil oft benutzter MM-Objekte im Serverspeicher
  • Reduzierung der Zugriffsverzögerung – Zugriffszeit verändert sich mit der Lage der Daten in der Speicherhierarchie; zB können Daten, die im Speicher liegen augenblicklich an die Clients gesendet werden
  • Reduzierung der Anforderungen an die Netzwerk-Bandbreite – ein großangelegter Server, der aus einem lokalem Server (sendet Daten an Clients) und Remote-Storage-Server (lagert Originalkopien der Daten; lokale Server zwischenspeichen Daten auf lokalen Disks und Speicher um einen „communication overhead“ zu verhindern

Wozu dienen dynamische Batching Policys? Nennen Sie ein Verfahren und seine Eigenschaften.[Bearbeiten | Quelltext bearbeiten]

NVOD-Policys setzen Kenntnisse von Zugriffsmustern auf Videos voraus. Dynamic Batching Policies passen sich an Veränderungen der Anforderungen an. Sie erkennen populäre Videos und betreuen mehrere User eines einzelnen Streams.

FCFS Policy (first come first serve)[Bearbeiten | Quelltext bearbeiten]

  • einzelne Warteschlange in der man sich einreiht
  • man kann somit eine max. Wartezeit anzeigen
  • fair
  • einfach zu implementieren

MQL Policy (max. queuing length)[Bearbeiten | Quelltext bearbeiten]

  • “greedy” Policy
  • zu jedem Video gehört eine einzelne Warteschlange
  • hohe Abbruchrate bei „kalten“ (wenig benutzten) Videos
  • bearbeitet mehr Anfragen gleichzeitig als FCFS,
  • ist dafür aber unfair
  • Wartezeit kann nicht berechnet werden

GGCS-FCFS Policy (group guaranteed server capacity):[Bearbeiten | Quelltext bearbeiten]

  • versucht die durchschnittliche Wartezeit von Anfragen zu minimieren
  • noch immer Bevorzugung von „heißen“ Videos
  • Wartezeit kann berechnet werden

Beschreiben Sie kurz Pyramid Broadcasting. Wozu dient das Verfahren?[Bearbeiten | Quelltext bearbeiten]

Mit dem Pyramid Broadcasting versucht man eine höhere Performance zu erreichen, in dem mehrere Anfragen in logischen Kanälen zusammengefasst werden, statt für jede einzelne Anfrage einen eigenen logischen Kanal zu öffnen. Die max. Wartezeit einfacher NVODs (Nobjects*Tplay / Nlogical.server.chan) kann durch das Pyramid- Broadcasting-Verfahren reduziert werden.

  • Die Bandbreite des Servers wird in Npyr.ch logische Kanäle geteilt
  • Jedes Video wird in Npyr.ch Segmente geteilt; weiters wird deren Größe um α pyr.ch erhöht
  • Erhöht sich Npyr.ch, verkleinert sich das erste Segment
  • das i-te Segment aller Videos wird wiederholt an Kanal i gesendet
  • um Video i abzuspielen, startet der Client den Download von Oi1, falls verfügbar, und spielt es ab
  • das Programm benötigt soviel lokalen Speicher wie das größte Segment ausmacht
  • der Wert von α pyr.ch: bevor das aktuelle Segment fertig abgespielt wurde, muss der Download des nächsten Segments gestartet haben um eine kontinuierliche

Was sind die wichtigsten Performance-Metriken für Media Server?[Bearbeiten | Quelltext bearbeiten]

  • Gleichzeitigkeit (concurrency) – max. Anzahl an Clients, die unabhängig voneinander auf ein Multimedia-Dokument zugreifen können
  • Zugriffsverzögerung (und Operationsverzögerung) (latency) – die Zeit, die ein Client nach Senden eines Requests warten muss (für eine interaktive Operation); weniger als eine Sekunde (< 1 Sek); sollte unabhängig von der Serverbelastung sein
  • Speicherkapazität (storage capacity)
  • Skalierbarkeit (scalability)
  • Erweiterbarkeit (exensibility) – mehrere Applikations-Szenarien; zur Unterstützung für verschiedene Service-Modelle erweiterbar


Warum ist die Verwendung von ähnlichkeitsmaßen generell problematisch? Problematik beim Messen von ähnlichkeit mittels Distanzmaß.[Bearbeiten | Quelltext bearbeiten]

Distanz und ähnlichkeit: Distanzfunktionen Einleitung

  • Distanzfunktionen vergleichen die Merkmale zweier Medienobjekte
  • Invarianz – drückt aus welche Merkmale zum Vergleich nicht herangezogen werden sollten Definition
  • Binäre Funktion mit folgenden Eigenschaften
  • Selbstidentität, Positivität, Symmetrie, Dreiecksungleichung

Distanzfunktionen

  • Einfache Distanzfunktion, Euklidische Distanzfunktion, Minkowski Distanzfunktion, m-Einheitskreise,

gewichtete Minkowski-Distanz, Einheitskreise, Quadratische Distanz, Mahalanobis Distanzfunktion, Quadratische Pseudodistanz, Einheitskreis, Bottleneck Distanz ähnlichkeitsmaße

  • Objekte werden als ähnlich wahrgenommen, wenn sie bei Menschen zu ähnlichen Reizen (Stimuli) führen
  • Keine allgemein akzeptierte Definition von ähnlichkeit * ähnlichkeitsmodelle in Mathematik, Statistik, Bildverarbeitung und Mustererkennung * ähnlichkeitsmaß: Funktion, die einem Paar von Objekten eine reelle Zahl aus [0,1] zuordnet * Wert 1 korrespondiert mit maximaler ähnlichkeit

Distanz vs. ähnlichkeit

  • Viele Ansätze verwenden Distanzfunktionen auf Featurewerten
  • Distanzwerte werden auf [0,1] abgebildet
  • Distanzeigenschaften für ähnlichkeitsempfinden zu restriktiv (Untersuchungen in der Psychologie) * Bedeutet nicht automatisch, dass Distanzfunktionen für ähnlichkeitsmaße ungeeignet sind.
  • Nur nicht grundsätzlich für alle Anwendungen geeignet

Probleme

  • Selbstidentität: gilt nicht grundsätzlich
  • Positivität: von Tversky als allgemeine Bedigung für menschliches ähnlichkeitsempfinden widerlegt
  • Symmetrie: Rollentausch macht Unterschied
  • Dreiecksungleichung: Unterschiede zwischen 2 Objekten werden zu hoch bewertet wenn kein drittes

für den Vergleich vorliegt Dreiecksungleichung

  • Unähnlichkeit zwischen A und B wird stärker eingeschätzt als Summe der Unähnlichkeiten zu C ähnlichkeitsabstand
  • Unähnlichkeitsmaß
  • Mindesteigenschaften:
  • Dominanz
  • Konsistenz
  • Transitivität
  • Eigenschaften sind allgemeiner als Distanzeigenschaften (z.B. Symmetrie nicht gefordert)
  • Bei Anwendung einer monoton wachsenden Funktion auf Werte eines Abstandmaßes bleiben

Eigenschaften erhalten Grenzen

  • Weltwissen spielt Rolle bei menschlicher Wahrnehmung
  • Ebenen der Inhaltsverarbeitung
  • Syntaktisch (ohne Bedeutung der Objekte)
  • Semantisch (ähnlichkeitsvergleich)
  • Pragmatisch (Interpretation, thematische Kategorien)

ähnlichkeitsmaße

  • Viele verschiedene Funktionen und Maße vorgeschlagen, Viele Kombinationen
  • Leider keine allgemein anerkannte Kombination
  • Viele Alternativen zur Auswahl

von ähnlichkeitsmaßen

Geben Sie eine kurze verbale Beschreibung der Kernaussage des Repräsentationssatzes im Feature Kontrast Modell von Tversky. Beschreiben Sie das tversky ähnlichkeitsmaß.[Bearbeiten | Quelltext bearbeiten]

Positivität: von Tversky als allgemeine Bedingung für menschliches ähnlichkeitsempfinden widerlegt Feature-Kontrast-Modell

  • Matching
  • Monotonie
  • Unabhängigkeit

Mindesteigenschaften [Tversky und Gati]:

  • Dominanz
  • Konsistenz
  • Transitivität Für ein ähnlichkeitsmaß s(a,b) zwischen Objekten a, b auf Grundlage der korrespondierenden Eigenschaftsmengen A und B gelten [Tversky]:
  • Matching
  • Monotonie
  • Unabhängigkeit:
  • Übereinstimmung — f(X,Y,Z) sei ein ähnlichkeitsmaß mit , und Z = B – A. Wir schreiben V ~ W, wenn X, Y und Z existieren, für die eine oder mehrere der Bedingungen gelten:

Für die Unabhängigkeit muss gelten: Parametrisierbare Funktion, Repräsentationssatz: Angenommen, s sei ein ähnlichkeitsmaß, für welches Matching, Monotonie und Unabhängigkeit erfüllt sind. Dann existiert eine ähnlichkeitsfunktion S, eine nichtnegative Funktion f sowie zwei Konstanten Alpha, Beta >= 0, so dass für alle Objekte a; b; c; d gelten. Dieser Satz besagt, dass jede ähnlichkeitsordnung, welche Matching, Monotonie und Unabhängigkeit erfüllt, durch eine Linearkombination der Funktionswerte über der Menge der Gemeinsamkeiten (A nB) und den beiden Mengen der Unterschiede (A\B;B\A) nachgebildet werden kann. Insbesondere lässt sich das Feature-Kontrast-Modell gut verwenden, um eine gewünschte Asymmetrie nachzubilden. Im vorigen Abschnitt wurde diskutiert, dass die ähnlichkeit eines Objektes Alpha mit relativ gering hervorstehenden Eigenschaften zu einem Objekt b mit relativ stark hervorstehenden Eigenschaften größer ist als umgekehrt. Im Feature-Konstrast-Modell geht man davon aus, dass die Stärke der Eigenschaften durch die Funktion f ausgedrückt werden kann:

Erklären Sie kurz das Boolesche IR (information retrival) Modell und diskutieren Sie Nachteile.[Bearbeiten | Quelltext bearbeiten]

boolesches IR Modell[Bearbeiten | Quelltext bearbeiten]

Dokumente werden als Mengen von Indextermen repräsentiert. Suche über Terme in Termmengen; boolescher Junktoren

  • Konzepte der Mengentheorie und der booleschen Algebra
  • klare Semantik, sehr einfaches Modell
  • Gewicht eines Terms bezogen auf ein Text-Dokument binär
  • Jedes Dokument wird intern durch die Menge von Indextermen mit Gewicht „1“ repräsentiert
  • in Anfrage werden Terme angegeben, die durch boolesche Junktoren, also durch »and«, »or« und »not«, kombiniert werden
  • Innerhalb der Vergleichsfunktion werden die durch die Anfrage spezifizierten Anfrageterme in den jeweiligen Dokumenten auf Enthaltensein getestet.
  • Ergebnis eines Termtests ist ein boolescher Wert * boolesche Junktoren zur Kombination einsetzbar

Nachteile:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: aufgrund binärer Gewichte keine ähnlichkeitssuche
  • Größe des Ergebnisses: oft zuviele Dokumente oder keine
  • boolesche Junktoren: Schwierigkeiten vieler Anwender

Milderung:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: Umwandlung von Konjunktionen in Disjunktionen; Stufen der Relevanz * Größe des Ergebnisses: einige Systeme haben zweistufiges Suchverfahren (faceted query)
  • Anfrage formuliert und verfeinert, ohne jedoch das Ergebnis anzuzeigen.
  • vollständiges Ergebnis
  • boolesche Junktoren: all und any statt and und or

Vektorraummodell IR Modell[Bearbeiten | Quelltext bearbeiten]

  • sehr weit verbreitetes Retrieval-Modell
  • Dokumente werden als Vektoren eines Vektorraums aufgefasst
  • Überführung des Retrieval-Problems in das Gebiet der Linearen Algebra
  • kann überall dort eingesetzt werden, wo Medienobjekte durch eine feste Anzahl numerischer Merkmalswerte dargestellt werden können und sich ähnlichkeit auf dieser Basis berechnet läßt
  • unterstützt im Gegensatz zum booleschen Modell das Konzept der ähnlichkeit
  • Die ähnlichkeit wird zwischen zwei Vektoren berechnet * Anfrage wird durch einen Vektor repräsentiert
  • viele Möglichkeiten zur Berechnung der ähnlichkeit (z. B. Cosinusmaß)
  • auch ähnlichkeit über Distanzfunktionen

Relevance Feedback: Rocchio Verfahren[Bearbeiten | Quelltext bearbeiten]

Browsing — sequentielle Suche, meist wenig sinnvoll, schlechte Anfrageformulierung, vage Vorstellung über das Suchergebnis, Pseudorelevanz: automatische Bewertung Bewertung von Dokumenten: unterschiedliche Bewertungen eines Dokuments bezgl. Verschiedener Dokumenteigenschaften, erhöhter Bewertungsaufwand Dokumentenbewertung kann auslösen:

  • Anfragemodikation
  • Modifikation von Nutzerprofilen
  • Modifikation der Dokumentbeschreibungen
  • Modifikation des Suchalgorithmus
  • Modifikation von Anfragetermgewichten

Verfahren von Rocchio:[Bearbeiten | Quelltext bearbeiten]

  • eigentlich entwickelt für Textdokumente, aber auf andere Medientypen übertragbar
  • Modifikation von Termgewichten des Anfragevektors im Vektorraummodell
  • Termgewichte relevanter Dokumente werden verstärkt und die Termgewichte irrelevanter Dokumente abgeschwächt
  • Verschiebung des Anfragepunktes innerhalb des Vektorraums in Richtung der relevanten Dokumente
  • Menge »Dr« enthält alle bezüglich der Anfrage »qalt« als relevant markierten Dokumente
  • Menge »Di« alle diesbezüglich irrelevanten Dokumente
  • Modifikation des Anfragevektors:
    • Alpha und Beta sind Koeffizienten und gewichten den Einfluss der relevanten und irrelevanten Dokumente

Was ist Spektrogramm?[Bearbeiten | Quelltext bearbeiten]

einfache Darstellungen haben Grenzen:

  • Zeit-Domäne zeigt Frequenz-Anteile eines Signals nicht
  • Frequenz-Domäne zeigt nicht, wann Frequenzen auftreten

Die kombinierte Darstellung ist das Spektrogramm, Ein Spektrogramm ist die Darstellung des zeitlichen Verlaufes des Spektrums eines Signals. Spektrogramm die Zusammensetzung eines Signals (zum Beispiel eines Klangs oder gesprochener Sprache) aus einzelnen Frequenzen im zeitlichen Verlauf dar.

  • x-Achse: Zeit, y-Achse: Frequenzanteile
  • Schwärzung (Farbe) eines Punkts: Energie der Frequenz zu dieser Zeit

Vorgehensweise:

  • Eingangssignal wird blockweise verarbeitet
  • überlappende Segmente des Signals werden verwendet
  • sinusoide Fensterfunktionen in Abb. deuten Signalausschnitte an, auf die sich die Analyse in einem Schritt „konzentriert“ * punktweise Multiplikation von Signalblock mit Fensterfunktion
  • resultierendes Signal wird Fouriertransformiert
  • Aneinanderreihung der Spektralvektoren liefert Zeit-Frequenzdarstellung des Signals
  • Etwas präziser ist ein Spektrogramm eine Darstellung der Frequenzverteilung im Phasenraum mit Hilfe der gefensterten Fouriertransformation. Dies ergibt eine komplexwertige Funktion f(t,ω), die vom Zeitpunkt t und der Frequenz ω abhängt. Das Spektrogramm ist eine Darstellung, die die Werte | f(t,ω) | in einem Zeit-Frequenz-Diagramm (zum Beispiel farbcodiert) aufträgt.
  • Die Interpretation ist dabei die, dass | f(t,ω) | den Frequenzanteil des Signals zum Zeitpunkt t angibt.

Analysen:

  • z.B. Regelmäßigkeit des Auftretens von Frequenzen, Musik vs. Geräusch, mannliche oder weibliche sprache, Musik: Arten von Musik, Umgebungsgeräusche zB. Tierlaute
  • häufig statistische Interpretation als nicht normalisierte Dichtefunktion (pdf) über die Frequenz
  • erlaubt Berechnung statistischer Parameter, z.B. Lagemaße, Streuung

Erklären Sie kurz die Terminal-Architektur von MPEG-7.[Bearbeiten | Quelltext bearbeiten]

Terminal ist das Teil, das die kodierten Repräsentationen des Multimedia-Contents benutzt. Dabei kann es sich um eine eigenständige Applikation oder einen Teil eines Applikationssystems handeln. Die Architektur besteht aus:

  • Application
  • Compression Layer: hier werden die Access-Units geparst und die content description wird

rekonstruiert - eine Konvertierung ins Textformat im Rahmen der Decodierung ist nicht Voraussetzung. Verarbeitung kann entweder im Textformat oder in einem proprietären Binärformat erfolgen.

  • Delivery Layer: stellt Mechanismen für die Synchronisation, Framing und Multiplexing von MPEG-7 Inhalten bereit:
    • MPEG-7 inhalte können unabhängig oder mit dem Content selbst übertragen werden
    • Nicht alle MPEG-7 Streams müssen downstream-fähig sein.
    • Stellt elementary Streams für den Compression Layer zur Verfügung.
    • Elementary streams bestehen aus aufeinanderfolgenden einzeln zugreifbaren Datenpaketen -> Access Units (= Kleinste Dateneinheit, der Zeitinformationenzugewiesen werden können)
    • Elementary Streams beinhalten folgende Informationen
      • Schema information - Struktur der MPEG-7 Description
      • Descriptions information - komplette oder teilweise Beschreibung des Contents
  • Transmission / Storage Medium: unterste Ebene, liefert gemultiplexte Streams an den Delivery Layer (DL)

Erklären Sie kurz die Konzepte Rights Data Dictionary (RDD) und Rights Expression Language (REL). In welchem Kontext treten sie auf und wie spielen sie zusammen?[Bearbeiten | Quelltext bearbeiten]

Die RDD und REL treten im Kontext von MPEG-21 auf. REL benutzt das Rights Data Dictionary (RDD) als Vokabular. Die Rights Expression Language und ist ein XML-Schema (daher maschinenlesbar!) zur Definition von verschiedenen Benutzerrechten für ein Digital Item ( ist ein strukturiertes, digitales Objekt mit einer standardisierten Repräsentation, Identifikation und Metadateninnerhalb des MPEG-21 Standards; sie sind fundamentale Verarbeitungseinheiten (Transaktion, Verteilung) innerhalb des Frameworks; werden durch Digital Item Declaration Language (DIDL) beschrieben (XML!). Der Schutz von Rechten insbesonders des Urheberrechts ist ein wesentlicher Bestandteil von MPEG-21. Die REL soll daher digitale Inhalte schützen, beabsichtigt die Spezifikation von Kontrolle und der Benutzung von digitalen Inhalten und soll Bedingungen für den Austausch von sensiblen oder privaten digitalen Inhalten unterstützen. REL kennt folgende Rechte:

  • Abspielen
  • Ansehen
  • Ausdrucken
  • Editieren

Außerdem kennt sie verschiedene Conditions:

  • Gültigkeit innherhalb bestimmter Zeiträume
  • Bezahlarten wie pay-per-use oder flat-fee
  • Nutzungsanzahlen wie einmalige oder unbegrenzte Nutzung
  • Gebietsgültigkeiten wie Europa oder Amerika

Das Rights Data Dictionary (RDD) definiert verschiedene Bedingungen aus dem Bereich digitaler Rechteverwaltung. Die hier eingetragenen Begriffe sollen eindeutig sein und sind mit einer Auslegung versehen, damit es keine Probleme bei der Implementierung gibt. Erklären Sie kurz die Ziele von MPEG-21?

  • „to define a multimedia framework to enable transparent and augmented use of multimedia resources across a wide range of networks and devices used by different communities.” (Vision der Arbeitsgruppe des MPEG-21 Standards)
  • Einheitliches Framework, das alle Aspekte der Erstellung, Verteilung und Konsumierung von Multimediainhalten regelt.
  • Schaffung einer system- und plattformunabhängigen Umgebung für den Austausch und Gebrauch von Medieninhalten.
  • Soll die Integration von multimedialen Inhalten verschiedener Formate (Standards) ermöglichen.
  • Vereinheitlichung des Multimediaverkehrs: Multimedia Content Provider mit verschiedenen Geschäftsmodellen sollen auf eine einheitliche Infrastruktur von der Erstellung bis zur Konsumierung von Multimedialen Inhalten zurückgreifen können.
  • Effiziente und automatisierte Interoperabilität zwischen verschiedenen Multimedia- Dienstanbietern.
  • Standardisierung sämtlicher Komponenten
  • Soll Benutzern, Herstellern von Multimediainhalten und -diensten Homogenität, Transparenz und Kompatibilität bieten.
  • Integration bereits bestehender jedoch komplexer Technologien zu einem Gesamtsystem (z.B.: Digital Rights Management (DRM))


Was sind die wichtigsten Performance-Metriken für Media Server?[Bearbeiten | Quelltext bearbeiten]

  • Gleichzeitigkeit (concurrency) – max. Anzahl an Clients, die unabhängig voneinander auf ein Multimedia-Dokument zugreifen können
  • Zugriffsverzögerung (und Operationsverzögerung) (latency) – die Zeit, die ein Client nach Senden eines Requests warten muss (für eine interaktive Operation); weniger als eine Sekunde (< 1 Sek); sollte unabhängig von der Serverbelastung sein
  • Speicherkapazität (storage capacity)
  • Skalierbarkeit (scalability)
  • Erweiterbarkeit (exensibility) – mehrere Applikations-Szenarien; zur Unterstützung für verschiedene Service-Modelle erweiterbar

Warum ist die Verwendung von ähnlichkeitsmaßen generell problematisch? Problematik beim Messen von ähnlichkeit mittels Distanzmaß.[Bearbeiten | Quelltext bearbeiten]

Distanz und ähnlichkeit: Distanzfunktionen Einleitung

  • Distanzfunktionen vergleichen die Merkmale zweier Medienobjekte
  • Invarianz – drückt aus welche Merkmale zum Vergleich nicht herangezogen werden sollten Definition
  • Binäre Funktion mit folgenden Eigenschaften
  • Selbstidentität, Positivität, Symmetrie, Dreiecksungleichung

Distanzfunktionen

  • Einfache Distanzfunktion, Euklidische Distanzfunktion, Minkowski Distanzfunktion, m-Einheitskreise,

gewichtete Minkowski-Distanz, Einheitskreise, Quadratische Distanz, Mahalanobis Distanzfunktion, Quadratische Pseudodistanz, Einheitskreis, Bottleneck Distanz ähnlichkeitsmaße

  • Objekte werden als ähnlich wahrgenommen, wenn sie bei Menschen zu ähnlichen Reizen (Stimuli) führen
  • Keine allgemein akzeptierte Definition von ähnlichkeit * ähnlichkeitsmodelle in Mathematik, Statistik, Bildverarbeitung und Mustererkennung * ähnlichkeitsmaß: Funktion, die einem Paar von Objekten eine reelle Zahl aus [0,1] zuordnet * Wert 1 korrespondiert mit maximaler ähnlichkeit

Distanz vs. ähnlichkeit

  • Viele Ansätze verwenden Distanzfunktionen auf Featurewerten
  • Distanzwerte werden auf [0,1] abgebildet
  • Distanzeigenschaften für ähnlichkeitsempfinden zu restriktiv (Untersuchungen in der Psychologie) * Bedeutet nicht automatisch, dass Distanzfunktionen für ähnlichkeitsmaße ungeeignet sind.
  • Nur nicht grundsätzlich für alle Anwendungen geeignet

Probleme

  • Selbstidentität: gilt nicht grundsätzlich
  • Positivität: von Tversky als allgemeine Bedigung für menschliches ähnlichkeitsempfinden widerlegt
  • Symmetrie: Rollentausch macht Unterschied
  • Dreiecksungleichung: Unterschiede zwischen 2 Objekten werden zu hoch bewertet wenn kein drittes

für den Vergleich vorliegt Dreiecksungleichung

  • Unähnlichkeit zwischen A und B wird stärker eingeschätzt als Summe der Unähnlichkeiten zu C ähnlichkeitsabstand
  • Unähnlichkeitsmaß
  • Mindesteigenschaften:
  • Dominanz
  • Konsistenz
  • Transitivität
  • Eigenschaften sind allgemeiner als Distanzeigenschaften (z.B. Symmetrie nicht gefordert)
  • Bei Anwendung einer monoton wachsenden Funktion auf Werte eines Abstandmaßes bleiben

Eigenschaften erhalten Grenzen

  • Weltwissen spielt Rolle bei menschlicher Wahrnehmung
  • Ebenen der Inhaltsverarbeitung
  • Syntaktisch (ohne Bedeutung der Objekte)
  • Semantisch (ähnlichkeitsvergleich)
  • Pragmatisch (Interpretation, thematische Kategorien)

ähnlichkeitsmaße

  • Viele verschiedene Funktionen und Maße vorgeschlagen, Viele Kombinationen
  • Leider keine allgemein anerkannte Kombination
  • Viele Alternativen zur Auswahl

von ähnlichkeitsmaßen

Geben Sie eine kurze verbale Beschreibung der Kernaussage des Repräsentationssatzes im Feature Kontrast Modell von Tversky. Beschreiben Sie das tversky ähnlichkeitsmaß.[Bearbeiten | Quelltext bearbeiten]

Positivität: von Tversky als allgemeine Bedingung für menschliches ähnlichkeitsempfinden widerlegt Feature-Kontrast-Modell

  • Matching
  • Monotonie
  • Unabhängigkeit

Mindesteigenschaften [Tversky und Gati]:

  • Dominanz
  • Konsistenz
  • Transitivität Für ein ähnlichkeitsmaß s(a,b) zwischen Objekten a, b auf Grundlage der korrespondierenden Eigenschaftsmengen A und B gelten [Tversky]:
  • Matching
  • Monotonie
  • Unabhängigkeit:
  • Übereinstimmung — f(X,Y,Z) sei ein ähnlichkeitsmaß mit , und Z = B – A. Wir schreiben V ~ W, wenn X, Y und Z existieren, für die eine oder mehrere der Bedingungen gelten:

Für die Unabhängigkeit muss gelten: Parametrisierbare Funktion, Repräsentationssatz: Angenommen, s sei ein ähnlichkeitsmaß, für welches Matching, Monotonie und Unabhängigkeit erfüllt sind. Dann existiert eine ähnlichkeitsfunktion S, eine nichtnegative Funktion f sowie zwei Konstanten Alpha, Beta >= 0, so dass für alle Objekte a; b; c; d gelten. Dieser Satz besagt, dass jede ähnlichkeitsordnung, welche Matching, Monotonie und Unabhängigkeit erfüllt, durch eine Linearkombination der Funktionswerte über der Menge der Gemeinsamkeiten (A nB) und den beiden Mengen der Unterschiede (A\B;B\A) nachgebildet werden kann. Insbesondere lässt sich das Feature-Kontrast-Modell gut verwenden, um eine gewünschte Asymmetrie nachzubilden. Im vorigen Abschnitt wurde diskutiert, dass die ähnlichkeit eines Objektes Alpha mit relativ gering hervorstehenden Eigenschaften zu einem Objekt b mit relativ stark hervorstehenden Eigenschaften größer ist als umgekehrt. Im Feature-Konstrast-Modell geht man davon aus, dass die Stärke der Eigenschaften durch die Funktion f ausgedrückt werden kann:

Erklären Sie kurz das Boolesche IR (information retrival) Modell und diskutieren Sie Nachteile.[Bearbeiten | Quelltext bearbeiten]

boolesches IR Modell[Bearbeiten | Quelltext bearbeiten]

Dokumente werden als Mengen von Indextermen repräsentiert. Suche über Terme in Termmengen; boolescher Junktoren

  • Konzepte der Mengentheorie und der booleschen Algebra
  • klare Semantik, sehr einfaches Modell
  • Gewicht eines Terms bezogen auf ein Text-Dokument binär
  • Jedes Dokument wird intern durch die Menge von Indextermen mit Gewicht „1“ repräsentiert
  • in Anfrage werden Terme angegeben, die durch boolesche Junktoren, also durch »and«, »or« und »not«, kombiniert werden
  • Innerhalb der Vergleichsfunktion werden die durch die Anfrage spezifizierten Anfrageterme in den jeweiligen Dokumenten auf Enthaltensein getestet.
  • Ergebnis eines Termtests ist ein boolescher Wert * boolesche Junktoren zur Kombination einsetzbar

Nachteile:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: aufgrund binärer Gewichte keine ähnlichkeitssuche
  • Größe des Ergebnisses: oft zuviele Dokumente oder keine * boolesche Junktoren: Schwierigkeiten vieler Anwender

Milderung:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: Umwandlung von Konjunktionen in Disjunktionen; Stufen der Relevanz * Größe des Ergebnisses: einige Systeme haben zweistufiges Suchverfahren (faceted query)
  • Anfrage formuliert und verfeinert, ohne jedoch das Ergebnis anzuzeigen.
  • vollständiges Ergebnis
  • boolesche Junktoren: all und any statt and und or

Vektorraummodell IR Modell[Bearbeiten | Quelltext bearbeiten]

  • sehr weit verbreitetes Retrieval-Modell
  • Dokumente werden als Vektoren eines Vektorraums aufgefasst
  • Überführung des Retrieval-Problems in das Gebiet der Linearen Algebra
  • kann überall dort eingesetzt werden, wo Medienobjekte durch eine feste Anzahl numerischer Merkmalswerte dargestellt werden können und sich ähnlichkeit auf dieser Basis berechnet läßt
  • unterstützt im Gegensatz zum booleschen Modell das Konzept der ähnlichkeit
  • Die ähnlichkeit wird zwischen zwei Vektoren berechnet * Anfrage wird durch einen Vektor repräsentiert
  • viele Möglichkeiten zur Berechnung der ähnlichkeit (z. B. Cosinusmaß)
  • auch ähnlichkeit über Distanzfunktionen

Relevance Feedback: Rocchio Verfahren[Bearbeiten | Quelltext bearbeiten]

Browsing — sequentielle Suche, meist wenig sinnvoll, schlechte Anfrageformulierung, vage Vorstellung über das Suchergebnis, Pseudorelevanz: automatische Bewertung Bewertung von Dokumenten: unterschiedliche Bewertungen eines Dokuments bezgl. Verschiedener Dokumenteigenschaften, erhöhter Bewertungsaufwand Dokumentenbewertung kann auslösen:

  • Anfragemodikation
  • Modifikation von Nutzerprofilen
  • Modifikation der Dokumentbeschreibungen
  • Modifikation des Suchalgorithmus
  • Modifikation von Anfragetermgewichten

Verfahren von Rocchio:[Bearbeiten | Quelltext bearbeiten]

  • eigentlich entwickelt für Textdokumente, aber auf andere Medientypen übertragbar
  • Modifikation von Termgewichten des Anfragevektors im Vektorraummodell
  • Termgewichte relevanter Dokumente werden verstärkt und die Termgewichte irrelevanter Dokumente abgeschwächt
  • Verschiebung des Anfragepunktes innerhalb des Vektorraums in Richtung der relevanten Dokumente
  • Menge »Dr« enthält alle bezüglich der Anfrage »qalt« als relevant markierten Dokumente
  • Menge »Di« alle diesbezüglich irrelevanten Dokumente
  • Modifikation des Anfragevektors:
    • Alpha und Beta sind Koeffizienten und gewichten den Einfluss der relevanten und irrelevanten Dokumente

Was ist Spektrogramm?[Bearbeiten | Quelltext bearbeiten]

einfache Darstellungen haben Grenzen:

  • Zeit-Domäne zeigt Frequenz-Anteile eines Signals nicht
  • Frequenz-Domäne zeigt nicht, wann Frequenzen auftreten

Die kombinierte Darstellung ist das Spektrogramm, Ein Spektrogramm ist die Darstellung des zeitlichen Verlaufes des Spektrums eines Signals. Spektrogramm die Zusammensetzung eines Signals (zum Beispiel eines Klangs oder gesprochener Sprache) aus einzelnen Frequenzen im zeitlichen Verlauf dar.

  • x-Achse: Zeit, y-Achse: Frequenzanteile
  • Schwärzung (Farbe) eines Punkts: Energie der Frequenz zu dieser Zeit

Vorgehensweise:

  • Eingangssignal wird blockweise verarbeitet
  • überlappende Segmente des Signals werden verwendet
  • sinusoide Fensterfunktionen in Abb. deuten Signalausschnitte an, auf die sich die Analyse in einem Schritt „konzentriert“ * punktweise Multiplikation von Signalblock mit Fensterfunktion
  • resultierendes Signal wird Fouriertransformiert
  • Aneinanderreihung der Spektralvektoren liefert Zeit-Frequenzdarstellung des Signals
  • Etwas präziser ist ein Spektrogramm eine Darstellung der Frequenzverteilung im Phasenraum mit Hilfe der gefensterten Fouriertransformation. Dies ergibt eine komplexwertige Funktion f(t,ω), die vom Zeitpunkt t und der Frequenz ω abhängt. Das Spektrogramm ist eine Darstellung, die die Werte | f(t,ω) | in einem Zeit-Frequenz-Diagramm (zum Beispiel farbcodiert) aufträgt.
  • Die Interpretation ist dabei die, dass | f(t,ω) | den Frequenzanteil des Signals zum Zeitpunkt t angibt.

Analysen:

  • z.B. Regelmäßigkeit des Auftretens von Frequenzen, Musik vs. Geräusch, mannliche oder weibliche sprache, Musik: Arten von Musik, Umgebungsgeräusche zB. Tierlaute
  • häufig statistische Interpretation als nicht normalisierte Dichtefunktion (pdf) über die Frequenz
  • erlaubt Berechnung statistischer Parameter, z.B. Lagemaße, Streuung

Erklären Sie kurz die Terminal-Architektur von MPEG-7.[Bearbeiten | Quelltext bearbeiten]

Terminal ist das Teil, das die kodierten Repräsentationen des Multimedia-Contents benutzt. Dabei kann es sich um eine eigenständige Applikation oder einen Teil eines Applikationssystems handeln. Die Architektur besteht aus:

  • Application
  • Compression Layer: hier werden die Access-Units geparst und die content description wird

rekonstruiert - eine Konvertierung ins Textformat im Rahmen der Decodierung ist nicht Voraussetzung. Verarbeitung kann entweder im Textformat oder in einem proprietären Binärformat erfolgen.

  • Delivery Layer: stellt Mechanismen für die Synchronisation, Framing und Multiplexing von MPEG-7 Inhalten bereit:
    • MPEG-7 inhalte können unabhängig oder mit dem Content selbst übertragen werden
    • Nicht alle MPEG-7 Streams müssen downstream-fähig sein.
    • Stellt elementary Streams für den Compression Layer zur Verfügung.
    • Elementary streams bestehen aus aufeinanderfolgenden einzeln zugreifbaren Datenpaketen -> Access Units (= Kleinste Dateneinheit, der Zeitinformationenzugewiesen werden können)
    • Elementary Streams beinhalten folgende Informationen
      • Schema information - Struktur der MPEG-7 Description
      • Descriptions information - komplette oder teilweise Beschreibung des Contents
  • Transmission / Storage Medium: unterste Ebene, liefert gemultiplexte Streams an den Delivery Layer (DL)

Erklären Sie kurz die Konzepte Rights Data Dictionary (RDD) und Rights Expression Language (REL). In welchem Kontext treten sie auf und wie spielen sie zusammen?[Bearbeiten | Quelltext bearbeiten]

Die RDD und REL treten im Kontext von MPEG-21 auf. REL benutzt das Rights Data Dictionary (RDD) als Vokabular. Die Rights Expression Language und ist ein XML-Schema (daher maschinenlesbar!) zur Definition von verschiedenen Benutzerrechten für ein Digital Item ( ist ein strukturiertes, digitales Objekt mit einer standardisierten Repräsentation, Identifikation und Metadateninnerhalb des MPEG-21 Standards; sie sind fundamentale Verarbeitungseinheiten (Transaktion, Verteilung) innerhalb des Frameworks; werden durch Digital Item Declaration Language (DIDL) beschrieben (XML!). Der Schutz von Rechten insbesonders des Urheberrechts ist ein wesentlicher Bestandteil von MPEG-21. Die REL soll daher digitale Inhalte schützen, beabsichtigt die Spezifikation von Kontrolle und der Benutzung von digitalen Inhalten und soll Bedingungen für den Austausch von sensiblen oder privaten digitalen Inhalten unterstützen. REL kennt folgende Rechte:

  • Abspielen
  • Ansehen
  • Ausdrucken
  • Editieren

Außerdem kennt sie verschiedene Conditions:

  • Gültigkeit innherhalb bestimmter Zeiträume
  • Bezahlarten wie pay-per-use oder flat-fee
  • Nutzungsanzahlen wie einmalige oder unbegrenzte Nutzung
  • Gebietsgültigkeiten wie Europa oder Amerika

Das Rights Data Dictionary (RDD) definiert verschiedene Bedingungen aus dem Bereich digitaler Rechteverwaltung. Die hier eingetragenen Begriffe sollen eindeutig sein und sind mit einer Auslegung versehen, damit es keine Probleme bei der Implementierung gibt. Erklären Sie kurz die Ziele von MPEG-21?

  • „to define a multimedia framework to enable transparent and augmented use of multimedia resources across a wide range of networks and devices used by different communities.” (Vision der Arbeitsgruppe des MPEG-21 Standards)
  • Einheitliches Framework, das alle Aspekte der Erstellung, Verteilung und Konsumierung von Multimediainhalten regelt.
  • Schaffung einer system- und plattformunabhängigen Umgebung für den Austausch und Gebrauch von Medieninhalten.
  • Soll die Integration von multimedialen Inhalten verschiedener Formate (Standards) ermöglichen.
  • Vereinheitlichung des Multimediaverkehrs: Multimedia Content Provider mit verschiedenen Geschäftsmodellen sollen auf eine einheitliche Infrastruktur von der Erstellung bis zur Konsumierung von Multimedialen Inhalten zurückgreifen können.
  • Effiziente und automatisierte Interoperabilität zwischen verschiedenen Multimedia- Dienstanbietern.
  • Standardisierung sämtlicher Komponenten
  • Soll Benutzern, Herstellern von Multimediainhalten und -diensten Homogenität, Transparenz und Kompatibilität bieten.
  • Integration bereits bestehender jedoch komplexer Technologien zu einem Gesamtsystem (z.B.: Digital Rights Management (DRM))

eit einfacher NVODs (Nobjects*Tplay / Nlogical.server.chan) kann durch das Pyramid- Broadcasting-Verfahren reduziert werden.

  • Die Bandbreite des Servers wird in Npyr.ch logische Kanäle geteilt
  • Jedes Video wird in Npyr.ch Segmente geteilt; weiters wird deren Größe um α pyr.ch erhöht
  • Erhöht sich Npyr.ch, verkleinert sich das erste Segment
  • das i-te Segment aller Videos wird wiederholt an Kanal i gesendet
  • um Video i abzuspielen, startet der Client den Download von Oi1, falls verfügbar, und spielt es ab
  • das Programm benötigt soviel lokalen Speicher wie das größte Segment ausmacht
  • der Wert von α pyr.ch: bevor das aktuelle Segment fertig abgespielt wurde, muss der Download des nächsten Segments gestartet haben um eine kontinuierliche

Was sind die wichtigsten Performance-Metriken für Media Server?[Bearbeiten | Quelltext bearbeiten]

  • Gleichzeitigkeit (concurrency) – max. Anzahl an Clients, die unabhängig voneinander auf ein Multimedia-Dokument zugreifen können
  • Zugriffsverzögerung (und Operationsverzögerung) (latency) – die Zeit, die ein Client nach Senden eines Requests warten muss (für eine interaktive Operation); weniger als eine Sekunde (< 1 Sek); sollte unabhängig von der Serverbelastung sein
  • Speicherkapazität (storage capacity)
  • Skalierbarkeit (scalability)
  • Erweiterbarkeit (exensibility) – mehrere Applikations-Szenarien; zur Unterstützung für verschiedene Service-Modelle erweiterbar


Warum ist die Verwendung von ähnlichkeitsmaßen generell problematisch? Problematik beim Messen von ähnlichkeit mittels Distanzmaß.[Bearbeiten | Quelltext bearbeiten]

Distanz und ähnlichkeit: Distanzfunktionen Einleitung

  • Distanzfunktionen vergleichen die Merkmale zweier Medienobjekte
  • Invarianz – drückt aus welche Merkmale zum Vergleich nicht herangezogen werden sollten Definition
  • Binäre Funktion mit folgenden Eigenschaften
  • Selbstidentität, Positivität, Symmetrie, Dreiecksungleichung

Distanzfunktionen

  • Einfache Distanzfunktion, Euklidische Distanzfunktion, Minkowski Distanzfunktion, m-Einheitskreise,

gewichtete Minkowski-Distanz, Einheitskreise, Quadratische Distanz, Mahalanobis Distanzfunktion, Quadratische Pseudodistanz, Einheitskreis, Bottleneck Distanz ähnlichkeitsmaße

  • Objekte werden als ähnlich wahrgenommen, wenn sie bei Menschen zu ähnlichen Reizen (Stimuli) führen
  • Keine allgemein akzeptierte Definition von ähnlichkeit * ähnlichkeitsmodelle in Mathematik, Statistik, Bildverarbeitung und Mustererkennung * ähnlichkeitsmaß: Funktion, die einem Paar von Objekten eine reelle Zahl aus [0,1] zuordnet * Wert 1 korrespondiert mit maximaler ähnlichkeit

Distanz vs. ähnlichkeit

  • Viele Ansätze verwenden Distanzfunktionen auf Featurewerten
  • Distanzwerte werden auf [0,1] abgebildet
  • Distanzeigenschaften für ähnlichkeitsempfinden zu restriktiv (Untersuchungen in der Psychologie) * Bedeutet nicht automatisch, dass Distanzfunktionen für ähnlichkeitsmaße ungeeignet sind.
  • Nur nicht grundsätzlich für alle Anwendungen geeignet

Probleme

  • Selbstidentität: gilt nicht grundsätzlich
  • Positivität: von Tversky als allgemeine Bedigung für menschliches ähnlichkeitsempfinden widerlegt
  • Symmetrie: Rollentausch macht Unterschied
  • Dreiecksungleichung: Unterschiede zwischen 2 Objekten werden zu hoch bewertet wenn kein drittes

für den Vergleich vorliegt Dreiecksungleichung

  • Unähnlichkeit zwischen A und B wird stärker eingeschätzt als Summe der Unähnlichkeiten zu C ähnlichkeitsabstand
  • Unähnlichkeitsmaß
  • Mindesteigenschaften:
  • Dominanz
  • Konsistenz
  • Transitivität
  • Eigenschaften sind allgemeiner als Distanzeigenschaften (z.B. Symmetrie nicht gefordert)
  • Bei Anwendung einer monoton wachsenden Funktion auf Werte eines Abstandmaßes bleiben

Eigenschaften erhalten Grenzen

  • Weltwissen spielt Rolle bei menschlicher Wahrnehmung
  • Ebenen der Inhaltsverarbeitung
  • Syntaktisch (ohne Bedeutung der Objekte)
  • Semantisch (ähnlichkeitsvergleich)
  • Pragmatisch (Interpretation, thematische Kategorien)

ähnlichkeitsmaße

  • Viele verschiedene Funktionen und Maße vorgeschlagen, Viele Kombinationen
  • Leider keine allgemein anerkannte Kombination
  • Viele Alternativen zur Auswahl

von ähnlichkeitsmaßen

Geben Sie eine kurze verbale Beschreibung der Kernaussage des Repräsentationssatzes im Feature Kontrast Modell von Tversky. Beschreiben Sie das tversky ähnlichkeitsmaß.[Bearbeiten | Quelltext bearbeiten]

Positivität: von Tversky als allgemeine Bedingung für menschliches ähnlichkeitsempfinden widerlegt Feature-Kontrast-Modell

  • Matching
  • Monotonie
  • Unabhängigkeit

Mindesteigenschaften [Tversky und Gati]:

  • Dominanz
  • Konsistenz
  • Transitivität Für ein ähnlichkeitsmaß s(a,b) zwischen Objekten a, b auf Grundlage der korrespondierenden Eigenschaftsmengen A und B gelten [Tversky]:
  • Matching
  • Monotonie
  • Unabhängigkeit:
  • Übereinstimmung — f(X,Y,Z) sei ein ähnlichkeitsmaß mit , und Z = B – A. Wir schreiben V ~ W, wenn X, Y und Z existieren, für die eine oder mehrere der Bedingungen gelten:

Für die Unabhängigkeit muss gelten: Parametrisierbare Funktion, Repräsentationssatz: Angenommen, s sei ein ähnlichkeitsmaß, für welches Matching, Monotonie und Unabhängigkeit erfüllt sind. Dann existiert eine ähnlichkeitsfunktion S, eine nichtnegative Funktion f sowie zwei Konstanten Alpha, Beta >= 0, so dass für alle Objekte a; b; c; d gelten. Dieser Satz besagt, dass jede ähnlichkeitsordnung, welche Matching, Monotonie und Unabhängigkeit erfüllt, durch eine Linearkombination der Funktionswerte über der Menge der Gemeinsamkeiten (A nB) und den beiden Mengen der Unterschiede (A\B;B\A) nachgebildet werden kann. Insbesondere lässt sich das Feature-Kontrast-Modell gut verwenden, um eine gewünschte Asymmetrie nachzubilden. Im vorigen Abschnitt wurde diskutiert, dass die ähnlichkeit eines Objektes Alpha mit relativ gering hervorstehenden Eigenschaften zu einem Objekt b mit relativ stark hervorstehenden Eigenschaften größer ist als umgekehrt. Im Feature-Konstrast-Modell geht man davon aus, dass die Stärke der Eigenschaften durch die Funktion f ausgedrückt werden kann:

Erklären Sie kurz das Boolesche IR (information retrival) Modell und diskutieren Sie Nachteile.[Bearbeiten | Quelltext bearbeiten]

boolesches IR Modell[Bearbeiten | Quelltext bearbeiten]

Dokumente werden als Mengen von Indextermen repräsentiert. Suche über Terme in Termmengen; boolescher Junktoren

  • Konzepte der Mengentheorie und der booleschen Algebra
  • klare Semantik, sehr einfaches Modell
  • Gewicht eines Terms bezogen auf ein Text-Dokument binär
  • Jedes Dokument wird intern durch die Menge von Indextermen mit Gewicht „1“ repräsentiert
  • in Anfrage werden Terme angegeben, die durch boolesche Junktoren, also durch »and«, »or« und »not«, kombiniert werden
  • Innerhalb der Vergleichsfunktion werden die durch die Anfrage spezifizierten Anfrageterme in den jeweiligen Dokumenten auf Enthaltensein getestet.
  • Ergebnis eines Termtests ist ein boolescher Wert * boolesche Junktoren zur Kombination einsetzbar

Nachteile:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: aufgrund binärer Gewichte keine ähnlichkeitssuche
  • Größe des Ergebnisses: oft zuviele Dokumente oder keine * boolesche Junktoren: Schwierigkeiten vieler Anwender

Milderung:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: Umwandlung von Konjunktionen in Disjunktionen; Stufen der Relevanz * Größe des Ergebnisses: einige Systeme haben zweistufiges Suchverfahren (faceted query)
  • Anfrage formuliert und verfeinert, ohne jedoch das Ergebnis anzuzeigen.
  • vollständiges Ergebnis
  • boolesche Junktoren: all und any statt and und or

Vektorraummodell IR Modell[Bearbeiten | Quelltext bearbeiten]

  • sehr weit verbreitetes Retrieval-Modell
  • Dokumente werden als Vektoren eines Vektorraums aufgefasst
  • Überführung des Retrieval-Problems in das Gebiet der Linearen Algebra
  • kann überall dort eingesetzt werden, wo Medienobjekte durch eine feste Anzahl numerischer Merkmalswerte dargestellt werden können und sich ähnlichkeit auf dieser Basis berechnet läßt
  • unterstützt im Gegensatz zum booleschen Modell das Konzept der ähnlichkeit
  • Die ähnlichkeit wird zwischen zwei Vektoren berechnet * Anfrage wird durch einen Vektor repräsentiert
  • viele Möglichkeiten zur Berechnung der ähnlichkeit (z. B. Cosinusmaß)
  • auch ähnlichkeit über Distanzfunktionen

Relevance Feedback: Rocchio Verfahren[Bearbeiten | Quelltext bearbeiten]

Browsing — sequentielle Suche, meist wenig sinnvoll, schlechte Anfrageformulierung, vage Vorstellung über das Suchergebnis, Pseudorelevanz: automatische Bewertung Bewertung von Dokumenten: unterschiedliche Bewertungen eines Dokuments bezgl. Verschiedener Dokumenteigenschaften, erhöhter Bewertungsaufwand Dokumentenbewertung kann auslösen:

  • Anfragemodikation
  • Modifikation von Nutzerprofilen
  • Modifikation der Dokumentbeschreibungen
  • Modifikation des Suchalgorithmus
  • Modifikation von Anfragetermgewichten

Verfahren von Rocchio:[Bearbeiten | Quelltext bearbeiten]

  • eigentlich entwickelt für Textdokumente, aber auf andere Medientypen übertragbar
  • Modifikation von Termgewichten des Anfragevektors im Vektorraummodell
  • Termgewichte relevanter Dokumente werden verstärkt und die Termgewichte irrelevanter Dokumente abgeschwächt
  • Verschiebung des Anfragepunktes innerhalb des Vektorraums in Richtung der relevanten Dokumente
  • Menge »Dr« enthält alle bezüglich der Anfrage »qalt« als relevant markierten Dokumente
  • Menge »Di« alle diesbezüglich irrelevanten Dokumente
  • Modifikation des Anfragevektors:
    • Alpha und Beta sind Koeffizienten und gewichten den Einfluss der relevanten und irrelevanten Dokumente

Was ist Spektrogramm?[Bearbeiten | Quelltext bearbeiten]

einfache Darstellungen haben Grenzen:

  • Zeit-Domäne zeigt Frequenz-Anteile eines Signals nicht
  • Frequenz-Domäne zeigt nicht, wann Frequenzen auftreten

Die kombinierte Darstellung ist das Spektrogramm, Ein Spektrogramm ist die Darstellung des zeitlichen Verlaufes des Spektrums eines Signals. Spektrogramm die Zusammensetzung eines Signals (zum Beispiel eines Klangs oder gesprochener Sprache) aus einzelnen Frequenzen im zeitlichen Verlauf dar.

  • x-Achse: Zeit, y-Achse: Frequenzanteile
  • Schwärzung (Farbe) eines Punkts: Energie der Frequenz zu dieser Zeit

Vorgehensweise:

  • Eingangssignal wird blockweise verarbeitet
  • überlappende Segmente des Signals werden verwendet
  • sinusoide Fensterfunktionen in Abb. deuten Signalausschnitte an, auf die sich die Analyse in einem Schritt „konzentriert“ * punktweise Multiplikation von Signalblock mit Fensterfunktion
  • resultierendes Signal wird Fouriertransformiert
  • Aneinanderreihung der Spektralvektoren liefert Zeit-Frequenzdarstellung des Signals
  • Etwas präziser ist ein Spektrogramm eine Darstellung der Frequenzverteilung im Phasenraum mit Hilfe der gefensterten Fouriertransformation. Dies ergibt eine komplexwertige Funktion f(t,ω), die vom Zeitpunkt t und der Frequenz ω abhängt. Das Spektrogramm ist eine Darstellung, die die Werte | f(t,ω) | in einem Zeit-Frequenz-Diagramm (zum Beispiel farbcodiert) aufträgt.
  • Die Interpretation ist dabei die, dass | f(t,ω) | den Frequenzanteil des Signals zum Zeitpunkt t angibt.

Analysen:

  • z.B. Regelmäßigkeit des Auftretens von Frequenzen, Musik vs. Geräusch, mannliche oder weibliche sprache, Musik: Arten von Musik, Umgebungsgeräusche zB. Tierlaute
  • häufig statistische Interpretation als nicht normalisierte Dichtefunktion (pdf) über die Frequenz
  • erlaubt Berechnung statistischer Parameter, z.B. Lagemaße, Streuung

Erklären Sie kurz die Terminal-Architektur von MPEG-7.[Bearbeiten | Quelltext bearbeiten]

Terminal ist das Teil, das die kodierten Repräsentationen des Multimedia-Contents benutzt. Dabei kann es sich um eine eigenständige Applikation oder einen Teil eines Applikationssystems handeln. Die Architektur besteht aus:

  • Application
  • Compression Layer: hier werden die Access-Units geparst und die content description wird

rekonstruiert - eine Konvertierung ins Textformat im Rahmen der Decodierung ist nicht Voraussetzung. Verarbeitung kann entweder im Textformat oder in einem proprietären Binärformat erfolgen.

  • Delivery Layer: stellt Mechanismen für die Synchronisation, Framing und Multiplexing von MPEG-7 Inhalten bereit:
    • MPEG-7 inhalte können unabhängig oder mit dem Content selbst übertragen werden
    • Nicht alle MPEG-7 Streams müssen downstream-fähig sein.
    • Stellt elementary Streams für den Compression Layer zur Verfügung.
    • Elementary streams bestehen aus aufeinanderfolgenden einzeln zugreifbaren Datenpaketen -> Access Units (= Kleinste Dateneinheit, der Zeitinformationenzugewiesen werden können)
    • Elementary Streams beinhalten folgende Informationen
      • Schema information - Struktur der MPEG-7 Description
      • Descriptions information - komplette oder teilweise Beschreibung des Contents
  • Transmission / Storage Medium: unterste Ebene, liefert gemultiplexte Streams an den Delivery Layer (DL)

Erklären Sie kurz die Konzepte Rights Data Dictionary (RDD) und Rights Expression Language (REL). In welchem Kontext treten sie auf und wie spielen sie zusammen?[Bearbeiten | Quelltext bearbeiten]

Die RDD und REL treten im Kontext von MPEG-21 auf. REL benutzt das Rights Data Dictionary (RDD) als Vokabular. Die Rights Expression Language und ist ein XML-Schema (daher maschinenlesbar!) zur Definition von verschiedenen Benutzerrechten für ein Digital Item ( ist ein strukturiertes, digitales Objekt mit einer standardisierten Repräsentation, Identifikation und Metadateninnerhalb des MPEG-21 Standards; sie sind fundamentale Verarbeitungseinheiten (Transaktion, Verteilung) innerhalb des Frameworks; werden durch Digital Item Declaration Language (DIDL) beschrieben (XML!). Der Schutz von Rechten insbesonders des Urheberrechts ist ein wesentlicher Bestandteil von MPEG-21. Die REL soll daher digitale Inhalte schützen, beabsichtigt die Spezifikation von Kontrolle und der Benutzung von digitalen Inhalten und soll Bedingungen für den Austausch von sensiblen oder privaten digitalen Inhalten unterstützen. REL kennt folgende Rechte:

  • Abspielen
  • Ansehen
  • Ausdrucken
  • Editieren

Außerdem kennt sie verschiedene Conditions:

  • Gültigkeit innherhalb bestimmter Zeiträume
  • Bezahlarten wie pay-per-use oder flat-fee
  • Nutzungsanzahlen wie einmalige oder unbegrenzte Nutzung
  • Gebietsgültigkeiten wie Europa oder Amerika

Das Rights Data Dictionary (RDD) definiert verschiedene Bedingungen aus dem Bereich digitaler Rechteverwaltung. Die hier eingetragenen Begriffe sollen eindeutig sein und sind mit einer Auslegung versehen, damit es keine Probleme bei der Implementierung gibt. Erklären Sie kurz die Ziele von MPEG-21?

  • „to define a multimedia framework to enable transparent and augmented use of multimedia resources across a wide range of networks and devices used by different communities.” (Vision der Arbeitsgruppe des MPEG-21 Standards)
  • Einheitliches Framework, das alle Aspekte der Erstellung, Verteilung und Konsumierung von Multimediainhalten regelt.
  • Schaffung einer system- und plattformunabhängigen Umgebung für den Austausch und Gebrauch von Medieninhalten.
  • Soll die Integration von multimedialen Inhalten verschiedener Formate (Standards) ermöglichen.
  • Vereinheitlichung des Multimediaverkehrs: Multimedia Content Provider mit verschiedenen Geschäftsmodellen sollen auf eine einheitliche Infrastruktur von der Erstellung bis zur Konsumierung von Multimedialen Inhalten zurückgreifen können.
  • Effiziente und automatisierte Interoperabilität zwischen verschiedenen Multimedia- Dienstanbietern.
  • Standardisierung sämtlicher Komponenten
  • Soll Benutzern, Herstellern von Multimediainhalten und -diensten Homogenität, Transparenz und Kompatibilität bieten.
  • Integration bereits bestehender jedoch komplexer Technologien zu einem Gesamtsystem (z.B.: Digital Rights Management (DRM))


Was sind die wichtigsten Performance-Metriken für Media Server?[Bearbeiten | Quelltext bearbeiten]

  • Gleichzeitigkeit (concurrency) – max. Anzahl an Clients, die unabhängig voneinander auf ein Multimedia-Dokument zugreifen können
  • Zugriffsverzögerung (und Operationsverzögerung) (latency) – die Zeit, die ein Client nach Senden eines Requests warten muss (für eine interaktive Operation); weniger als eine Sekunde (< 1 Sek); sollte unabhängig von der Serverbelastung sein
  • Speicherkapazität (storage capacity)
  • Skalierbarkeit (scalability)
  • Erweiterbarkeit (exensibility) – mehrere Applikations-Szenarien; zur Unterstützung für verschiedene Service-Modelle erweiterbar

Warum ist die Verwendung von ähnlichkeitsmaßen generell problematisch? Problematik beim Messen von ähnlichkeit mittels Distanzmaß.[Bearbeiten | Quelltext bearbeiten]

Distanz und ähnlichkeit: Distanzfunktionen Einleitung

  • Distanzfunktionen vergleichen die Merkmale zweier Medienobjekte
  • Invarianz – drückt aus welche Merkmale zum Vergleich nicht herangezogen werden sollten Definition
  • Binäre Funktion mit folgenden Eigenschaften
  • Selbstidentität, Positivität, Symmetrie, Dreiecksungleichung

Distanzfunktionen

  • Einfache Distanzfunktion, Euklidische Distanzfunktion, Minkowski Distanzfunktion, m-Einheitskreise,

gewichtete Minkowski-Distanz, Einheitskreise, Quadratische Distanz, Mahalanobis Distanzfunktion, Quadratische Pseudodistanz, Einheitskreis, Bottleneck Distanz ähnlichkeitsmaße

  • Objekte werden als ähnlich wahrgenommen, wenn sie bei Menschen zu ähnlichen Reizen (Stimuli) führen
  • Keine allgemein akzeptierte Definition von ähnlichkeit * ähnlichkeitsmodelle in Mathematik, Statistik, Bildverarbeitung und Mustererkennung * ähnlichkeitsmaß: Funktion, die einem Paar von Objekten eine reelle Zahl aus [0,1] zuordnet * Wert 1 korrespondiert mit maximaler ähnlichkeit

Distanz vs. ähnlichkeit

  • Viele Ansätze verwenden Distanzfunktionen auf Featurewerten
  • Distanzwerte werden auf [0,1] abgebildet
  • Distanzeigenschaften für ähnlichkeitsempfinden zu restriktiv (Untersuchungen in der Psychologie) * Bedeutet nicht automatisch, dass Distanzfunktionen für ähnlichkeitsmaße ungeeignet sind.
  • Nur nicht grundsätzlich für alle Anwendungen geeignet

Probleme

  • Selbstidentität: gilt nicht grundsätzlich
  • Positivität: von Tversky als allgemeine Bedigung für menschliches ähnlichkeitsempfinden widerlegt
  • Symmetrie: Rollentausch macht Unterschied
  • Dreiecksungleichung: Unterschiede zwischen 2 Objekten werden zu hoch bewertet wenn kein drittes

für den Vergleich vorliegt Dreiecksungleichung

  • Unähnlichkeit zwischen A und B wird stärker eingeschätzt als Summe der Unähnlichkeiten zu C ähnlichkeitsabstand
  • Unähnlichkeitsmaß
  • Mindesteigenschaften:
  • Dominanz
  • Konsistenz
  • Transitivität
  • Eigenschaften sind allgemeiner als Distanzeigenschaften (z.B. Symmetrie nicht gefordert)
  • Bei Anwendung einer monoton wachsenden Funktion auf Werte eines Abstandmaßes bleiben

Eigenschaften erhalten Grenzen

  • Weltwissen spielt Rolle bei menschlicher Wahrnehmung
  • Ebenen der Inhaltsverarbeitung
  • Syntaktisch (ohne Bedeutung der Objekte)
  • Semantisch (ähnlichkeitsvergleich)
  • Pragmatisch (Interpretation, thematische Kategorien)

ähnlichkeitsmaße

  • Viele verschiedene Funktionen und Maße vorgeschlagen, Viele Kombinationen
  • Leider keine allgemein anerkannte Kombination
  • Viele Alternativen zur Auswahl

von ähnlichkeitsmaßen

Geben Sie eine kurze verbale Beschreibung der Kernaussage des Repräsentationssatzes im Feature Kontrast Modell von Tversky. Beschreiben Sie das tversky ähnlichkeitsmaß.[Bearbeiten | Quelltext bearbeiten]

Positivität: von Tversky als allgemeine Bedingung für menschliches ähnlichkeitsempfinden widerlegt Feature-Kontrast-Modell

  • Matching
  • Monotonie
  • Unabhängigkeit

Mindesteigenschaften [Tversky und Gati]:

  • Dominanz
  • Konsistenz
  • Transitivität Für ein ähnlichkeitsmaß s(a,b) zwischen Objekten a, b auf Grundlage der korrespondierenden Eigenschaftsmengen A und B gelten [Tversky]:
  • Matching
  • Monotonie
  • Unabhängigkeit:
  • Übereinstimmung — f(X,Y,Z) sei ein ähnlichkeitsmaß mit , und Z = B – A. Wir schreiben V ~ W, wenn X, Y und Z existieren, für die eine oder mehrere der Bedingungen gelten:

Für die Unabhängigkeit muss gelten: Parametrisierbare Funktion, Repräsentationssatz: Angenommen, s sei ein ähnlichkeitsmaß, für welches Matching, Monotonie und Unabhängigkeit erfüllt sind. Dann existiert eine ähnlichkeitsfunktion S, eine nichtnegative Funktion f sowie zwei Konstanten Alpha, Beta >= 0, so dass für alle Objekte a; b; c; d gelten. Dieser Satz besagt, dass jede ähnlichkeitsordnung, welche Matching, Monotonie und Unabhängigkeit erfüllt, durch eine Linearkombination der Funktionswerte über der Menge der Gemeinsamkeiten (A nB) und den beiden Mengen der Unterschiede (A\B;B\A) nachgebildet werden kann. Insbesondere lässt sich das Feature-Kontrast-Modell gut verwenden, um eine gewünschte Asymmetrie nachzubilden. Im vorigen Abschnitt wurde diskutiert, dass die ähnlichkeit eines Objektes Alpha mit relativ gering hervorstehenden Eigenschaften zu einem Objekt b mit relativ stark hervorstehenden Eigenschaften größer ist als umgekehrt. Im Feature-Konstrast-Modell geht man davon aus, dass die Stärke der Eigenschaften durch die Funktion f ausgedrückt werden kann:

Erklären Sie kurz das Boolesche IR (information retrival) Modell und diskutieren Sie Nachteile.[Bearbeiten | Quelltext bearbeiten]

boolesches IR Modell[Bearbeiten | Quelltext bearbeiten]

Dokumente werden als Mengen von Indextermen repräsentiert. Suche über Terme in Termmengen; boolescher Junktoren

  • Konzepte der Mengentheorie und der booleschen Algebra
  • klare Semantik, sehr einfaches Modell
  • Gewicht eines Terms bezogen auf ein Text-Dokument binär
  • Jedes Dokument wird intern durch die Menge von Indextermen mit Gewicht „1“ repräsentiert
  • in Anfrage werden Terme angegeben, die durch boolesche Junktoren, also durch »and«, »or« und »not«, kombiniert werden
  • Innerhalb der Vergleichsfunktion werden die durch die Anfrage spezifizierten Anfrageterme in den jeweiligen Dokumenten auf Enthaltensein getestet.
  • Ergebnis eines Termtests ist ein boolescher Wert * boolesche Junktoren zur Kombination einsetzbar

Nachteile:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: aufgrund binärer Gewichte keine ähnlichkeitssuche
  • Größe des Ergebnisses: oft zuviele Dokumente oder keine * boolesche Junktoren: Schwierigkeiten vieler Anwender

Milderung:[Bearbeiten | Quelltext bearbeiten]

  • exaktes Modell: Umwandlung von Konjunktionen in Disjunktionen; Stufen der Relevanz * Größe des Ergebnisses: einige Systeme haben zweistufiges Suchverfahren (faceted query)
  • Anfrage formuliert und verfeinert, ohne jedoch das Ergebnis anzuzeigen.
  • vollständiges Ergebnis
  • boolesche Junktoren: all und any statt and und or

Vektorraummodell IR Modell[Bearbeiten | Quelltext bearbeiten]

  • sehr weit verbreitetes Retrieval-Modell
  • Dokumente werden als Vektoren eines Vektorraums aufgefasst
  • Überführung des Retrieval-Problems in das Gebiet der Linearen Algebra
  • kann überall dort eingesetzt werden, wo Medienobjekte durch eine feste Anzahl numerischer Merkmalswerte dargestellt werden können und sich ähnlichkeit auf dieser Basis berechnet läßt
  • unterstützt im Gegensatz zum booleschen Modell das Konzept der ähnlichkeit
  • Die ähnlichkeit wird zwischen zwei Vektoren berechnet * Anfrage wird durch einen Vektor repräsentiert
  • viele Möglichkeiten zur Berechnung der ähnlichkeit (z. B. Cosinusmaß)
  • auch ähnlichkeit über Distanzfunktionen

Relevance Feedback: Rocchio Verfahren[Bearbeiten | Quelltext bearbeiten]

Browsing — sequentielle Suche, meist wenig sinnvoll, schlechte Anfrageformulierung, vage Vorstellung über das Suchergebnis, Pseudorelevanz: automatische Bewertung Bewertung von Dokumenten: unterschiedliche Bewertungen eines Dokuments bezgl. Verschiedener Dokumenteigenschaften, erhöhter Bewertungsaufwand Dokumentenbewertung kann auslösen:

  • Anfragemodikation
  • Modifikation von Nutzerprofilen
  • Modifikation der Dokumentbeschreibungen
  • Modifikation des Suchalgorithmus
  • Modifikation von Anfragetermgewichten

Verfahren von Rocchio:[Bearbeiten | Quelltext bearbeiten]

  • eigentlich entwickelt für Textdokumente, aber auf andere Medientypen übertragbar
  • Modifikation von Termgewichten des Anfragevektors im Vektorraummodell
  • Termgewichte relevanter Dokumente werden verstärkt und die Termgewichte irrelevanter Dokumente abgeschwächt
  • Verschiebung des Anfragepunktes innerhalb des Vektorraums in Richtung der relevanten Dokumente
  • Menge »Dr« enthält alle bezüglich der Anfrage »qalt« als relevant markierten Dokumente
  • Menge »Di« alle diesbezüglich irrelevanten Dokumente
  • Modifikation des Anfragevektors:
    • Alpha und Beta sind Koeffizienten und gewichten den Einfluss der relevanten und irrelevanten Dokumente

Was ist Spektrogramm?[Bearbeiten | Quelltext bearbeiten]

einfache Darstellungen haben Grenzen:

  • Zeit-Domäne zeigt Frequenz-Anteile eines Signals nicht
  • Frequenz-Domäne zeigt nicht, wann Frequenzen auftreten

Die kombinierte Darstellung ist das Spektrogramm, Ein Spektrogramm ist die Darstellung des zeitlichen Verlaufes des Spektrums eines Signals. Spektrogramm die Zusammensetzung eines Signals (zum Beispiel eines Klangs oder gesprochener Sprache) aus einzelnen Frequenzen im zeitlichen Verlauf dar.

  • x-Achse: Zeit, y-Achse: Frequenzanteile
  • Schwärzung (Farbe) eines Punkts: Energie der Frequenz zu dieser Zeit

Vorgehensweise:

  • Eingangssignal wird blockweise verarbeitet
  • überlappende Segmente des Signals werden verwendet
  • sinusoide Fensterfunktionen in Abb. deuten Signalausschnitte an, auf die sich die Analyse in einem Schritt „konzentriert“ * punktweise Multiplikation von Signalblock mit Fensterfunktion
  • resultierendes Signal wird Fouriertransformiert
  • Aneinanderreihung der Spektralvektoren liefert Zeit-Frequenzdarstellung des Signals
  • Etwas präziser ist ein Spektrogramm eine Darstellung der Frequenzverteilung im Phasenraum mit Hilfe der gefensterten Fouriertransformation. Dies ergibt eine komplexwertige Funktion f(t,ω), die vom Zeitpunkt t und der Frequenz ω abhängt. Das Spektrogramm ist eine Darstellung, die die Werte | f(t,ω) | in einem Zeit-Frequenz-Diagramm (zum Beispiel farbcodiert) aufträgt.
  • Die Interpretation ist dabei die, dass | f(t,ω) | den Frequenzanteil des Signals zum Zeitpunkt t angibt.

Analysen:

  • z.B. Regelmäßigkeit des Auftretens von Frequenzen, Musik vs. Geräusch, mannliche oder weibliche sprache, Musik: Arten von Musik, Umgebungsgeräusche zB. Tierlaute
  • häufig statistische Interpretation als nicht normalisierte Dichtefunktion (pdf) über die Frequenz
  • erlaubt Berechnung statistischer Parameter, z.B. Lagemaße, Streuung

Erklären Sie kurz die Terminal-Architektur von MPEG-7.[Bearbeiten | Quelltext bearbeiten]

Terminal ist das Teil, das die kodierten Repräsentationen des Multimedia-Contents benutzt. Dabei kann es sich um eine eigenständige Applikation oder einen Teil eines Applikationssystems handeln. Die Architektur besteht aus:

  • Application
  • Compression Layer: hier werden die Access-Units geparst und die content description wird

rekonstruiert - eine Konvertierung ins Textformat im Rahmen der Decodierung ist nicht Voraussetzung. Verarbeitung kann entweder im Textformat oder in einem proprietären Binärformat erfolgen.

  • Delivery Layer: stellt Mechanismen für die Synchronisation, Framing und Multiplexing von MPEG-7 Inhalten bereit:
    • MPEG-7 inhalte können unabhängig oder mit dem Content selbst übertragen werden
    • Nicht alle MPEG-7 Streams müssen downstream-fähig sein.
    • Stellt elementary Streams für den Compression Layer zur Verfügung.
    • Elementary streams bestehen aus aufeinanderfolgenden einzeln zugreifbaren Datenpaketen -> Access Units (= Kleinste Dateneinheit, der Zeitinformationenzugewiesen werden können)
    • Elementary Streams beinhalten folgende Informationen
      • Schema information - Struktur der MPEG-7 Description
      • Descriptions information - komplette oder teilweise Beschreibung des Contents
  • Transmission / Storage Medium: unterste Ebene, liefert gemultiplexte Streams an den Delivery Layer (DL)

Erklären Sie kurz die Konzepte Rights Data Dictionary (RDD) und Rights Expression Language (REL). In welchem Kontext treten sie auf und wie spielen sie zusammen?[Bearbeiten | Quelltext bearbeiten]

Die RDD und REL treten im Kontext von MPEG-21 auf. REL benutzt das Rights Data Dictionary (RDD) als Vokabular. Die Rights Expression Language und ist ein XML-Schema (daher maschinenlesbar!) zur Definition von verschiedenen Benutzerrechten für ein Digital Item ( ist ein strukturiertes, digitales Objekt mit einer standardisierten Repräsentation, Identifikation und Metadateninnerhalb des MPEG-21 Standards; sie sind fundamentale Verarbeitungseinheiten (Transaktion, Verteilung) innerhalb des Frameworks; werden durch Digital Item Declaration Language (DIDL) beschrieben (XML!). Der Schutz von Rechten insbesonders des Urheberrechts ist ein wesentlicher Bestandteil von MPEG-21. Die REL soll daher digitale Inhalte schützen, beabsichtigt die Spezifikation von Kontrolle und der Benutzung von digitalen Inhalten und soll Bedingungen für den Austausch von sensiblen oder privaten digitalen Inhalten unterstützen. REL kennt folgende Rechte:

  • Abspielen
  • Ansehen
  • Ausdrucken
  • Editieren

Außerdem kennt sie verschiedene Conditions:

  • Gültigkeit innherhalb bestimmter Zeiträume
  • Bezahlarten wie pay-per-use oder flat-fee
  • Nutzungsanzahlen wie einmalige oder unbegrenzte Nutzung
  • Gebietsgültigkeiten wie Europa oder Amerika

Das Rights Data Dictionary (RDD) definiert verschiedene Bedingungen aus dem Bereich digitaler Rechteverwaltung. Die hier eingetragenen Begriffe sollen eindeutig sein und sind mit einer Auslegung versehen, damit es keine Probleme bei der Implementierung gibt. Erklären Sie kurz die Ziele von MPEG-21?

  • „to define a multimedia framework to enable transparent and augmented use of multimedia resources across a wide range of networks and devices used by different communities.” (Vision der Arbeitsgruppe des MPEG-21 Standards)
  • Einheitliches Framework, das alle Aspekte der Erstellung, Verteilung und Konsumierung von Multimediainhalten regelt.
  • Schaffung einer system- und plattformunabhängigen Umgebung für den Austausch und Gebrauch von Medieninhalten.
  • Soll die Integration von multimedialen Inhalten verschiedener Formate (Standards) ermöglichen.
  • Vereinheitlichung des Multimediaverkehrs: Multimedia Content Provider mit verschiedenen Geschäftsmodellen sollen auf eine einheitliche Infrastruktur von der Erstellung bis zur Konsumierung von Multimedialen Inhalten zurückgreifen können.
  • Effiziente und automatisierte Interoperabilität zwischen verschiedenen Multimedia- Dienstanbietern.
  • Standardisierung sämtlicher Komponenten
  • Soll Benutzern, Herstellern von Multimediainhalten und -diensten Homogenität, Transparenz und Kompatibilität bieten.
  • Integration bereits bestehender jedoch komplexer Technologien zu einem Gesamtsystem (z.B.: Digital Rights Management (DRM))