Publikationen
Harzig, P., Brehm, S., Lienhart, R., Kaiser, C., & Schallner, R. (2018). Multimodal image captioning for marketing analysis. Proceedings of the IIEEE Conference on Multimedia Information Processing and Retrieval, Miami, FL, United States. https://doi.org/10.48550/arXiv.1802.01958
2018
Prof. Dr. Rainer Lienhart,
S. Brehm,
Dr. Carolin Kaiser
Multimodal image captioning for marketing analysis
Diese Publikation ist nur in englischer Sprache verfügbar.
Abstract:
Die automatische Beschriftung von Bildern mit natürlichsprachlichen Sätzen ist ein wichtiges Forschungsthema. Moderne Modelle sind in der Lage, menschenähnliche Sätze zu produzieren. Diese Modelle beschreiben in der Regel die abgebildete Szene als Ganzes und zielen nicht auf spezifische Objekte von Interesse oder emotionale Beziehungen zwischen diesen Objekten im Bild ab. Marketingunternehmen benötigen jedoch die Beschreibung dieser wichtigen Attribute einer bestimmten Szene. In unserem Fall handelt es sich bei den Objekten von Interesse um Konsumgüter, die in der Regel durch ein Produktlogo identifizierbar sind und mit bestimmten Marken in Verbindung gebracht werden. Aus Marketingsicht ist es wünschenswert, auch den emotionalen Kontext eines markengeschützten Produkts zu bewerten, d.h. ob es in einer positiven oder negativen Konnotation erscheint. Wir gehen das Problem des Auffindens von Marken in Bildern und der Ableitung entsprechender Beschriftungen an, indem wir ein modifiziertes Bildbeschriftungsnetzwerk einführen. Außerdem fügen wir eine dritte Ausgabemodalität hinzu, die gleichzeitig realwertige Bildbewertungen erzeugt. Unser Netzwerk wird mit einer klassifikationsbewussten Verlustfunktion trainiert, um die Generierung von Sätzen zu stimulieren, wobei der Schwerpunkt auf Wörtern liegt, die die Marke eines Produkts identifizieren. Wir evaluieren unser Modell anhand eines Datensatzes von Bildern, die Interaktionen zwischen Menschen und Markenprodukten zeigen. Das vorgestellte Netzwerk verbessert die durchschnittliche Klassengenauigkeit um 24,5 Prozent. Dank der Hinzufügung der dritten Ausgabemodalität verbessert es auch die Qualität der generierten Bildunterschriften für Bilder, die Markenprodukte darstellen, erheblich.
Autorinnen und Autoren
- P. Harzig, Multimedia Computing and Computer Vision Lab, University of Augsburg, Augsburg, Germany
- Prof. Dr. Rainer Lienhart, Universität Augsburg
- S. Brehm, University of Augsburg
- Dr. Carolin Kaiser, Head of Artificial Intelligence, NIM, carolin.kaiser@nim.org
Kontakt