Studiengang Informationswissenschaft (Master of Science)

Themenbereich: Business Information Engineering

Modulbezeichnung Methoden-Workshop: Web Science Mining   Modulbeschreibung als pdf laden
(Methodological-Workshop: Web Science Mining)
Belegnummer 4109
Studiengang / Verwendbarkeit Masterstudiengang Informationswissenschaft und MA&S, OJ, WJ
Modulverantwortliche(r) Prof. Dr. Bernd Jörs
Dozent(in) Prof. Dr. Bernd Jörs
Dauer 1 Semester
Credits 5 CP
Prüfungsart Prüfungsleistung: Klausur oder mündliche Prüfung
Sprache deutsch
Inhalt

Die Arbeitswelt der Masterabsolventen wird derartige Qualifikationen gerade im Bereich des „Information Science and Engineering“ vermehrt abverlangen.

  • Nicht zuletzt das „Engineering“, z.B. die  Auseinandersetzung mit Fragen des Design und der Ausformung von elektronischen Märkten bzw. Plattformen im Sinne des Market Engineering, ein Bestandteil des „Business Information Engineering“ erfordert ein Verständnis des „Economist as Engineer“, d.h. jemand, der befähigt ist, elektronische Märkte „mit ingenieurwissenschaftlichen Ansätzen und Verfahren in Verbindung zu bringen“ und dabei explizit auch das (rationale und irrationale) Information Behavior und Decision Behavior der Marktteilnehmer berücksichtigt, wie Prof. Veron Smith, Nobelpreisträger Wirtschaft 2002) forderte.
  • Modernes Web-Controlling im Sinne der immer wichtiger werdenden „Web Analytics“ – also zeitgemäße Nutzerverhaltensforschung, Click-stream-analysis, Tracking ist ohne Kenntnis von quantitativen Datenauswertungsmethoden und –tools nicht möglich, um z.B. die stichprobenartigen Nutzerprofile auf ihre „Signifikanz“ oder „Konfidenz“ zu überprüfen. Gleiches gilt auch für die „user experience“ (UX) und usability-Forschung im Rahmen der interdisziplinären Fachrichtung der „Informations-Architektur“. Wie wird hier methodisch einwandfrei „experimentiert“ und „getestet“?
  • Experimentieren, Simulationen durchführen, Testverfahren anwenden oder empirische Feldforschung betreiben – all dies muss auf  ein methodisch sauberes und nachvollziehbares Fundament gestellt werden. So verlangt z.B. das dem market engineering zugeordnete Planen und Kontrollieren von so genannten „Empfehlungssystemen“ (recommendation systems), bestes Beispiel die fortlaufenden, personalisierten Empfehlung auf der Website von Amazon, das stichprobenartige Testen von derartigen Kaufempfehlungen auf Nutzerrelevanz und –akzeptanz, um die Such- und Entscheidungsprozesse für den Nutzer zu optimieren.

  • Im Rahmen des Online Marketing, hier zum Beispiel bei der Anwendung von multivariaten Verfahren der Landingpage-Optimierung,  der strategischen und operativen Unternehmensplanung, der Marktforschung, der Kosten- und Erlös- bzw. Budgetschätzung oder der Investitions- und Finanzrechnung bzw. Kapitalmarkt-Risikoanalyse sind methodisch einschlägige Datenanalysen und -prognosen und deren Qualität das non-plus ultra. Wie erhält man qualitativ gute und methodisch akzeptierte Vorhersagen?
  • Die methodisch professionelle, mathematisch-statistisch akzeptierte Aufbereitung und „zielführende Gestaltung bzw. Interpretation“ der Ergebnisse sind auch Gegenstand des gesamten Anwendungsfeldes der Datenanalytik und der damit immer stärkeren Datenvermarktungswirtschaft, z.B. im Bereich der Sportdatenerhebungen, Medienanalysen, Geo-Daten, Facebook- oder Google-Datenanalyse etc.
  • Wissenschaftliche Messmethodenfragen aus Sicht der social media network analysis und die einführende Auseinandersetzung mit Fragen der (statistischen) Datenerhebung und –auswertung im Rahmen der Wirtschaftlichkeits- und Nutzerverhaltensanalysen runden die Thematik ab.

Eine der informationsökonomischen Aufgaben ist es, das richtige methodische, quantitative  und  qualitative  Werkzeug  einzusetzen, um die Unsicherheit über zukünftige Entwicklungen   und  Ereignisse informationswirtschaftlich  besser abzuschätzen, die Risiken mit verbesserten Wahrscheinlichkeiten zu versehen und  damit  dem  Entscheider  eine  bessere  Informationsbasis  zu  geben.
Dazu müssen vor allem moderne quantitative und qualitative, mathematisch-statistische, heuristische  und nicht-mathematische  Prognoseverfahren  zum  Einsatz  kommen, die in diesem Lehrveranstaltungsangebot behandelt und geübt bzw. vertieft werden sollen.

Angestrebte Lernergebnisse
(Learning Outcome)

Das von Sir Tim Berners-Lee, dem Begründer des World Wide Web,  ins Leben gerufene interdisziplinäre Forschungsfeld der „Web Science“ (web science trust, webscience.org) vereinigt eine Vielzahl von Wissenschaftsdisziplinen: Computer Science, Media, Economics, Law, Social-cultural, Sociology, Ecology, Biology, Psychology, Artificial Intelligence, Web Engineering und Mathematics.

Zu den wichtigsten Voraussetzungen, um im zukunftsträchtigen Web Science-Segment tätig zu sein, sind die Kenntnis, Beherrschung und Anwendung von Methoden des Data- und Web Mining, insbesondere in Bezug auf das Forschungsterrain des knowledge engineering und den Methoden der artificial intelligence (Künstliche Intelligenz). Dies gilt sowohl für die Analyse strukturierter als auch, und in Zukunft vermehrt, für die Aufbereitung und Auswertung unstrukturierter Daten und Informationen, wie z.B. im „Web 2.0“. Studenten des informationswissenschaftlichen Bachelor und Master haben durch ihre einschlägigen Qualifikationen eine ausgezeichnete Voraussetzung, in diesem multidisziplinären, über den eigenen Tellerrand schauenden Zukunftsbereich tätig zu sein.

Um die bestehenden Fähigkeiten dieser Studierenden zu erweitern und zusätzliche, praxistaugliche Alleinstellungsmerkmale zu vermitteln, soll  in diesem Fachmodul ein methodisch-operatives Rüstzeug im Umgang mit Business Intelligence-, insb. Data- und Web Mining-Verfahrenstechniken bzw. Maschinellen Lernverfahrensansätzen mit auf den Weg gegeben werden.

AbsolventInnen des Masterstudiengangs sollen später schnell, kostengünstig und zielführend für verschiedene Kunden, Nutzer  und  Entscheider  Informations(vermarktungs)dienstleistungen auf hohem qualitativem und wissenschaftlichem Niveau vollbringen. Auf einem der wichtigsten beruflichen Arbeitsfelder der Zukunft, der Aufbereitung von strukturierten und unstrukturierten (Massen-)Daten, nicht zuletzt durch die aufgekommene „Big Data“-Diskussion angestoßen, sind zur Erlangung von arbeitsmarktrelevanten, wettbewerbsfähigen Qualifikationsalleinstellungsmerkmalen u.a. gute methodische skills zur Analyse derartiger strukturierter und unstrukturierter Datenmengen dringend notwendig. Dazu muss man u.a. auf die in der „scientific und practice community“ bekannten und akzeptierten quantitativ-qualitativen,heuristisch-statistischen Verfahren zurückgreifen. Aber dies nicht kritiklos und „blind“. Das moderne Management benötigt Mitarbeiter, die fundierte (empirische) Analyse-, Klassifikations- und Prognosemethoden kennen und beherrschen, aber auch deren Aussagekraft und Grenzen bei der Datenerhebung, -aufbereitung, -analyse und –aufbereitung richtig einschätzen können; gerade im Zeitalter der (webbasierten) Massendatenproduktion („Big Data“) ist hier ein kritisch-wacher Sachverstand notwendig, denn die Ankündigungen sind beeindruckend:

  • “Data is the new oil” (Gerd Leonhard, The Media Futurist) Data will become a key currency, as it is a virtually limitless, non-rival, and exponentially growing good. What will Generation AO (always-on) share with whom, when, where, and how? Data is exploding all around us: every 'like,' check-in, tweet, click, and play is being logged and mined. Many data-centric companies such as Google are already paying us for our data by providing more or less free services.
  • „The sexiest job in the next 10 years will be statisticians. People think I‘m joking, but who would‘ve guessed that computer engineers would‘ve been the sexy job of the 1990s. If „sexy“ means having rare qualities that are much in demand, data scientists are already there“ (Prof. Dr. Hal Varian, Chief Economist Google Inc.)
  • Data Scientist: The Sexiest Job of the 21st Century by Thomas H. Davenport and D.J. Patil Data Scientist: The Sexiest Job of the 21st Century (Thomas H. Davenport and D.J. Patil, Harvard Business Review 10/2012)
  • Are you ready for the era of ‘big data’? : Radical customization, constant experimentation, and novel business models will be new hallmarks of competition as companies capture and analyze huge volumes of data. (McKinsey&Company 2012)

Carolin Kaiser stellt in ihrem Buch „Business Intelligence 2.0“ die richtigen Ausgangsfragen:

  • Wie kann wertvolles Wissen aus dem (Web 1.0, der Verf.) und Web 2.0 gewonnen werden? (Mining-Services)
  • Wie kann dieses Wissen über die Zeit hinweg überwacht werden? (Monitoring-Services)
  • Wie kann frühzeitig von kritischen Situationen gewarnt werden? (Frühwarn-Services)
  • Wie können Entscheidungen zur Meinungsbeeinflussung unterstützt werden ? (Entscheidungsunterstützung-Services)

Was sind das für Analyse-, Klassifikations- und Vorhersagemethoden, was können sie und was können sie nicht?

Warum wird über eine vereinfachte Darstellung nicht die eigentliche (begrenzte) Substanz dieser oft sehr mathematisch formelhaft komplex dargestellten Methoden offen gelegt, wie in diesem Fachmodul vorgesehen?
Will man durch formelhafte Berechnungskomplexität und komplizierte Herleitung wissenschaftlich beeindrucken, nach der Devise: Je schwieriger und schwerverständlich, desto besser die Analyse-, Klassifikations- und Prognosequalität? Baue ich hier eine eigene (fiktive, realitätsferne)  Wissenschaftswelt auf, die lediglich dem armseligen „Beeindrucken“ gilt, die häufig dogmatisch und autoritär erscheint, statt dem eigentlichen Ziel, die ökonomische und soziale Realität zu erklären und zu prognostizieren?

Warum fällt es so schwer, sich neuen Erkenntnissen und Verfahrenstechniken der qualitativ-intuitiven Prognostik oder der webbasierten Datenerhebungs- und -analysetechniken für die Analyse-,  Forschungs- und Prognosearbeit zu öffnen, die nachweislich bessere Ergebnis- und Vorhersagequalitäten besitzen, wie Auswertungen bei Google Analytics oder elektronischen Plattformen wie „prediction markets“ belegen ?

Wie gehe ich insbesondere mit der Analyse strukturierter und vor allem durch das Text- und Web Mining vorgegebener unstrukturierter Daten um. Können die traditionellen, multivariaten Analysemethoden hier mithalten?

Im Fokus der Lehrveranstaltung steht das Qualifikationsziel der anwendungsorientierten Vermittlung von Verfahrenstechniken des empirisch-experimentellen  Data- und Web-Mining, insbesondere mit Bezug auf die Grundlagen Maschinellen Lernens (als Bestandteil des Knowledge Discovery in Databases KDD).

Ausgangspunkt sind die methodischen Anaylsetechniken des Data-Mining, das versucht  – wie in Wikipedia  allgemein formuliert – „aus einem Datenberg etwas Wertvolles (zu) extrahieren“. Methodenbasis für eine systematische Auswertung der Daten, die häuifg wertvolles implizites Wissen enthalten, ist die Anwendung bestimmter, anerkannter deskriptiver und induktiver  statistischer Analyseverfahren „mit dem Ziel, neue Muster zu erkennen.“ Text- und Web-Mining nutzen diese methodischen Grundlagen des Data Mining, um solche Muster (pattern) aus eher unstrukturierten Daten herauszufiltern.

Wie lassen sich aus Vergangenheitsdaten (Trainingsdaten)  Regelhaftigkeiten, Muster, Zusammenhangs- und Abhängigkeitsbeziehungen, Prognosepotenziale, Ähnlichkeiten, Klassifikationen (Cluster, Assoziationen) oder Netzwerkverbindungen herleiten und anhand von Testdaten sowie durch überwachtes oder nicht-überwachtes  maschinelles Lernen überprüfen?
Wie wird dies methodisch realisiert ? Kann man damit gute Vorhersagen machen?

Es bedarf also dreier grundsätzlicher Qualifikationsziele:

  1. Befähigung zum Umgang mit quantitativ-qualitativen, heuristisch-statistischen Verfahren des Data- und Web Mining als Methodentools der Web Science
  2. Anwendungsbefähigung und Verständnisschaffung für die Nutzung einschlägiger Anwenderstandardsoftware (z.B. die weltweit mit am häufigsten zur Anwendung kommende IBM SPSS Modeller Software, die an der Hochschule als Testsoftware mit nahezu allen Funktionalitäten für Studenten des Studiengangs zur Verfügung steht)
  3. Kritisch-rationale Einschätzung der Möglichkeiten und Grenzen der Anwendung und Aussagekraft herkömmlicher und neuer Analyse-, Forschungs- und Prognosemethoden.

Die Vermittlung mathematisch/heuristischer-statistischer, insb. „multivariater Verfahren“, löst oftmals ein „ungutes“ Gefühl aus, deshalb  werden stellen sich für den Dozenten besondere Herausforderungen.
Dies erfolgt in Form einer „Anti-Hegel“-Lehrveranstaltung:
„Er hat dazu geführt, dass es in Universitäten – in vielen Universitäten, natürlich nicht in allen – eine Tradition gibt, Dinge hegelianisch auszudrücken, und dass die Leute, die das gelernt haben, es nicht nur als ihr Recht ansehen, so zu sprechen, sondern geradezu als ihre Pflicht. Aber diese sprachliche Einstellung, die Dinge schwierig und damit eindrucksvoll auszudrücken, die macht die deutschen Intellektuellen unverantwortlich… Die intellektuelle Verantwortlichkeit besteht darin, eine Sache so deutlich hinzustellen, dass man dem  Betreffenden, wenn er etwas Falsches oder Unklares oder Zweideutiges sagt, nachweisen kann, dass es so ist“ Es gibt eine Art Rezept für diese Dinge:… Man sage Dinge, die großartig klingen, aber keinen Inhalt haben, und gebe dann Rosinen hinein – die Rosinen sind Trivialitäten. Und der Leser fühlt sich gebauchpinselt, denn er sagt, das ist ja ein ungeheuer schweres Buch!
(Sir Karl Popper 1990)

Die Lehrveranstaltung soll daran gemessen werden, ob sie den kritisch-rationalen Anmerkungen von Karl Popper Folge geleistet haben.

Niveaustufe / Level Fortgeschrittenes Niveau (advanced level course)
Lehrform / SWS Seminar (4 SWS)
Arbeitsaufwand / Workload 128 Stunden
Units (Einheiten)
Notwendige Voraussetzungen
Empfohlene Voraussetzungen

Interesse an einer methodisch-wissenschaftlichen Qualifikation für Aufgaben im Business Intelligence-, Online-Marketing-, Wirtschafts- und Finanz-, Marktforschungs- oder Wissenschaftsbereich.

Da die Lehrveranstaltung als (geblockter) Methodenworkshop angeboten werden soll und die Teilnehmer schon während der Veranstaltung die Anwendung der Methoden üben sollen, wird die Bereitschaft zur aktiven und ernsthaften Teilnahme eine elementare Voraussetzung sein. Interessenten, die andere für sich arbeiten und rechnen lassen wollen, in der Lehrveranstaltung lieber online googeln, sollten diese Lehrveranstaltung nicht belegen.

Häufigkeit des Angebots
Anerkannte Module Siehe § 19 ABPO
Medienformen
Literatur
Stand: 09.09.2013, 09:07:30. Ältere Versionen im Archiv.