Uni­ver­si­tät Bam­berg: Was machen eigent­lich Statistiker?

Symbolbild Bildung

Erklä­run­gen mit­hil­fe einer hoch­ka­rä­tig besetz­ten Tagung und anhand eines fik­ti­ven Beispiels

Con­fe­rence on Appli­ca­ti­ons of Miss­ing-Data Pro­ce­du­res: Hin­ter die­sem sper­ri­gen Titel ver­birgt sich eine Tagung, bei der eini­ge der bedeu­tend­sten Sta­ti­sti­ker unse­rer Zeit refe­rie­ren wer­den. Allen vor­an der meist­zi­tier­te Sta­ti­sti­ker der Welt, Donald B. Rubin, seit 25 Jah­ren Pro­fes­sor an der renom­mier­ten Har­vard Uni­ver­si­ty – und Ehren­dok­tor der Uni­ver­si­tät Bam­berg. Rubin ist Ideen­ge­ber und Ent­wick­ler zahl­rei­cher welt­weit aner­kann­ter Ver­fah­ren und Algo­rith­men zum Umgang mit und zur Ergän­zung von feh­len­den Daten, dem über­ge­ord­ne­ten The­ma der Tagung. Rubin wird im Dezem­ber 70 Jah­re alt und ist nicht nur Ehren­gast, son­dern auch Anlass der Zusam­men­kunft, zu der sei­ne aka­de­mi­sche Toch­ter Prof. Dr. Susan­ne Räss­ler, Inha­be­rin des Lehr­stuhls für Sta­ti­stik und Öko­no­me­trie an der Uni­ver­si­tät Bam­berg, gela­den hat. Susan­ne Räss­ler ist Exper­tin für Umfra­gen und Stich­pro­ben­zie­hun­gen, Mit­glied der Zen­sus-Kom­mis­si­on und eine von drei Trä­gern des deutsch­land­weit ein­zi­gen Master­stu­di­en­gangs zu die­sem Forschungsfeld.

Neben Rubin kann die Orga­ni­sa­to­rin noch mit vie­len wei­te­ren „Hoch­ka­rä­tern“ auf­war­ten, doch jetzt erst ein­mal zu den Inhal­ten: Räss­ler und ihre „Fami­lie“, wie sie ihre Refe­ren­ten lie­be­voll nennt, tref­fen sich am 19. Juni zwi­schen 9 und 16 Uhr und am 20. Juni zwi­schen 10 und 17 Uhr in der Kasern­str. 4 in Bam­berg, um sich über fünf Pro­blem­fel­der inner­halb des sta­ti­sti­schen For­schungs­ge­biets „Umgang mit und Ergän­zung von feh­len­den Daten“ aus­zu­tau­schen: Mess­feh­ler, kau­sa­le Schluss­fol­ge­run­gen, Anony­mi­sie­rung von ver­trau­lich zu behan­deln­den Daten, Umgang mit gro­ßen Men­gen feh­len­der Daten sowie Daten­fu­si­on. Was zunächst völ­lig abstrakt und welt­fremd klingt, ist die Basis für vie­le wich­ti­ge Erkennt­nis­se, die unser Leben direkt oder indi­rekt betreffen.

Was das prak­tisch bedeu­tet, zeigt fol­gen­des fik­ti­ves Bei­spiel: Ein frisch­ge­backe­ner Schul­lei­ter möch­te sich mit eini­gen Phä­no­me­nen an sei­ner neu­en Schu­le ver­traut machen. Zum Bei­spiel ist ihm auf­ge­fal­len, dass in eini­gen Klas­sen mit erhöh­tem Aus­län­der­an­teil die Lei­stun­gen in den Kern­fä­chern Mathe­ma­tik, Deutsch und Eng­lisch im Ver­gleich zu ande­ren homo­ge­ner zusam­men­ge­setz­ten Klas­sen der­sel­ben Klas­sen­stu­fe deut­lich gerin­ger ist. Zur Ursa­chen­for­schung möch­te er ger­ne eine Umfra­ge machen. Und schon kom­men die Sta­ti­sti­ker ins Spiel. Ihre Auf­ga­be ist die Kon­zep­ti­on, Durch­füh­rung und Aus­wer­tung sol­cher Umfra­gen, wobei Durch­füh­rung in die­sem Fall weni­ger die Arbeit vor Ort, also bei­spiels­wei­se das Ver­tei­len von Fra­ge­bö­gen meint, als viel­mehr die Metho­de, mit der sicher­ge­stellt wird, dass am Ende der Umfra­ge auch ein kor­rek­ter Daten­satz zur Aus­wer­tung vorliegt.

Gemein­sam mit unse­rem Schul­lei­ter wür­den die Sta­ti­sti­ker bei­spiels­wei­se eine Umfra­ge für die Eltern kon­zi­pie­ren, in der sie Fra­gen zur Berufs­tä­tig­keit, zu Bil­dung und Aus­bil­dung, zur Natio­na­li­tät und zu Fami­li­en­zu­sam­men­hän­gen, sprich, zu grund­le­gen­den Infor­ma­tio­nen zum Leben der Schü­ler stel­len und bei auf­tre­ten­den Pro­ble­men wie Fol­gen­dem metho­disch ein­grei­fen: Gera­de bei Fra­gen, die das Pri­vat­le­ben und die Per­sön­lich­keit betref­fen, wer­den oft aus Grün­den wie Scham oder Unsi­cher­heit fal­sche Anga­ben gemacht. So wird aus einem Haupt­schul­ab­schluss ein Abitur oder aus einem 60-jäh­ri­gen Vater ein 45-jäh­ri­ger. Je mehr feh­ler­haf­te Anga­ben, desto ver­fälsch­ter der Datensatz.

Daten­lücken schließen

Je ver­fälsch­ter der Daten­satz, desto unzu­ver­läs­si­ger das Ergeb­nis der Umfra­ge. Sta­ti­sti­ker erken­nen sol­che unplau­si­blen Wer­te und stel­len fest, ob es zufäl­li­ge oder syste­ma­ti­sche Feh­ler sind. Auf die­sem Wis­sen auf­bau­end kön­nen sie die durch die feh­ler­haf­ten Anga­ben ent­stan­de­nen Daten­lücken zu einem kom­plet­ten Daten­satz ergän­zen, so dass die Umfra­ge mög­lichst voll­stän­dig und mit mög­lichst kor­rek­ten Daten aus­ge­wer­tet wer­den kann. Der Umgang mit sol­chen soge­nann­ten „Mess­feh­lern“ bil­det den ersten Teil der Tagung, zu dem unter ande­rem Prof. Dr. Rode­rick J.A. Litt­le und Dr. Natha­ni­el Schen­ker, der Prä­si­dent der Ame­ri­ka­ni­schen Sta­ti­sti­schen Gesell­schaft spre­chen wer­den. Rode­rick J. A. Litt­le ist ein Freund und Part­ner Rubins, der gemein­sam mit ihm DAS Stan­dard­werk zum Umgang mit feh­len­den Daten geschrie­ben hat.

Schluss­fol­ge­run­gen ziehen

Das zwei­te The­ma der Tagung, „kau­sa­le Schluss­fol­ge­run­gen“, wozu unter ande­rem Susan­ne Räss­ler refe­riert, könn­te bei unse­rem Bei­spiel fol­gen­der­ma­ßen aus­se­hen: Neben den Lei­stungs­un­ter­schie­den bei bestimm­ten Klas­sen inter­es­siert sich der Schul­lei­ter außer­dem für die Effi­zi­enz bestimm­ter Lern­me­tho­den, spe­zi­ell in Bezug auf Grup­pen­ar­beit und Fron­tal­un­ter­richt. Die Sta­ti­sti­ker raten ihm zu einem Expe­ri­ment, in dem er zwei homo­ge­ne Grup­pen bil­det, bei denen bis auf das zu unter­su­chen­de Ele­ment alle Vor­aus­set­zun­gen und Eigen­schaf­ten gleich sind (Klas­sen­stu­fe, Auf­ga­ben­stel­lung, Lern­ziel etc.). Bei einer anschlie­ßen­den Klau­sur, die bei­de Grup­pen par­al­lel schrie­ben, wur­de das Lern­ziel kon­trol­liert und die Grup­pe „Grup­pen­ar­beit“ erziel­te ein­deu­tig bes­se­re Ergeb­nis­se. Aus die­sem Expe­ri­ment kau­sa­le Schluss­fol­ge­run­gen zu zie­hen, also nach­weis­bar fest­zu­le­gen, dass das Ergeb­nis kein Zufall war, ist hier die näch­ste Auf­ga­be der Sta­ti­sti­ker. Denn aus einem star­ken Zusam­men­hang folgt nicht auto­ma­tisch, dass es auch eine ein­deu­ti­ge Ursa­che-Wir­kungs-Bezie­hung gibt. Oder auf unser Bei­spiel bezo­gen: Die Tat­sa­che, dass Schü­ler bei der Grup­pen­ar­beit mehr mit­ein­an­der kom­mu­ni­ziert haben als die Schü­ler beim Fron­tal­un­ter­richt, heißt noch nicht auto­ma­tisch, dass eine sol­che Kom­mu­ni­ka­ti­on Grup­pen­ar­beit effi­zi­en­ter macht.

Daten anony­mi­sie­ren

Kom­men wir von der Grup­pen­ar­beit zurück zur Umfra­ge über die Lei­stun­gen in den Kern­fä­chern und zu den Anga­ben, die Per­sön­lich­keit und Pri­vat­le­ben betref­fen – und damit zu einem wei­te­ren Pro­blem­feld: Ein Kol­le­ge ist sehr inter­es­siert an der Umfra­ge und bit­tet den Schul­lei­ter, ihm die Roh­da­ten, also die aus­ge­füll­ten Umfra­ge­bö­gen für eige­ne Nach­for­schun­gen zur Ver­fü­gung zu stel­len. Eini­ge Anga­ben, die in der Umfra­ge abge­fragt wur­den, sind aller­dings ver­trau­lich und nicht zur Wei­ter­ga­be bestimmt. Wür­de der Schul­lei­ter aller­dings nur die Daten wei­ter­ge­ben, für die er eine aus­drück­li­che Erlaub­nis hat, wäre der Daten­satz unvoll­stän­dig und sein Kol­le­ge hät­te kei­ne Mög­lich­keit, mit ihm ver­läss­li­che Aus­wer­tun­gen vor­zu­neh­men. Aber auch hier­für hat die Sta­ti­stik eine Lösung, wie zum Bei­spiel Dr. Jörg Drechs­ler, ehe­ma­li­ger Dok­to­rand Susan­ne Räss­lers und jet­zi­ger Mit­ar­bei­ter am Insti­tut für Arbeits­markt und Berufs­for­schung, zu berich­ten weiß. Er hat 2009 in sei­ner Dok­tor­ar­beit einen teil­syn­the­ti­schen Daten­satz erzeugt, also nicht die Daten selbst, son­dern deren Struk­tur gespie­gelt, womit er eine Anony­mi­sie­rung der Daten erreicht hat und damit eine Wei­ter­ga­be von ver­trau­li­chen Daten ermög­licht. Deutsch­land­weit ein Novum, denn bis dato kann­te man sol­che Ver­fah­ren nur von Donald B. Rubin aus­ge­hend in den USA. Die neue­sten Ent­wick­lun­gen im Bereich der Daten­an­ony­mi­sie­rung sind das drit­te The­ma der Sta­ti­stik Tagung, zu dem auch Jörg Drechs­ler spre­chen wird.

Daten ergän­zen

Beim vier­ten The­ma geht es um den Umgang mit gro­ßen Men­gen feh­len­der Daten. Für den Schul­lei­ter wird das zum Bei­spiel dann rele­vant, wenn er Syn­er­gie­ef­fek­te zwi­schen ein­zel­nen Fächern fest­stel­len, also bei­spiels­wei­se sehen möch­te, ob es zwi­schen einem musi­ka­li­schen und einem mathe­ma­ti­schen Ver­ständ­nis Bezie­hun­gen gibt und man über die Ver­mitt­lung bestimm­ter Lern­in­hal­te in Musik ein grö­ße­res Ver­ständ­nis bestimm­ter Lern­in­hal­te in Mathe­ma­tik errei­chen könn­te. Die Lösung ist auch hier ein Expe­ri­ment, aller­dings gibt es dabei fol­gen­des Pro­blem, das es sta­ti­stisch zu lösen gilt: Um die­se Fra­ge­stel­lung beant­wor­ten zu kön­nen, müss­te es jeweils eine Schü­ler­grup­pe geben, die nur Musik- bzw. nur Mathe­un­ter­richt bekommt, damit sie nur für sich betrach­tet wer­den kann. Ande­rer­seits müs­sen aber bei­de Grup­pen auch zuein­an­der in Bezie­hung gesetzt wer­den, was eigent­lich vor­aus­set­zen wür­de, das bei­de Grup­pen auch bei­de Fächer unter­rich­tet bekom­men. Vor­aus­set­zung eins schließt aber Vor­aus­set­zung zwei aus, so dass bei bei­den Grup­pen gro­ße Men­gen an Daten feh­len, näm­lich der Mathe­ma­tik­teil bei den Musik­schü­lern und der Musik­teil bei den Mathe­ma­tik­schü­lern. Über Pro­blem­stel­lun­gen die­ser Art refe­riert auf der Tagung unter ande­rem Dr. Flo­ri­an Mein­fel­der, wis­sen­schaft­li­cher Mit­ar­bei­ter am Lehr­stuhl für Sta­ti­stik und Öko­no­me­trie an der Uni­ver­si­tät Bam­berg. Ihm gelang es bereits mehr­fach, sta­bi­le Algo­rith­men zu ent­wickeln, mit denen man sol­che gro­ßen Men­gen an feh­len­den Daten ergän­zen kann.

Daten­sät­ze zusammenführen

Das fünf­te Tagungs­the­ma hängt eng mit dem vier­ten zusam­men, oder um beim Bei­spiel zu blei­ben: Der Schul­lei­ter stellt fest, dass die übli­chen ein oder maxi­mal zwei Schul­stun­den am Stück zu wenig sind, um die Musik- und Mathe­ma­tik­grup­pen aus­sa­ge­kräf­tig zu testen. Damit wird er gezwun­gen, das Expe­ri­ment in ver­schie­de­nen Blöcken mit meh­re­ren Musik- und Mathe­ma­tik­grup­pen durch­zu­füh­ren. So ent­ste­hen vie­le Daten­sät­ze, die alle unter­schied­li­che Quel­len haben. Spe­zia­list für die Zusam­men­füh­rung sol­cher Daten­sät­ze ist unter ande­rem Dr. Chri­sti­an Aßmann, ope­ra­ti­ver Lei­ter und Koor­di­na­tor der Metho­den­grup­pe im Natio­na­len Bil­dungs­pa­nel, der dort ent­spre­chen­de Ver­fah­ren bereits imple­men­tiert hat. Er setzt mit sei­nem Vor­trag den inhalt­li­chen Schluss­punkt der Tagung, bevor Donald B. Rubin die vor­ge­stell­ten Ergeb­nis­se und Pro­blem­stel­lun­gen bewer­ten und dis­ku­tie­ren wird.

Doch ein wenig Lust auf Sta­ti­stik bekom­men? Die Tagungs­re­fe­ren­ten ste­hen ger­ne für Inter­views und Gesprä­che rund um die oben­ge­nann­ten Pro­blem­stel­lun­gen zur Ver­fü­gung und geben Aus­kunft über sta­ti­sti­sche Fra­ge­stel­lun­gen in Gesell­schaft, Wis­sen­schaft, Wirt­schaft oder Poli­tik. Geeig­ne­te Ansprech­part­ner zu Ihren indi­vi­du­el­len The­men ver­mit­telt Ihnen Prof. Dr. Susan­ne Räss­ler Lehr­stuhl für Sta­ti­stik und Öko­no­me­trie an der Uni­ver­si­tät Bam­berg Tel. 0951/863 2530 bzw. ‑2531 (Sekre­ta­ri­at) E‑Mail: susanne.​raessler@​uni-​bamberg.​de