Bayes Klassifikator

18/04/2010 - 15:55 von Albert Hermeling | Report spam
Moin,

bevor ich fortfahre möchte ich mich kurz Vorstellen. Mein Name ist Albert,
ich bin 41 Jahre und habe beruflich mit Mathematik nichts zu tun. Aber um so
mehr wenn es um mein Hobby das Programmieren geht. Das bringt mich auch zu
meinem Anliegen; ich bin dabei ein Klassifikator für Text zu programmieren,
das sich auf das Bayes Theorem stützt.

Beim Selbststudium hat mir folgende Webseite geholfen:

http://www.math.kit.edu/iag1/~ritterbusch/seite/spam/de#Weitere%20Darstellungen

Ich habe jetzt eine eigene Beispielrechnung entwickelt und möchte jetzt mal
eure Meinung dazu hören.

Textkorpus: In jeweils Hundert Physik und Biologe Dokumenten, wurden durch
auszàhlen der Wörter folgende Zahlen ermittelt (keine Doppel Zàhlungen in
den Dok.):

[Biologie]
Biologie 10
Pflanzen 15
Moleküle 1
Organellen 5

[Physik]
Biologie 0
Pflanzen 2
Moleküle 5
Organellen 0

Zu untersuchender Text: In der Biologie geht es zu aller erst um Pflanzen
die Organellen enthalten, diese wiederum bestehen aus Moleküle.

Zu betrachtende Worte: Biologie, Moleküle, Organellen, Pflanzen

Rechenablauf:
erstens: Multiplizieren der Werte Biologie:
10 * 15 * 1 * 5 = 750
zweitens: Multiplizieren aller Werte Physik:
2*5 = 10
drittens: Multiplizieren aller Werte Biologie:
… = 750
viertens: Summe bilden aus Physik und Biologie:
10 + 750 = 760
Fünftens: erstens teilen durch viertens
750 / 760 = 0,98684211

Gegenprobe:
erstens: Multiplizieren der Werte Physik
… = 10
zweitens: Multiplizieren aller Werte Biologie
… = 750
drittens: Multiplizieren aller Werte Physik
… = 10
viertens: Summe bilden aus Physik und Biologie
10 + 750 = 760
Fünftens: erstens teilen durch viertens
10 / 760 = 0,01315789

Kontrolle: Biologie + Physik = 0,98684211 + 0,01315789 = 1

Da das Kontrollergebnis 1 ist gehe ich davon aus das meine Rechnung stimmt.
Es würde mich aber trotzdem interessieren was ihr von meiner
Beispielrechnung haltet. Außerdem ich habe nur zwei Kategorien für mein
Beispiel verwendet wenn ich jetzt nicht 2 sondern 12 hàtte würde die
Rechnung dann lauten:

[Produkt Biologie] / [(Produkt Physik) + (Produkt Biologie) + (Produkt N3
bis N12)] = Wahrscheinlichkeit

Würde mich über Antworten auf meinen Beitrag sehr Freuen und sage schon mal
Danke

Albert
 

Lesen sie die antworten

#1 Gus Gassmann
18/04/2010 - 17:15 | Warnen spam
Albert Hermeling wrote:
Moin,

bevor ich fortfahre möchte ich mich kurz Vorstellen. Mein Name ist Albert,
ich bin 41 Jahre und habe beruflich mit Mathematik nichts zu tun. Aber um so
mehr wenn es um mein Hobby das Programmieren geht. Das bringt mich auch zu
meinem Anliegen; ich bin dabei ein Klassifikator für Text zu programmieren,
das sich auf das Bayes Theorem stützt.

Beim Selbststudium hat mir folgende Webseite geholfen:

http://www.math.kit.edu/iag1/~ritterbusch/seite/spam/de#Weitere%20Darstellungen

Ich habe jetzt eine eigene Beispielrechnung entwickelt und möchte jetzt mal
eure Meinung dazu hören.

Textkorpus: In jeweils Hundert Physik und Biologe Dokumenten, wurden durch
auszàhlen der Wörter folgende Zahlen ermittelt (keine Doppel Zàhlungen in
den Dok.):

[Biologie]
Biologie 10
Pflanzen 15
Moleküle 1
Organellen 5

[Physik]
Biologie 0
Pflanzen 2
Moleküle 5
Organellen 0

Zu untersuchender Text: In der Biologie geht es zu aller erst um Pflanzen
die Organellen enthalten, diese wiederum bestehen aus Moleküle.

Zu betrachtende Worte: Biologie, Moleküle, Organellen, Pflanzen

Rechenablauf:
erstens: Multiplizieren der Werte Biologie:
10 * 15 * 1 * 5 = 750
zweitens: Multiplizieren aller Werte Physik:
2*5 = 10
drittens: Multiplizieren aller Werte Biologie:
… = 750
viertens: Summe bilden aus Physik und Biologie:
10 + 750 = 760
Fünftens: erstens teilen durch viertens
750 / 760 = 0,98684211

Gegenprobe:
erstens: Multiplizieren der Werte Physik
… = 10
zweitens: Multiplizieren aller Werte Biologie
… = 750
drittens: Multiplizieren aller Werte Physik
… = 10
viertens: Summe bilden aus Physik und Biologie
10 + 750 = 760
Fünftens: erstens teilen durch viertens
10 / 760 = 0,01315789

Kontrolle: Biologie + Physik = 0,98684211 + 0,01315789 = 1

Da das Kontrollergebnis 1 ist gehe ich davon aus das meine Rechnung stimmt.



Hallo Albert,

Die Rechnung stimmt schon, aber wozu soll sie gut sein? Ich habe den
Verdacht, du willst so was bestimmen wie: Gegeben ein Dokument, das
die vier Begriffe Biologie, Moleküle, Organellen, Pflanzen enthàlt, was
ist die "Wahrscheinlichkeit", dass das Dokument von Biologie handelt.
Ich habe "Wahrscheinlichkeit" erst mal in Anführungszeichen gesetzt,
weil zur Bestimmung ein Modell notwendig ist. Wie hast du dieses
Dokument ausgewàhlt? Zufàllig? Aus dem Korpus der 200 Dokumente?

Weil du Bayes erwàhnst, nehme ich an, du willst folgendes rechnen:

W(4|B)*W(B)
W(B|4) = -
W(4|B)*W(B) + W(4|P)*W(P)

wo ich W für Wahrscheinlichkeit gesetzt habe und
B = "Dokument handelt von Biologie"
P = "Dokument handelt von Physik"
4 = "Dokument enthàlt alle vier Begriffe (Biologie, Moleküle,
Organellen, Pflanzen)"

Du weisst, dass in deinem Korpus W(B) = W(P) = 0,5, aber über die
bedingten Wahrscheinlichkeiten weisst du sehr wenig. Du scheinst
anzunehmen (weil du einfach die Zahlen multiplizierst), dass die
Begriffe unabhàngig voneinander in den Dokumenten vorkommen, das heisst,
die Wahrscheinlichkeit, dass ein Dokument den Begriff "Pflanzen"
enthàlt, ist unabhàngig davon, ob z.B. der Begriff "Biologie" darin
vorkommt. Das erscheint mir fragwürdig.

Ausserdem hast du nicht erklàrt, warum du in den Biologiedokumenten alle
vier Zahlen multiplizierst, aber bei den Physikdokumenten zwei Zahlen
weglàsst.

Vermutlich wàre es besser, dass du die Fragestellung sauber erarbeitest,
bevor du hier Antworten suchst. Dann kann man dir besser antworten, und
vielleicht kannst du mit den Antworten mehr anfangen.


Es würde mich aber trotzdem interessieren was ihr von meiner
Beispielrechnung haltet. Außerdem ich habe nur zwei Kategorien für mein
Beispiel verwendet wenn ich jetzt nicht 2 sondern 12 hàtte würde die
Rechnung dann lauten:

[Produkt Biologie] / [(Produkt Physik) + (Produkt Biologie) + (Produkt N3
bis N12)] = Wahrscheinlichkeit

Würde mich über Antworten auf meinen Beitrag sehr Freuen und sage schon mal
Danke

Albert

Ähnliche fragen