You are not logged in.

  • Login

1

Monday, June 4th 2007, 5:42pm

Suchmaschinen Programmierung

Hoi,

ich hab´ auf deiner Website gesehen, dass du dich mit Suchmaschinen-Programmierung befasst.
Ich hätt da ma gern einige Fragen :D

- mit was programmieren / coden die "großen" Suchmaschinen?
- wie funktioniert das Konzept einer Suchmaschine? Wie wird nach den Inhalten gesucht, wenn sie in ner DB stehen? Was muss man beachten?

Wäre cool, wenn du mir nen paar Tips geben würdest =)
Rein zum Verständnis.


thx

2

Monday, June 4th 2007, 7:06pm

Mit was die großen arbeiten, kann ich dir leider nicht 100%ig beantworten.
Der größte Teil wird wegen der Performance sicherlich in C geschrieben sein.
Intern verwendet Google sehr viel Python - aber ich denke nicht fürs Crawling.

Ja, ich beschäftige mich damit (siehe www.coder-suche.de) - aber ich habe noch keine Zeit gehabt mich in den Code einzuarbeiten und selber mal etwas zu commiten. Nutzen tue ich Nutch. Das ist Java basiert.

Nutch durchsucht das Web, analysiert Dokumente, stellt Verbindungen zwischen Dokumenten her, ... Damit wird dann mit Lucene ein Text-Index erzeugt.

Lucene ist eigentlich das wichtigste Projekt. Auch die unter Linux bekannte Desktopsuchmaschine Beagle baut darauf auf.

Wichtig bei Suchmaschinen ist natürlich die Skalierbarkeit. Dazu nutzt Nutch ein dafür ausgelegtes Dateisystem namens Hadoop. Das ist darauf ausgelegt übers Netzwerk zu arbeiten implementiert auch das von Google bekannte MapReduce.

3

Monday, June 4th 2007, 8:37pm

Ja, ich dachte bereits an C..

aber Java? Hätt ich nicht gedacht =D

Ich arbeite mich da mal ein, wenn mein Bruder mir seine Info-Blätter aus den Vorlesungen mitbringt *hrhr*

Dankö, ist schonmal ne ganz gute Übersicht über benötigtes Wissen^^


thx

4

Tuesday, June 5th 2007, 9:11pm

Hat nichts mit der Programmiersprache zu tun. Aber statistisch ists vielleicht ganz interessant: Der Speicherverbrauch von Google.

Quelle: http://labs.google.com/papers/bigtable.html
Torben Brodt has attached the following image:
  • google-big-table.png

5

Wednesday, June 6th 2007, 5:39pm

Hart, was das für Dimensionen sind - gewaltig.. das erinnert mich immer wieder an die Google Cluster

http://www.informatik.uni-stuttgart.de/fmi/szs/teaching/ws0506/google/ausarbeitungen/geiger.pdf

6

Tuesday, June 12th 2007, 8:51am

Hallo

Der Speicherverbrauch ist ja enorm will garnicht erst wissen wie viel Traffic die verbrauchen.

800TB sind echt ein beträchtliche Menge.

MFG

RichBone

Similar threads

Social bookmarks