Mit was die großen arbeiten, kann ich dir leider nicht 100%ig beantworten.
Der größte Teil wird wegen der Performance sicherlich in C geschrieben sein.
Intern verwendet Google sehr viel Python - aber ich denke nicht fürs Crawling.
Ja, ich beschäftige mich damit (siehe
www.coder-suche.de) - aber ich habe noch keine Zeit gehabt mich in den Code einzuarbeiten und selber mal etwas zu commiten. Nutzen tue ich Nutch. Das ist Java basiert.
Nutch durchsucht das Web, analysiert Dokumente, stellt Verbindungen zwischen Dokumenten her, ... Damit wird dann mit Lucene ein Text-Index erzeugt.
Lucene ist eigentlich das wichtigste Projekt. Auch die unter Linux bekannte Desktopsuchmaschine Beagle baut darauf auf.
Wichtig bei Suchmaschinen ist natürlich die Skalierbarkeit. Dazu nutzt Nutch ein dafür ausgelegtes Dateisystem namens Hadoop. Das ist darauf ausgelegt übers Netzwerk zu arbeiten implementiert auch das von Google bekannte MapReduce.