Timeout bei SELECT * FROM

KMD · 16. April 2011, 09:29

Hallo Leute,

ich stehe mal wieder vor einem Problem welches ich mir nicht erklären kann.

Ich möchte Produktdaten aus einer CSV-Datei in eine Datenbank importieren. Es sind ca. 100.000 Produkte. Um dabei nicht in einen Timeout rein zu laufen, importiere ich Pakete mit je 1.000 Produkte. Das heisst, nach jedem 1.000sten Produkt ruft sich das Script immer wieder selber auf, solang bis alle Produktdaten aus der CSV abgearbeitet sind - ich nenne diese Selbstaufrufe jetzt einfach mal "Prozesse".

Bei diesen "Prozessen" wird geprüft, ob das jeweilige Produkt schon existiert - wenn ja, wird ein UPDATE des Produkts ausgeführt, wenn nein wird ein INSERT in eine temoräre Datenbank ausgeführt. Und genau bei diese Prüfung liegt mein Problem. Von Prozess zu Prozess wird die Prüfung auf Existens des Produkts immer langsamer bis hin zum Timeout.

Lasse ich die Prüfung weg und importiere die Produkte in die temporäre Datenbank, arbeiten die Prozesse alle 100.000 Produkte ohne Probleme ab.
Kann mir jemend dieses "Ausbremsen" erklären?

Hier mal das Snippet:

Quellcode

// Prüfen ob der Datensatz schon existiert. Wenn ja, updaten ansonsten neu schreiben
$database->db_query("pruefung", "SELECT * FROM ".$mysql_table_produkte_test." WHERE ProgramID = '".$ProgramID."' AND MerchantProductNumber = '".$MerchantProductNumber."' LIMIT 1");
if($database->db_get_num_results("pruefung") == 1)
{
// Daten in Produkt-Datenbank updaten
$database->db_query("updaten", "UPDATE ".$mysql_table_products." SET ProductName = '".$ProductName."', ProductPrice = '".$ProductPrice."', ProductPriceOld = '".$ProductPriceOld."', CurrencySymbolOfPrice = '".$CurrencySymbolOfPrice."', ValidFromDate = '".$ValidFromDate."', ValidToDate = '".$ValidToDate."', ProductShortDescription = '".$ProductShortDescription."', ProductLongDescription = '".$ProductLongDescription."', ImageSmallURL = '".$ImageSmallURL."', ImageMediumURL = '".$ImageMediumURL."', ImageLargeURL = '".$ImageLargeURL."', ZanoxProductLink = '".$ZanoxProductLink."', DeliveryTime = '".$DeliveryTime."', TermsOfContract = '".$TermsOfContract."', ProductEAN = '".$ProductEAN."', ISBN = '".$ISBN."', ShippingAndHandling = '".$ShippingAndHandling."', ShippingAndHandlingCost = '".$ShippingAndHandlingCost."', kategorie_id = '".$kategorie_id."' WHERE ProgramID = '".$ProgramID."' AND MerchantProductNumber = '".$MerchantProductNumber."' LIMIT 1");
}
else
{
// Daten in temporäre Datenbank schreiben
$database->db_query("einfuegen", "INSERT INTO ".$mysql_table_products_temp." (ProgramID, MerchantName, MerchantProductNumber, ProductName, ProductPrice, ProductPriceOld, CurrencySymbolOfPrice, ValidFromDate, ValidToDate, ProductShortDescription, ProductLongDescription, ImageSmallURL, ImageMediumURL, ImageLargeURL, ProductManufacturerBrand, ZanoxProductLink, DeliveryTime, TermsOfContract, ProductEAN, ISBN, ShippingAndHandling, ShippingAndHandlingCost, kategorie_id, status) VALUES ('$ProgramID', '$MerchantName', '$MerchantProductNumber', '$ProductName', '$ProductPrice', '$ProductPriceOld', '$CurrencySymbolOfPrice', '$ValidFromDate', '$ValidToDate', '$ProductShortDescription', '$ProductLongDescription', '$ImageSmallURL', '$ImageMediumURL', '$ImageLargeURL', '$ProductManufacturerBrand', '$ZanoxProductLink', '$DeliveryTime', '$TermsOfContract', '$ProductEAN', '$ISBN', '$ShippingAndHandling', '$ShippingAndHandlingCost', '$kategorie_id', 'Aktiv')");
}

Alles anzeigen

Schon mal Danke.

Grüße KMD

Rondrer · 16. April 2011, 11:13

Hast du in der Datenbank nen Index auf "ProgramID" und "MerchantProductNumber" gesetzt?
Wenn nicht kann das natürlich schon seine Zeit dauern, bis er bei jedem neu einzufügenden Produkt die komplette Tabelle durchsucht...

KMD · 16. April 2011, 11:27

Hi,

nein, ist kein Index darauf. Das würde vielleicht die Abfrage schneller machen, behebt aber nicht das Problem, dass bei Prozess zu Prozess der Aufruf immer langsamer wird.

Szabo · 16. April 2011, 12:01

Wenn du Zugriff auf die Konsole hast, dann kannst du dein Script einfach via php-cli aufrufen und du hast eine endlose Laufzeit zur Verfügung

Rondrer · 16. April 2011, 13:37

KMD schrieb:

behebt aber nicht das Problem, dass bei Prozess zu Prozess der Aufruf immer langsamer wird.

Ja doch, weil umso mehr Produkte in der Tabelle sind umso langsamer wird eben die Abfrage ob das Produkt schon drin ist. Außer du hast eh schon sovile Produkte drin, dass die 100.000 nicht mehr ins Gewicht fallen, aber ich denke dann hättest du von vorneherein Probleme mit dem Timeout

KMD · 16. April 2011, 22:42

@Szabo
Nein, habe ich leider nicht.

@Rondrer
Das Problem hat sich mit dem Indexieren scheinbar gelöst.

Aber...

Ja doch, weil umso mehr Produkte in der Tabelle sind umso langsamer wird eben die Abfrage ob das Produkt schon drin ist.

Da gebe ich dir Recht. Aber in der DB befinden sich derzeit ca. 8.000 Produkte und in der CSV-Test-Datei sind die gleichen Produkte wie in der Datenbank (also ebenfalls 8.000 Produkte) - sollen also geupdatet werden. Demzuvolge werden es auch nicht mehr.
Prinzipiell müsste also der zweite, dritte, vierte, usw Prozess genauso lange für die Prüfung brauchen wie der erste Prozess.
Ich würde einfach gerne verstehen warum das so ist - auch wenn das Problem nun scheinbar gelöst ist.

Grüße KMD

Rondrer · 17. April 2011, 18:57

Hm, wenn es nicht mehr Produkte werden ist das in der Tat seltsam.

Ich hätte dafür nur eine Erklärung, das ist aber reine Spekulation:

Wurden die Produkte in der gleichen Reihenfolge in die Datenbank geschrieben, wie sie in der CSV Datei stehen?
Dann könnte es sein, dass wenn der die Datenbank durchsucht, auch nach dieser Reihenfolge vorgeht. D.h. die Produkte die oben in der CSV-Datei stehen werden viel früher gefunden als die, die weiter unten stehen. Dank des "Limit 1" muss er ja, sobalb er einen Treffer hat, den Rest der Tabelle nicht mehr durchsuchen.
D.h. den ersten Eintrag in der CSV-Datei findet er sofort, da es auch der erste Eintrag in der Datenbank ist. Beim 8000. muss er erst die 7999 anderen durchsuchen.
Ob das wirklich die Lösung des Problem ist, kannst du z.b. testen in dem du die CSV-Datei in umgekehrter Reihenfolge bearbeitest also von unten nach oben. Dann müsste, wenn meine Theorie stimmt, die verarbeitungszeit pro Prozess abnehmen, statt zuzunehmen. Oder du nimmst mal das "Limit 1" raus, dann sollte die Zeit konstant bleiben.

Wie gesagt nur Spekulation, aber testen kann man's ja mal

KMD · 18. April 2011, 11:46

Ja, die Produkte wurden in der gleichen Reihenfolge in die Datenbank geschrieben. Daran könnte es natürlich liegen.
Werde mal die CSV in umgekehrter Reihenfolge einspielen. Mal schauen wie sich die Abfrage dann verhält.

Grüße KMD

Timeout bei SELECT * FROM

Timeout bei SELECT * FROM

Quellcode

KMD schrieb:

Teilen

Tags