Vous n'êtes pas identifié(e).
Pages : 1
Bonjour,
J'utilise interspire email marketer avec postgresql. Mais je trouve qu'il rame pas mal.
J'ai une machine assez puissante avec 12 Gb de mémoire.
Mais le temps de certaines requete est impressionnant.
En voila un exemple :
SELECT
c.fieldid AS fieldid,
c.name AS fieldname,
c.fieldtype AS fieldtype,
c.fieldsettings AS fieldsettings,
d.subscriberid AS subscriberid,
d.data AS data
FROM
email_customfields AS c
JOIN email_customfield_lists AS cl
ON (
c.fieldid = cl.fieldid
AND cl.listid IN (1)
)
JOIN email_list_subscribers AS ls
ON (
cl.listid = ls.listid
AND ls.listid IN (1)
AND ls.subscriberid IN

)
JOIN email_subscribers_data AS d
ON (
ls.subscriberid = d.subscriberid
AND cl.fieldid = d.fieldid
AND c.fieldid = d.fieldid
)
WHERE
(c.name IN ('First Name','Last Clicked Mail','Last Name','Last Open Mail','Mobile','Postal/Zip Code') OR c.fieldid IN
(2,3))
AND d.subscriberid IN

) UNION (
SELECT
c.fieldid AS fieldid,
c.name AS fieldname,
c.fieldtype AS fieldtype,
c.fieldsettings AS fieldsettings,
ls.subscriberid AS subscriberid,
c.defaultvalue AS data
FROM
email_customfields AS c
JOIN email_customfield_lists AS cl
ON (
c.fieldid = cl.fieldid
AND cl.listid IN (1)
)
JOIN email_list_subscribers ls
ON (
cl.listid = ls.listid
AND ls.listid IN (1)
AND ls.subscriberid IN

)
LEFT JOIN email_subscribers_data d
ON (
ls.subscriberid = d.subscriberid
AND c.fieldid = d.fieldid
)
WHERE
(c.name IN ('First Name','Last Clicked Mail','Last Name','Last Open Mail','Mobile','Postal/Zip Code') OR c.fieldid IN
(2,3))
AND d.subscriberid IS null)
Et le résultat de l'explain :
Unique (cost=22154.74..22162.34 rows=434 width=120) (actual time=338.186..339.659 rows=3000 loops=1)
-> Sort (cost=22154.74..22155.83 rows=434 width=120) (actual time=338.183..338.484 rows=3000 loops=1)
Sort Key: c.fieldid, c.name, c.fieldtype, c.fieldsettings, d.subscriberid, d.data
Sort Method: quicksort Memory: 706kB
-> Append (cost=2053.96..22135.73 rows=434 width=120) (actual time=1.256..19.985 rows=3000 loops=1)
-> Nested Loop (cost=2053.96..11065.70 rows=57 width=120) (actual time=1.256..9.026 rows=7 loops=1)
-> Nested Loop (cost=2053.96..3701.37 rows=754 width=113) (actual time=1.116..2.386 rows=3000 loops=1)
-> Bitmap Heap Scan on email_list_subscribers ls (cost=2050.95..3683.28 rows=377 width=8) (actual time=1.085..1.166 rows=500 loops=1)
Recheck Cond: ((subscriberid = ANY ('{1634516,1634515,1634514,1634513,1634512,1634511,1634510,1634509,1634508,1634507,1634506,1634505,1634504,1634503,1634502,1634501,1634500,1634499,1634498,1634497,1634496,1634495,1634494,1634493,1634492,1634491,1634490,1634489,1634488,1634487,1634
}'::integer[])) AND (listid = 1))
-> Bitmap Index Scan on email_list_subscribers_sub_list_idx (cost=0.00..2050.86 rows=377 width=0) (actual time=1.080..1.080 rows=500 loops=1)
Index Cond: ((subscriberid = ANY ('{}'::integer[])) AND (listid = 1))
-> Materialize (cost=3.01..3.03 rows=2 width=113) (actual time=0.000..0.001 rows=6 loops=500)
-> Hash Join (cost=1.38..3.00 rows=2 width=113) (actual time=0.028..0.035 rows=6 loops=1)
Hash Cond: (cl.fieldid = c.fieldid)
-> Seq Scan on email_customfield_lists cl (cost=0.00..1.59 rows=6 width=8) (actual time=0.008..0.010 rows=6 loops=1)
Filter: (listid = 1)
-> Hash (cost=1.30..1.30 rows=6 width=105) (actual time=0.015..0.015 rows=6 loops=1)
-> Seq Scan on email_customfields c (cost=0.00..1.30 rows=6 width=105) (actual time=0.004..0.011 rows=6 loops=1)
Filter: (((name)::text = ANY ('{"First Name","Last Clicked Mail","Last Name","Last Open Mail",Mobile,"Postal/Zip Code"}'::text[])) OR (fieldid = ANY ('{2,3}'::integer[])))
-> Index Scan using email_subscribers_data_subscriber_field_idx on email_subscribers_data d (cost=0.00..9.74 rows=2 width=19) (actual time=0.002..0.002 rows=0 loops=3000)
Index Cond: ((d.subscriberid = ls.subscriberid) AND (d.fieldid = c.fieldid))
-> Subquery Scan "*SELECT* 2" (cost=2053.96..11069.47 rows=377 width=110) (actual time=1.078..10.536 rows=2993 loops=1)
-> Nested Loop Left Join (cost=2053.96..11065.70 rows=377 width=110) (actual time=1.077..9.666 rows=2993 loops=1)
Filter: (d.subscriberid IS NULL)
-> Nested Loop (cost=2053.96..3701.37 rows=754 width=110) (actual time=1.073..2.302 rows=3000 loops=1)
-> Bitmap Heap Scan on email_list_subscribers ls (cost=2050.95..3683.28 rows=377 width=8) (actual time=1.048..1.117 rows=500 loops=1)
Recheck Cond: ((subscriberid = ANY ('{}'::integer[])) AND (listid = 1))
-> Bitmap Index Scan on email_list_subscribers_sub_list_idx (cost=0.00..2050.86 rows=377 width=0) (actual time=1.045..1.045 rows=500 loops=1)
Index Cond: ((subscriberid = ANY ('{}'::integer[])) AND (listid = 1))
-> Materialize (cost=3.01..3.03 rows=2 width=110) (actual time=0.000..0.001 rows=6 loops=500)
-> Hash Join (cost=1.38..3.00 rows=2 width=110) (actual time=0.022..0.027 rows=6 loops=1)
Hash Cond: (cl.fieldid = c.fieldid)
-> Seq Scan on email_customfield_lists cl (cost=0.00..1.59 rows=6 width=8) (actual time=0.005..0.007 rows=6 loops=1)
Filter: (listid = 1)
-> Hash (cost=1.30..1.30 rows=6 width=106) (actual time=0.012..0.012 rows=6 loops=1)
-> Seq Scan on email_customfields c (cost=0.00..1.30 rows=6 width=106) (actual time=0.003..0.009 rows=6 loops=1)
Filter: (((name)::text = ANY ('{"First Name","Last Clicked Mail","Last Name","Last Open Mail",Mobile,"Postal/Zip Code"}'::text[])) OR (fieldid = ANY ('{2,3}'::integer[])))
-> Index Scan using email_subscribers_data_subscriber_field_idx on email_subscribers_data d (cost=0.00..9.74 rows=2 width=8) (actual time=0.002..0.002 rows=0 loops=3000)
Index Cond: ((ls.subscriberid = d.subscriberid) AND (c.fieldid = d.fieldid))
Total runtime: 339.942 ms
(40 rows)
J'ai vérifier les différents index utilisé et tout à l'ai prix en compte.
Mais il y a 2 moments ou il fait un "Bitmap Index Scan" et ces 2 passages sont très long, de plus il y a pluiseurs recheck que je ne comprend pas.
Merci de votre aide précieuse.
Cdlt
Daivd
Hors ligne
Ce qui semble prendre du temps, c'est l'étape UNIQUE, du au 'UNION'.
Pouvez vous :
- Essayer la même requête avec un UNION ALL
- Essayer la même requête, à nouveau avec le UNION, mais sans la colonne data.
Dans les deux cas, pouvez vous me donner les temps d'exécution ?
Marc.
Hors ligne
Ha ouai!!! énorme
Le temps est passé à 20ms avec le union all.
Par contre, la suppression de la colonne data dans la partie select na pas d'effet. 340ms
c'est donc la déduplication des valeurs qui poserait problème? y a t'il un moyen d'optimiser ce traitement ?
Cdlt
David
Hors ligne
Y a t'il 'besoin' de dédupliquer les données ? Pas sur la requête en tout cas, d'après le plan.
Pour la rendre plus rapide, il faut limiter le nombre de champs sur lesquels dédupliquer (pour limiter la quantité de tri).
300ms pour 3000 enregistrements, c'est un chiffre un peu énorme. Il n'y aurait pas un des champs qui serait très gros ? Ou des types particuliers ?
=> Quelle est le type de chacun des champs retournés ?
Marc.
Hors ligne
Voila les types de champs
c.fieldid INTEGER
c.name VarCHAR
c.fieldtype varchar(100)
c.fieldsettings text
d.subscriberid integer
data text
je suis étonné de trouver un varchar sans taille, ainsi que des text field pour les paramétres
Est ce que de passer à des varchar avec des tailles défini pourrait aider ?
Cdlt
David
Hors ligne
le champ fieldsettings a besoin d' une longeur de 9000 char pour passer
Hors ligne
Alors c'est probablement fieldsettings qui pose problème (long à trier).
Pouvez vous tester la requête sans lui, pour voir ? (nous trouverons une solution au problème une fois que nous l'aurons diagnostiqué correctement )
Sinon, oui, la taille est optionnelle sur les varchar sous PostgreSQL. Si vous ne précisez pas de taille, ça veut dire qu'il n'y a pas de limite (enfin si, à 1Go).
Passer à une taille définie ne changera (heureusement) rien: les chaînes ne prennent que leur taille réelle. La taille n'est rien d'autre qu'une contrainte.
Marc.
Hors ligne
Pages : 1