CREATE INDEX: Data types matter

4 responses to “CREATE INDEX: Data types matter”

Oli Sennhauser says:

May 6, 2025 at 7:10 am

Tried to reproduce and got interesting side-effects (only partly reproducing your numbers). Especially because indexes are typically created only once, and that's it (summary at the end):

VACUUM ANALYZE;
CHECKPOINT;

CREATE INDEX ON t_demo (v1);
Time: 49167.688 ms (00:49.168)
CREATE INDEX ON t_demo (v2);
Time: 40263.288 ms (00:40.263)
CREATE INDEX ON t_demo (v3);
Time: 58812.693 ms (00:58.813)
CREATE INDEX ON t_demo (v4);
Time: 56302.695 ms (00:56.303)
CREATE INDEX ON t_demo (v5);
Time: 133345.734 ms (02:13.346)

DROP INDEX t_demo_v1_idx;
DROP INDEX t_demo_v2_idx;
DROP INDEX t_demo_v3_idx;
DROP INDEX t_demo_v4_idx;
DROP INDEX t_demo_v5_idx;
VACUUM ANALYZE;
CHECKPOINT;

CREATE INDEX ON t_demo (v5);
Time: 119213.866 ms (01:59.214)
CREATE INDEX ON t_demo (v4);
Time: 53486.847 ms (00:53.487)
CREATE INDEX ON t_demo (v3);
Time: 49539.559 ms (00:49.540)
CREATE INDEX ON t_demo (v2);
Time: 32803.024 ms (00:32.803)
CREATE INDEX ON t_demo (v1);
Time: 33744.911 ms (00:33.745)

DROP INDEX t_demo_v1_idx;
DROP INDEX t_demo_v2_idx;
DROP INDEX t_demo_v3_idx;
DROP INDEX t_demo_v4_idx;
DROP INDEX t_demo_v5_idx;
VACUUM ANALYZE;
CHECKPOINT;

CREATE INDEX ON t_demo (v1);
Time: 30534.489 ms (00:30.534)
CREATE INDEX ON t_demo (v2);
Time: 33775.389 ms (00:33.775)
CREATE INDEX ON t_demo (v3);
Time: 47776.601 ms (00:47.777)
CREATE INDEX ON t_demo (v4);
Time: 59156.192 ms (00:59.156)
CREATE INDEX ON t_demo (v5);
Time: 124224.454 ms (02:04.224)

DROP INDEX t_demo_v1_idx;
DROP INDEX t_demo_v2_idx;
DROP INDEX t_demo_v3_idx;
DROP INDEX t_demo_v4_idx;
DROP INDEX t_demo_v5_idx;
VACUUM ANALYZE;
CHECKPOINT;

CREATE INDEX ON t_demo (v5);
Time: 119638.285 ms (01:59.638)
CREATE INDEX ON t_demo (v4);
Time: 56985.595 ms (00:56.986)
CREATE INDEX ON t_demo (v3);
Time: 49229.118 ms (00:49.229)
CREATE INDEX ON t_demo (v2);
Time: 32311.887 ms (00:32.312)
CREATE INDEX ON t_demo (v1);
Time: 33835.165 ms (00:33.835)

Summary:

v1: 0:49.168 0:33.745 0:30.534 0:33.835
v2: 0:40.263 0:32.803 0:33.775 0:32.312
v3: 0:58.813 0:49.540 0:47.777 0:49.229
v4: 0:56.303 0:53.487 0:59.156 0:56.986
v5: 2:13.346 1:59.214 2:04.224 1:59.638

select version();
PostgreSQL 16.8 (Ubuntu 16.8-0ubuntu0.24.04.1) on x86_64-pc-linux-gnu, compiled by gcc (Ubuntu 13.3.0-6ubuntu2~24.04) 13.3.0, 64-bit

Any explanation?

Reply
- Laurenz Albe says:
  
  May 6, 2025 at 12:01 pm
  
  Those numbers seem to confirm that text is the most expensive data type to index.
  The differences in the measurements are perhaps due to different hardware, software or operating system.
  Benchmarks are difficult to generalize...
  
  Reply
fran says:

June 9, 2025 at 9:01 am

1. INDEX SIZE:
I expected index on text should be the biggest, but it is not:

SELECT indexrelname as index_name, pg_size_pretty(pg_relation_size(indexrelid)) as index_size FROM pg_stat_all_indexes i JOIN pg_class c ON i.relid=c.oid WHERE i.relname='t_demo';

index_name | index_size
---------------+------------
t_demo_v1_idx | 562 MB
t_demo_v2_idx | 562 MB
t_demo_v3_idx | 1072 MB
t_demo_v4_idx | 1072 MB
t_demo_v5_idx | 562 MB

2. QUERY SPEEDS
It is advisable to use integer or bigint for primary keys instead of e.g. text data fields. It would be nice to see what is query execution speed difference using those types.

Reply
- Laurenz Albe says:
  
  June 10, 2025 at 11:05 am
  
  Interesting about the size. I'd have expected int8 to be bigger than int. I recommend examining the indexes with the bt_page_items() function from the pageinspect extension. That should make everything clear.
  I wouldn't expect a big difference for an index scan, but in general it is commendable to use the best matching type (in this case, integer or bigint).
  
  Reply

CREATE INDEX: Data types matter

Creating some sample data

Running CREATE INDEX for real

Comparing results

4 responses to “CREATE INDEX: Data types matter”

Leave a Reply Cancel reply

Hans-Jürgen Schönig

Blog Tags

NEWSLETTER

Articles by our PostgreSQL Experts