Optimize unused segment query for segment allocation by AmatyaAvadhanula · Pull Request #16623 · apache/druid

AmatyaAvadhanula · 2024-06-18T08:53:40Z

#16380 utilized an existing metadata query to fetch unused segments for a given datasource, interval and version but this appeared to take a long time despite the indexes, and could have potential overlord stability implications.

This PR optimizes the query by using an equality check on the interval start and end as it is a special case for segment allocation, instead of using the OVERLAPS or CONTAINS match modes.

On a cluster with 1.8M unused segments for a given datasource, the query which relied on the existing method took over 30s on average, while the new query takes less than a second.

This PR has:

kfaraz

Changes look good, left a few non-blocking suggestions.

kfaraz · 2024-06-18T11:14:30Z

+    log.debug("Found [%,d] unused segments for datasource[%s] for interval[%s] and version[%s].",
+             matchingSegments.size(), dataSource, interval, version);


Nit:

Suggested change

log.debug("Found [%,d] unused segments for datasource[%s] for interval[%s] and version[%s].",

matchingSegments.size(), dataSource, interval, version);

log.debug(

"Found [%,d] unused segments for datasource[%s], interval[%s] and version[%s].",

matchingSegments.size(), dataSource, interval, version

);

kfaraz · 2024-06-18T12:04:53Z

+        new NumberedShardSpec(0, 0)
+    );
+    DataSegment unusedSegmentForDifferentInterval = createSegment(
+        Intervals.of("2023/2024"),


Rather than a disjoint interval, a better test would be to verify that a segment in an overlapping (but not identical) interval is not returned.

kfaraz · 2024-06-18T12:05:53Z

+  @Test
+  public void testRetrieveUnusedSegmentsForExactIntervalAndVersion() throws Exception
+  {
+    DataSegment unusedForDifferentVersion = createSegment(


Suggested change

DataSegment unusedForDifferentVersion = createSegment(

final DataSegment unusedSegmentMay2024V0 = createSegment(

kfaraz · 2024-06-18T12:06:28Z

+  public void testRetrieveUnusedSegmentsForExactIntervalAndVersion() throws Exception
+  {
+    DataSegment unusedForDifferentVersion = createSegment(
+        Intervals.of("2024/2025"),


Nit: use an interval which is easier to use in a name. You may even assign this interval value to a field named Interval may2024 so that you can reuse it in multiple places.

Suggested change

Intervals.of("2024/2025"),

Intervals.of("2024-05/P1M"),

kfaraz · 2024-06-18T12:06:59Z

+        "v0",
+        new NumberedShardSpec(0, 0)
+    );
+    DataSegment unusedSegmentForExactIntervalAndVersion = createSegment(


Suggested change

DataSegment unusedSegmentForExactIntervalAndVersion = createSegment(

final DataSegment unusedSegmentMay2024V1 = createSegment(

kfaraz · 2024-06-18T12:07:14Z

+        new NumberedShardSpec(0, 0)
+    );
+    DataSegment unusedSegmentForExactIntervalAndVersion = createSegment(
+        Intervals.of("2024/2025"),


Suggested change

Intervals.of("2024/2025"),

Intervals.of("2024-05/P1M"),

kfaraz · 2024-06-18T12:07:35Z

+        "v1",
+        new NumberedShardSpec(0, 0)
+    );
+    DataSegment unusedSegmentForDifferentInterval = createSegment(


Suggested change

DataSegment unusedSegmentForDifferentInterval = createSegment(

final DataSegment unusedSegmentYear2024V1 = createSegment(

kfaraz · 2024-06-18T12:07:45Z

+        new NumberedShardSpec(0, 0)
+    );
+    DataSegment unusedSegmentForDifferentInterval = createSegment(
+        Intervals.of("2023/2024"),


Suggested change

Intervals.of("2023/2024"),

Intervals.of("2024/P1Y"),

kfaraz · 2024-06-18T12:08:19Z

+    );
+    coordinator.markSegmentsAsUnusedWithinInterval(DS.WIKI, Intervals.ETERNITY);
+
+    DataSegment usedSegmentForExactIntervalAndVersion = createSegment(


Suggested change

DataSegment usedSegmentForExactIntervalAndVersion = createSegment(

final DataSegment usedSegmentMay2024V1 = createSegment(

kfaraz · 2024-06-18T12:08:30Z

+    coordinator.markSegmentsAsUnusedWithinInterval(DS.WIKI, Intervals.ETERNITY);
+
+    DataSegment usedSegmentForExactIntervalAndVersion = createSegment(
+        Intervals.of("2024/2025"),


Suggested change

Intervals.of("2024/2025"),

Intervals.of("2024-05/P1M"),

Optimize unused segment query for segment allocation

9abe3d3

github-actions Bot added the Area - Ingestion label Jun 18, 2024

kfaraz reviewed Jun 18, 2024

View reviewed changes

Address feedback

550278b

AmatyaAvadhanula requested a review from kfaraz June 18, 2024 09:56

kfaraz reviewed Jun 18, 2024

View reviewed changes

Comment thread server/src/main/java/org/apache/druid/metadata/IndexerSQLMetadataStorageCoordinator.java Outdated

Comment thread server/src/main/java/org/apache/druid/metadata/IndexerSQLMetadataStorageCoordinator.java Outdated

kfaraz reviewed Jun 18, 2024

View reviewed changes

Comment thread server/src/main/java/org/apache/druid/metadata/IndexerSQLMetadataStorageCoordinator.java Outdated

AmatyaAvadhanula added 2 commits June 18, 2024 16:33

Retrieve only ids

3286b74

Better formatting

045017e

AmatyaAvadhanula requested a review from kfaraz June 18, 2024 11:07

kfaraz approved these changes Jun 18, 2024

View reviewed changes

cryptoe approved these changes Jun 18, 2024

View reviewed changes

cryptoe merged commit be3593f into apache:master Jun 18, 2024

kfaraz deleted the optimize_unused_segment_query branch June 18, 2024 15:46

AmatyaAvadhanula mentioned this pull request Jun 19, 2024

Fix replica task failures with metadata inconsistency while running concurrent append replace #16614

Merged

kfaraz added this to the 31.0.0 milestone Oct 4, 2024

kfaraz mentioned this pull request Oct 11, 2024

[DRAFT] 31.0.0 Release Notes #17332

Closed

		log.debug("Found [%,d] unused segments for datasource[%s] for interval[%s] and version[%s].",
		matchingSegments.size(), dataSource, interval, version);

	DataSegment unusedForDifferentVersion = createSegment(
	final DataSegment unusedSegmentMay2024V0 = createSegment(

	DataSegment unusedSegmentForExactIntervalAndVersion = createSegment(
	final DataSegment unusedSegmentMay2024V1 = createSegment(

	DataSegment unusedSegmentForDifferentInterval = createSegment(
	final DataSegment unusedSegmentYear2024V1 = createSegment(

	DataSegment usedSegmentForExactIntervalAndVersion = createSegment(
	final DataSegment usedSegmentMay2024V1 = createSegment(

Conversation

AmatyaAvadhanula commented Jun 18, 2024

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

kfaraz left a comment

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Choose a reason for hiding this comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants