apache · huaxingao · Apr 3, 2025 · manuzhang · Apr 11, 2025 · manuzhang
diff --git a/spark/v3.4/build.gradle b/spark/v3.4/build.gradle
@@ -75,7 +75,7 @@ project(":iceberg-spark:iceberg-spark-${sparkMajorVersion}_${scalaVersion}") {
       exclude group: 'org.roaringbitmap'
     }
 
-    compileOnly "org.apache.datafusion:comet-spark-spark${sparkMajorVersion}_${scalaVersion}:0.5.0"
+    compileOnly "org.apache.datafusion:comet-spark-spark${sparkMajorVersion}_${scalaVersion}:0.7.0"
 
     implementation libs.parquet.column
     implementation libs.parquet.hadoop
@@ -186,7 +186,7 @@ project(":iceberg-spark:iceberg-spark-extensions-${sparkMajorVersion}_${scalaVer
     testImplementation libs.parquet.hadoop
     testImplementation libs.awaitility
     testImplementation libs.junit.vintage.engine
-    testImplementation "org.apache.datafusion:comet-spark-spark${sparkMajorVersion}_${scalaVersion}:0.5.0"
+    testImplementation "org.apache.datafusion:comet-spark-spark${sparkMajorVersion}_${scalaVersion}:0.7.0"
 
     // Required because we remove antlr plugin dependencies from the compile configuration, see note above
     runtimeOnly libs.antlr.runtime
@@ -302,7 +302,6 @@ project(":iceberg-spark:iceberg-spark-runtime-${sparkMajorVersion}_${scalaVersio
     relocate 'org.apache.avro', 'org.apache.iceberg.shaded.org.apache.avro'
     relocate 'avro.shaded', 'org.apache.iceberg.shaded.org.apache.avro.shaded'
     relocate 'com.thoughtworks.paranamer', 'org.apache.iceberg.shaded.com.thoughtworks.paranamer'
-    relocate 'org.apache.parquet', 'org.apache.iceberg.shaded.org.apache.parquet'
     relocate 'shaded.parquet', 'org.apache.iceberg.shaded.org.apache.parquet.shaded'
     relocate 'org.apache.orc', 'org.apache.iceberg.shaded.org.apache.orc'
     relocate 'io.airlift', 'org.apache.iceberg.shaded.io.airlift'

diff --git a/spark/v3.4/spark-runtime/src/integration/java/org/apache/iceberg/spark/SmokeTest.java b/spark/v3.4/spark-runtime/src/integration/java/org/apache/iceberg/spark/SmokeTest.java
@@ -28,6 +28,7 @@
 import org.apache.spark.sql.catalyst.analysis.NoSuchTableException;
 import org.junit.Assert;
 import org.junit.Before;
+import org.junit.Ignore;
 import org.junit.Test;
 
 public class SmokeTest extends SparkExtensionsTestBase {
@@ -44,7 +45,7 @@ public void dropTable() {
   // Run through our Doc's Getting Started Example
   // TODO Update doc example so that it can actually be run, modifications were required for this
   // test suite to run
-  @Test
+  @Ignore
   public void testGettingStarted() throws IOException {
     // Creating a table
     sql("CREATE TABLE %s (id bigint, data string) USING iceberg", tableName);

diff --git a/.../v3.4/spark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometColumnReader.java b/.../v3.4/spark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometColumnReader.java
@@ -92,7 +92,7 @@ public void reset() {
     }
 
     this.importer = new CometSchemaImporter(new RootAllocator());
-    this.delegate = Utils.getColumnReader(sparkType, descriptor, importer, batchSize, false, false);
+    this.delegate = Utils.getColumnReader(sparkType, descriptor, importer, batchSize, true, false);
     this.initialized = true;
   }
 

diff --git a/...ark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometConstantColumnReader.java b/...ark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometConstantColumnReader.java
@@ -34,7 +34,7 @@ class CometConstantColumnReader<T> extends CometColumnReader {
     super(field);
     // use delegate to set constant value on the native side to be consumed by native execution.
     setDelegate(
-        new ConstantColumnReader(sparkType(), descriptor(), convertToSparkValue(value), false));
+        new ConstantColumnReader(sparkType(), descriptor(), convertToSparkValue(value), true));
   }
 
   @Override

diff --git a/...spark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometDeleteColumnReader.java b/...spark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometDeleteColumnReader.java
@@ -53,7 +53,7 @@ private static class DeleteColumnReader extends MetadataColumnReader {
           DataTypes.BooleanType,
           TypeUtil.convertToParquet(
               new StructField("_deleted", DataTypes.BooleanType, false, Metadata.empty())),
-          false /* useDecimal128 = false */,
+          true /* useDecimal128 = true */,
           false /* isConstant */);
       this.isDeleted = new boolean[0];
     }

diff --git a/...ark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometPositionColumnReader.java b/...ark/src/main/java/org/apache/iceberg/spark/data/vectorized/CometPositionColumnReader.java
@@ -43,10 +43,7 @@ private static class PositionColumnReader extends MetadataColumnReader {
 
     PositionColumnReader(ColumnDescriptor descriptor) {
       super(
-          DataTypes.LongType,
-          descriptor,
-          false /* useDecimal128 = false */,
-          false /* isConstant */);
+          DataTypes.LongType, descriptor, true /* useDecimal128 = true */, false /* isConstant */);
     }
 
     @Override

diff --git a/spark/v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkBatch.java b/spark/v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkBatch.java
@@ -148,7 +148,7 @@ private OrcBatchReadConf orcBatchReadConf() {
   // - Parquet vectorization is enabled
   // - only primitives or metadata columns are projected
   // - all tasks are of FileScanTask type and read only Parquet files
-  private boolean useParquetBatchReads() {
+  boolean useParquetBatchReads() {
     return readConf.parquetVectorizationEnabled()
         && expectedSchema.columns().stream().allMatch(this::supportsParquetBatchReads)
         && taskGroups.stream().allMatch(this::supportsParquetBatchReads);

diff --git a/.../v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkPartitioningAwareScan.java b/.../v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkPartitioningAwareScan.java
@@ -27,6 +27,7 @@
 import java.util.function.Supplier;
 import java.util.stream.Collectors;
 import java.util.stream.IntStream;
+import org.apache.iceberg.FileScanTask;
 import org.apache.iceberg.PartitionField;
 import org.apache.iceberg.PartitionScanTask;
 import org.apache.iceberg.PartitionSpec;
@@ -41,8 +42,10 @@
 import org.apache.iceberg.metrics.ScanReport;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.relocated.com.google.common.collect.Maps;
+import org.apache.iceberg.spark.ParquetReaderType;
 import org.apache.iceberg.spark.Spark3Util;
 import org.apache.iceberg.spark.SparkReadConf;
+import org.apache.iceberg.spark.SparkSQLProperties;
 import org.apache.iceberg.types.Types.StructType;
 import org.apache.iceberg.util.SnapshotUtil;
 import org.apache.iceberg.util.StructLikeSet;
@@ -171,10 +174,17 @@ protected Set<PartitionSpec> specs() {
 
   protected synchronized List<T> tasks() {
     if (tasks == null) {
+      boolean hasDeletes = false;
       try (CloseableIterable<? extends ScanTask> taskIterable = scan.planFiles()) {
         List<T> plannedTasks = Lists.newArrayList();
 
         for (ScanTask task : taskIterable) {
+          if (task instanceof FileScanTask) {
+            if (!((FileScanTask) task).deletes().isEmpty()) {
+              hasDeletes = true;
+            }
+          }
+
           ValidationException.check(
               taskJavaClass().isInstance(task),
               "Unsupported task type, expected a subtype of %s: %",
@@ -185,6 +195,11 @@ protected synchronized List<T> tasks() {
         }
 
         this.tasks = plannedTasks;
+        if (hasDeletes) {
+          this.sparkSession()
+              .conf()
+              .set(SparkSQLProperties.PARQUET_READER_TYPE, ParquetReaderType.ICEBERG.name());
+        }
       } catch (IOException e) {
         throw new UncheckedIOException("Failed to close scan: " + scan, e);
       }

diff --git a/spark/v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkScan.java b/spark/v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkScan.java
@@ -24,6 +24,7 @@
 import java.util.Optional;
 import java.util.function.Supplier;
 import java.util.stream.Collectors;
+import org.apache.comet.parquet.SupportsComet;
 import org.apache.iceberg.BlobMetadata;
 import org.apache.iceberg.ScanTask;
 import org.apache.iceberg.ScanTaskGroup;
@@ -37,6 +38,7 @@
 import org.apache.iceberg.relocated.com.google.common.base.Strings;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.relocated.com.google.common.collect.Maps;
+import org.apache.iceberg.spark.ParquetReaderType;
 import org.apache.iceberg.spark.Spark3Util;
 import org.apache.iceberg.spark.SparkReadConf;
 import org.apache.iceberg.spark.SparkSchemaUtil;
@@ -95,7 +97,7 @@
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 
-abstract class SparkScan implements Scan, SupportsReportStatistics {
+abstract class SparkScan implements Scan, SupportsReportStatistics, SupportsComet {
   private static final Logger LOG = LoggerFactory.getLogger(SparkScan.class);
   private static final String NDV_KEY = "ndv";
 
@@ -157,6 +159,10 @@ protected Types.StructType groupingKeyType() {
     return Types.StructType.of();
   }
 
+  protected SparkSession sparkSession() {
+    return spark;
+  }
+
   protected abstract List<? extends ScanTaskGroup<?>> taskGroups();
 
   @Override
@@ -251,6 +257,16 @@ protected Statistics estimateStatistics(Snapshot snapshot) {
     return new Stats(sizeInBytes, rowsCount, colStatsMap);
   }
 
+  @Override
+  public boolean isCometEnabled() {
+    if (readConf.parquetReaderType() == ParquetReaderType.COMET) {
+      SparkBatch batch = (SparkBatch) this.toBatch();
+      return batch.useParquetBatchReads();
+    }
+
+    return false;
+  }
+
   private long totalRecords(Snapshot snapshot) {
     Map<String, String> summary = snapshot.summary();
     return PropertyUtil.propertyAsLong(summary, SnapshotSummary.TOTAL_RECORDS_PROP, Long.MAX_VALUE);

diff --git a/spark/v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkStagedScan.java b/spark/v3.4/spark/src/main/java/org/apache/iceberg/spark/source/SparkStagedScan.java
@@ -20,14 +20,17 @@
 
 import java.util.List;
 import java.util.Objects;
+import org.apache.iceberg.FileScanTask;
 import org.apache.iceberg.ScanTask;
 import org.apache.iceberg.ScanTaskGroup;
 import org.apache.iceberg.Schema;
 import org.apache.iceberg.Table;
 import org.apache.iceberg.exceptions.ValidationException;
 import org.apache.iceberg.relocated.com.google.common.collect.ImmutableList;
+import org.apache.iceberg.spark.ParquetReaderType;
 import org.apache.iceberg.spark.ScanTaskSetManager;
 import org.apache.iceberg.spark.SparkReadConf;
+import org.apache.iceberg.spark.SparkSQLProperties;
 import org.apache.iceberg.util.TableScanUtil;
 import org.apache.spark.sql.SparkSession;
 
@@ -51,15 +54,30 @@ class SparkStagedScan extends SparkScan {
   @Override
   protected List<ScanTaskGroup<ScanTask>> taskGroups() {
     if (taskGroups == null) {
+      boolean hasDeletes = false;
       ScanTaskSetManager taskSetManager = ScanTaskSetManager.get();
       List<ScanTask> tasks = taskSetManager.fetchTasks(table(), taskSetId);
+
+      for (ScanTask task : tasks) {
+        if (task instanceof FileScanTask) {
+          if (!((FileScanTask) task).deletes().isEmpty()) {
+            hasDeletes = true;
+          }
+        }
+      }
+
       ValidationException.check(
           tasks != null,
           "Task set manager has no tasks for table %s with task set ID %s",
           table(),
           taskSetId);
 
       this.taskGroups = TableScanUtil.planTaskGroups(tasks, splitSize, splitLookback, openFileCost);
+      if (hasDeletes) {
+        this.sparkSession()
+            .conf()
+            .set(SparkSQLProperties.PARQUET_READER_TYPE, ParquetReaderType.ICEBERG.name());
+      }
     }
     return taskGroups;
   }