From 0144a1f66143f5d23da322ec83a672b5108b377a Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Mon, 27 Jul 2020 15:54:33 +0800
Subject: [PATCH 1/9] Flink: Add Orc value reader, writer implementations

---
 .../iceberg/flink/data/FlinkOrcReader.java    | 127 +++++++++
 .../iceberg/flink/data/FlinkOrcReaders.java   | 250 ++++++++++++++++++
 .../iceberg/flink/data/FlinkOrcWriter.java    |  23 ++
 .../iceberg/flink/data/FlinkOrcWriters.java   |  23 ++
 4 files changed, 423 insertions(+)
 create mode 100644 flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
 create mode 100644 flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
 create mode 100644 flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
 create mode 100644 flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
new file mode 100644
index 000000000000..d85bd179bfd0
--- /dev/null
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
@@ -0,0 +1,127 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.flink.data;
+
+import java.util.List;
+import java.util.Map;
+import org.apache.flink.table.data.ArrayData;
+import org.apache.flink.table.data.MapData;
+import org.apache.flink.table.data.RowData;
+import org.apache.iceberg.data.orc.GenericOrcReaders;
+import org.apache.iceberg.orc.OrcRowReader;
+import org.apache.iceberg.orc.OrcSchemaWithTypeVisitor;
+import org.apache.iceberg.orc.OrcValueReader;
+import org.apache.iceberg.orc.OrcValueReaders;
+import org.apache.iceberg.relocated.com.google.common.collect.ImmutableMap;
+import org.apache.iceberg.types.Type;
+import org.apache.iceberg.types.Types;
+import org.apache.orc.TypeDescription;
+import org.apache.orc.storage.ql.exec.vector.StructColumnVector;
+import org.apache.orc.storage.ql.exec.vector.VectorizedRowBatch;
+
+public class FlinkOrcReader implements OrcRowReader<RowData> {
+  private final OrcValueReader<?> reader;
+
+  public FlinkOrcReader(org.apache.iceberg.Schema iSchema, TypeDescription readSchema) {
+    this(iSchema, readSchema, ImmutableMap.of());
+  }
+
+  public FlinkOrcReader(org.apache.iceberg.Schema iSchema,
+                        TypeDescription readOrcSchema,
+                        Map<Integer, ?> idToConstant) {
+    this.reader = OrcSchemaWithTypeVisitor.visit(iSchema, readOrcSchema, new ReadBuilder(idToConstant));
+  }
+
+  @Override
+  public RowData read(VectorizedRowBatch batch, int row) {
+    return (RowData) reader.read(new StructColumnVector(batch.size, batch.cols), row);
+  }
+
+  @Override
+  public void setBatchContext(long batchOffsetInFile) {
+    reader.setBatchContext(batchOffsetInFile);
+  }
+
+  private static class ReadBuilder extends OrcSchemaWithTypeVisitor<OrcValueReader<?>> {
+    private final Map<Integer, ?> idToConstant;
+
+    private ReadBuilder(Map<Integer, ?> idToConstant) {
+      this.idToConstant = idToConstant;
+    }
+
+    @Override
+    public OrcValueReader<RowData> record(Types.StructType iStruct, TypeDescription record, List<String> names,
+                                          List<OrcValueReader<?>> fields) {
+      return FlinkOrcReaders.struct(fields, iStruct, idToConstant);
+    }
+
+    @Override
+    public OrcValueReader<ArrayData> list(Types.ListType iList, TypeDescription array, OrcValueReader<?> elementReader) {
+      return FlinkOrcReaders.array(elementReader);
+    }
+
+    @Override
+    public OrcValueReader<MapData> map(Types.MapType iMap, TypeDescription map,
+                                       OrcValueReader<?> keyReader,
+                                       OrcValueReader<?> valueReader) {
+      return FlinkOrcReaders.map(keyReader, valueReader);
+    }
+
+    @Override
+    public OrcValueReader<?> primitive(Type.PrimitiveType iPrimitive, TypeDescription primitive) {
+      switch (iPrimitive.typeId()) {
+        case BOOLEAN:
+          return OrcValueReaders.booleans();
+        case INTEGER:
+          return OrcValueReaders.ints();
+        case LONG:
+          return OrcValueReaders.longs();
+        case FLOAT:
+          return OrcValueReaders.floats();
+        case DOUBLE:
+          return OrcValueReaders.doubles();
+        case DATE:
+          return GenericOrcReaders.dates();
+        case TIME:
+          return FlinkOrcReaders.times();
+        case TIMESTAMP:
+          Types.TimestampType timestampType = (Types.TimestampType) iPrimitive;
+          if (timestampType.shouldAdjustToUTC()) {
+            return FlinkOrcReaders.timestampTzs();
+          } else {
+            return FlinkOrcReaders.timestamps();
+          }
+        case STRING:
+          return FlinkOrcReaders.strings();
+        case UUID:
+          return GenericOrcReaders.uuids();
+        case FIXED:
+        case BINARY:
+          return GenericOrcReaders.bytes();
+        case DECIMAL:
+          Types.DecimalType decimalType = (Types.DecimalType) iPrimitive;
+          return FlinkOrcReaders.decimals(decimalType.precision(), decimalType.scale());
+        default:
+          throw new IllegalArgumentException(String.format("Invalid iceberg type %s corresponding to ORC type %s",
+              iPrimitive, primitive));
+      }
+    }
+  }
+}
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
new file mode 100644
index 000000000000..aeb02443aa52
--- /dev/null
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
@@ -0,0 +1,250 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.flink.data;
+
+import java.math.BigDecimal;
+import java.time.Instant;
+import java.time.LocalDateTime;
+import java.time.ZoneOffset;
+import java.util.List;
+import java.util.Map;
+import org.apache.flink.table.data.ArrayData;
+import org.apache.flink.table.data.DecimalData;
+import org.apache.flink.table.data.GenericArrayData;
+import org.apache.flink.table.data.GenericMapData;
+import org.apache.flink.table.data.GenericRowData;
+import org.apache.flink.table.data.MapData;
+import org.apache.flink.table.data.RowData;
+import org.apache.flink.table.data.StringData;
+import org.apache.flink.table.data.TimestampData;
+import org.apache.iceberg.orc.OrcValueReader;
+import org.apache.iceberg.orc.OrcValueReaders;
+import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
+import org.apache.iceberg.relocated.com.google.common.collect.Lists;
+import org.apache.iceberg.relocated.com.google.common.collect.Maps;
+import org.apache.iceberg.types.Types;
+import org.apache.orc.storage.ql.exec.vector.BytesColumnVector;
+import org.apache.orc.storage.ql.exec.vector.ColumnVector;
+import org.apache.orc.storage.ql.exec.vector.DecimalColumnVector;
+import org.apache.orc.storage.ql.exec.vector.ListColumnVector;
+import org.apache.orc.storage.ql.exec.vector.LongColumnVector;
+import org.apache.orc.storage.ql.exec.vector.MapColumnVector;
+import org.apache.orc.storage.ql.exec.vector.TimestampColumnVector;
+import org.apache.orc.storage.serde2.io.HiveDecimalWritable;
+
+public class FlinkOrcReaders {
+  private FlinkOrcReaders() {
+  }
+
+  public static OrcValueReader<StringData> strings() {
+    return StringReader.INSTANCE;
+  }
+
+  public static OrcValueReader<DecimalData> decimals(int precision, int scale) {
+    if (precision <= 18) {
+      return new Decimal18Reader(precision, scale);
+    } else {
+      return new Decimal38Reader(precision, scale);
+    }
+  }
+
+  public static OrcValueReader<Integer> times() {
+    return TimeReader.INSTANCE;
+  }
+
+  public static OrcValueReader<TimestampData> timestamps() {
+    return TimestampReader.INSTANCE;
+  }
+
+  public static OrcValueReader<TimestampData> timestampTzs() {
+    return TimestampTzReader.INSTANCE;
+  }
+
+  public static <T> OrcValueReader<ArrayData> array(OrcValueReader<T> elementReader) {
+    return new ArrayReader<>(elementReader);
+  }
+
+  public static <K, V> OrcValueReader<MapData> map(OrcValueReader<K> keyReader, OrcValueReader<V> valueReader) {
+    return new MapReader<>(keyReader, valueReader);
+  }
+
+  public static OrcValueReader<RowData> struct(List<OrcValueReader<?>> readers,
+                                               Types.StructType struct,
+                                               Map<Integer, ?> idToConstant) {
+    return new StructReader(readers, struct, idToConstant);
+  }
+
+  private static class StringReader implements OrcValueReader<StringData> {
+    private static final StringReader INSTANCE = new StringReader();
+
+    @Override
+    public StringData nonNullRead(ColumnVector vector, int row) {
+      BytesColumnVector bytesVector = (BytesColumnVector) vector;
+      return StringData.fromBytes(bytesVector.vector[row], bytesVector.start[row], bytesVector.length[row]);
+    }
+  }
+
+  private static class Decimal18Reader implements OrcValueReader<DecimalData> {
+    private final int precision;
+    private final int scale;
+
+    Decimal18Reader(int precision, int scale) {
+      this.precision = precision;
+      this.scale = scale;
+    }
+
+    @Override
+    public DecimalData nonNullRead(ColumnVector vector, int row) {
+      HiveDecimalWritable value = ((DecimalColumnVector) vector).vector[row];
+      Preconditions.checkArgument(precision == value.precision(), "Precision mismatched.");
+      Preconditions.checkArgument(scale == value.scale(), "Scale mismatched.");
+      return DecimalData.fromUnscaledLong(value.serialize64(value.scale()), value.precision(), value.scale());
+    }
+  }
+
+  private static class Decimal38Reader implements OrcValueReader<DecimalData> {
+    private final int precision;
+    private final int scale;
+
+    Decimal38Reader(int precision, int scale) {
+      this.precision = precision;
+      this.scale = scale;
+    }
+
+    @Override
+    public DecimalData nonNullRead(ColumnVector vector, int row) {
+      BigDecimal value = ((DecimalColumnVector) vector).vector[row].getHiveDecimal().bigDecimalValue();
+      return DecimalData.fromBigDecimal(value, precision, scale);
+    }
+  }
+
+  private static class TimeReader implements OrcValueReader<Integer> {
+    private static final TimeReader INSTANCE = new TimeReader();
+
+    @Override
+    public Integer nonNullRead(ColumnVector vector, int row) {
+      // Flink only support time mills, just erase micros.
+      long micros = ((LongColumnVector) vector).vector[row];
+      return (int) (micros / 1000);
+    }
+  }
+
+  private static class TimestampReader implements OrcValueReader<TimestampData> {
+    private static final TimestampReader INSTANCE = new TimestampReader();
+
+    @Override
+    public TimestampData nonNullRead(ColumnVector vector, int row) {
+      TimestampColumnVector tcv = (TimestampColumnVector) vector;
+      LocalDateTime localDate = Instant.ofEpochSecond(Math.floorDiv(tcv.time[row], 1_000), tcv.nanos[row])
+          .atOffset(ZoneOffset.UTC)
+          .toLocalDateTime();
+      return TimestampData.fromLocalDateTime(localDate);
+    }
+  }
+
+  private static class TimestampTzReader implements OrcValueReader<TimestampData> {
+    private static final TimestampTzReader INSTANCE = new TimestampTzReader();
+
+    @Override
+    public TimestampData nonNullRead(ColumnVector vector, int row) {
+      TimestampColumnVector tcv = (TimestampColumnVector) vector;
+      Instant instant = Instant.ofEpochSecond(Math.floorDiv(tcv.time[row], 1_000), tcv.nanos[row])
+          .atOffset(ZoneOffset.UTC)
+          .toInstant();
+      return TimestampData.fromInstant(instant);
+    }
+  }
+
+  private static class ArrayReader<T> implements OrcValueReader<ArrayData> {
+    private final OrcValueReader<T> elementReader;
+
+    private ArrayReader(OrcValueReader<T> elementReader) {
+      this.elementReader = elementReader;
+    }
+
+    @Override
+    public ArrayData nonNullRead(ColumnVector vector, int row) {
+      ListColumnVector listVector = (ListColumnVector) vector;
+      int offset = (int) listVector.offsets[row];
+      int length = (int) listVector.lengths[row];
+      List<T> elements = Lists.newArrayListWithExpectedSize(length);
+      for (int c = 0; c < length; ++c) {
+        elements.add(elementReader.read(listVector.child, offset + c));
+      }
+      return new GenericArrayData(elements.toArray());
+    }
+
+    @Override
+    public void setBatchContext(long batchOffsetInFile) {
+      elementReader.setBatchContext(batchOffsetInFile);
+    }
+  }
+
+  private static class MapReader<K, V> implements OrcValueReader<MapData> {
+    private final OrcValueReader<K> keyReader;
+    private final OrcValueReader<V> valueReader;
+
+    private MapReader(OrcValueReader<K> keyReader, OrcValueReader<V> valueReader) {
+      this.keyReader = keyReader;
+      this.valueReader = valueReader;
+    }
+
+    @Override
+    public MapData nonNullRead(ColumnVector vector, int row) {
+      MapColumnVector mapVector = (MapColumnVector) vector;
+      int offset = (int) mapVector.offsets[row];
+      long length = mapVector.lengths[row];
+
+      Map<K, V> map = Maps.newHashMap();
+      for (int c = 0; c < length; c++) {
+        K key = keyReader.read(mapVector.keys, offset + c);
+        V value = valueReader.read(mapVector.values, offset + c);
+        map.put(key, value);
+      }
+
+      return new GenericMapData(map);
+    }
+
+    @Override
+    public void setBatchContext(long batchOffsetInFile) {
+      keyReader.setBatchContext(batchOffsetInFile);
+      valueReader.setBatchContext(batchOffsetInFile);
+    }
+  }
+
+  private static class StructReader extends OrcValueReaders.StructReader<RowData> {
+    private final int numFields;
+
+    StructReader(List<OrcValueReader<?>> readers, Types.StructType struct, Map<Integer, ?> idToConstant) {
+      super(readers, struct, idToConstant);
+      this.numFields = readers.size();
+    }
+
+    @Override
+    protected RowData create() {
+      return new GenericRowData(numFields);
+    }
+
+    @Override
+    protected void set(RowData struct, int pos, Object value) {
+      ((GenericRowData) struct).setField(pos, value);
+    }
+  }
+}
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
new file mode 100644
index 000000000000..74202e7ebcae
--- /dev/null
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
@@ -0,0 +1,23 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.flink.data;
+
+public class FlinkOrcWriter {
+}
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
new file mode 100644
index 000000000000..d13a5ac8cd31
--- /dev/null
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
@@ -0,0 +1,23 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.flink.data;
+
+public class FlinkOrcWriters {
+}

From 7e03783e698722497a2af7a1d839f1506c4a076c Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Tue, 28 Jul 2020 14:16:47 +0800
Subject: [PATCH 2/9] Add flink orc writers.

---
 .../iceberg/flink/data/FlinkOrcReader.java    |   3 +-
 .../flink/data/FlinkOrcSchemaVisitor.java     | 101 +++++++
 .../iceberg/flink/data/FlinkOrcWriter.java    | 104 ++++++-
 .../iceberg/flink/data/FlinkOrcWriters.java   | 279 +++++++++++++++++-
 4 files changed, 484 insertions(+), 3 deletions(-)
 create mode 100644 flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java

diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
index d85bd179bfd0..cf9f2a845a6e 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
@@ -73,7 +73,8 @@ public OrcValueReader<RowData> record(Types.StructType iStruct, TypeDescription
     }
 
     @Override
-    public OrcValueReader<ArrayData> list(Types.ListType iList, TypeDescription array, OrcValueReader<?> elementReader) {
+    public OrcValueReader<ArrayData> list(Types.ListType iList, TypeDescription array,
+                                          OrcValueReader<?> elementReader) {
       return FlinkOrcReaders.array(elementReader);
     }
 
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java
new file mode 100644
index 000000000000..b8b77be5363d
--- /dev/null
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java
@@ -0,0 +1,101 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.flink.data;
+
+import java.util.List;
+import org.apache.flink.table.types.logical.ArrayType;
+import org.apache.flink.table.types.logical.LogicalType;
+import org.apache.flink.table.types.logical.MapType;
+import org.apache.flink.table.types.logical.RowType;
+import org.apache.iceberg.Schema;
+import org.apache.iceberg.relocated.com.google.common.collect.Lists;
+import org.apache.iceberg.types.Type;
+import org.apache.iceberg.types.Types;
+
+abstract class FlinkOrcSchemaVisitor<T> {
+
+  static <T> T visit(LogicalType flinkType, Schema schema, FlinkOrcSchemaVisitor<T> visitor) {
+    return visit(flinkType, schema.asStruct(), visitor);
+  }
+
+  private static <T> T visit(LogicalType flinkType, Type iType, FlinkOrcSchemaVisitor<T> visitor) {
+    switch (iType.typeId()) {
+      case STRUCT:
+        return visitRecord(flinkType, iType.asStructType(), visitor);
+
+      case MAP:
+        MapType mapType = (MapType) flinkType;
+        Types.MapType iMapType = iType.asMapType();
+
+        T key = visit(mapType.getKeyType(), iMapType.keyType(), visitor);
+        T value = visit(mapType.getValueType(), iMapType.valueType(), visitor);
+
+        return visitor.map(iMapType, key, value, mapType.getKeyType(), mapType.getValueType());
+      case LIST:
+        ArrayType listType = (ArrayType) flinkType;
+        Types.ListType iListType = iType.asListType();
+
+        T element = visit(listType.getElementType(), iListType.elementType(), visitor);
+
+        return visitor.list(iListType, element, listType.getElementType());
+
+      default:
+        return visitor.primitive(iType.asPrimitiveType(), flinkType);
+    }
+  }
+
+  private static <T> T visitRecord(LogicalType flinkType, Types.StructType struct,
+                                   FlinkOrcSchemaVisitor<T> visitor) {
+
+    RowType rowType = (RowType) flinkType;
+
+    int fieldSize = struct.fields().size();
+    List<T> results = Lists.newArrayListWithExpectedSize(fieldSize);
+    List<LogicalType> fieldTypes = Lists.newArrayListWithExpectedSize(fieldSize);
+    List<Types.NestedField> nestedFields = struct.fields();
+
+    for (int i = 0; i < fieldSize; i++) {
+      Types.NestedField iField = nestedFields.get(i);
+      int fieldIndex = rowType.getFieldIndex(iField.name());
+      LogicalType fieldFlinkType = fieldIndex >= 0 ? rowType.getTypeAt(fieldIndex) : null;
+
+      fieldTypes.add(fieldFlinkType);
+      results.add(visit(fieldFlinkType, iField.type(), visitor));
+    }
+
+    return visitor.record(struct, results, fieldTypes);
+  }
+
+  public T record(Types.StructType iStruct, List<T> results, List<LogicalType> fieldTypes) {
+    return null;
+  }
+
+  public T list(Types.ListType iList, T element, LogicalType elementType) {
+    return null;
+  }
+
+  public T map(Types.MapType iMap, T key, T value, LogicalType keyType, LogicalType valueType) {
+    return null;
+  }
+
+  public T primitive(Type.PrimitiveType iPrimitive, LogicalType flinkPrimitive) {
+    return null;
+  }
+}
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
index 74202e7ebcae..ec8fdfa73076 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
@@ -19,5 +19,107 @@
 
 package org.apache.iceberg.flink.data;
 
-public class FlinkOrcWriter {
+import java.util.List;
+import org.apache.flink.table.data.RowData;
+import org.apache.flink.table.types.logical.LogicalType;
+import org.apache.flink.table.types.logical.RowType;
+import org.apache.iceberg.Schema;
+import org.apache.iceberg.data.orc.GenericOrcWriters;
+import org.apache.iceberg.orc.OrcRowWriter;
+import org.apache.iceberg.orc.OrcValueWriter;
+import org.apache.iceberg.relocated.com.google.common.collect.Lists;
+import org.apache.iceberg.types.Type;
+import org.apache.iceberg.types.Types;
+import org.apache.orc.storage.ql.exec.vector.VectorizedRowBatch;
+
+public class FlinkOrcWriter implements OrcRowWriter<RowData> {
+  private final FlinkOrcWriters.StructWriter writer;
+  private final List<RowData.FieldGetter> fieldGetters;
+
+  private FlinkOrcWriter(RowType rowType, Schema iSchema) {
+    this.writer = (FlinkOrcWriters.StructWriter) FlinkOrcSchemaVisitor.visit(rowType, iSchema, new WriteBuilder());
+
+    List<LogicalType> fieldTypes = rowType.getChildren();
+    this.fieldGetters = Lists.newArrayListWithExpectedSize(fieldTypes.size());
+    for (int i = 0; i < fieldTypes.size(); i++) {
+      fieldGetters.add(RowData.createFieldGetter(fieldTypes.get(i), i));
+    }
+  }
+
+  @Override
+  @SuppressWarnings("unchecked")
+  public void write(RowData row, VectorizedRowBatch output) {
+    int rowId = output.size;
+    output.size += 1;
+
+    List<OrcValueWriter<?>> writers = writer.writers();
+    for (int c = 0; c < writers.size(); ++c) {
+      OrcValueWriter child = writers.get(c);
+      child.write(rowId, fieldGetters.get(c).getFieldOrNull(row), output.cols[c]);
+    }
+  }
+
+  private static class WriteBuilder extends FlinkOrcSchemaVisitor<OrcValueWriter<?>> {
+    private WriteBuilder() {
+    }
+
+    @Override
+    public OrcValueWriter<RowData> record(Types.StructType iStruct,
+                                          List<OrcValueWriter<?>> results,
+                                          List<LogicalType> fieldType) {
+      return FlinkOrcWriters.struct(results, fieldType);
+    }
+
+    @Override
+    public OrcValueWriter<?> map(Types.MapType iMap, OrcValueWriter<?> key, OrcValueWriter<?> value,
+                                 LogicalType keyType, LogicalType valueType) {
+      return FlinkOrcWriters.map(key, value, keyType, valueType);
+    }
+
+    @Override
+    public OrcValueWriter<?> list(Types.ListType iList, OrcValueWriter<?> element, LogicalType elementType) {
+      return FlinkOrcWriters.list(element, elementType);
+    }
+
+    @Override
+    public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, LogicalType flinkPrimitive) {
+      switch (iPrimitive.typeId()) {
+        case BOOLEAN:
+          return GenericOrcWriters.booleans();
+        case INTEGER:
+          return GenericOrcWriters.ints();
+        case LONG:
+          return GenericOrcWriters.longs();
+        case FLOAT:
+          return GenericOrcWriters.floats();
+        case DOUBLE:
+          return GenericOrcWriters.doubles();
+        case DATE:
+          return GenericOrcWriters.dates();
+        case TIME:
+          return FlinkOrcWriters.times();
+        case TIMESTAMP:
+          Types.TimestampType timestampType = (Types.TimestampType) iPrimitive;
+          if (timestampType.shouldAdjustToUTC()) {
+            return FlinkOrcWriters.timestampTzs();
+          } else {
+            return FlinkOrcWriters.timestamps();
+          }
+        case STRING:
+          return FlinkOrcWriters.strings();
+        case UUID:
+          return GenericOrcWriters.uuids();
+        case FIXED:
+          return GenericOrcWriters.fixed();
+        case BINARY:
+          return GenericOrcWriters.byteBuffers();
+        case DECIMAL:
+          Types.DecimalType decimalType = (Types.DecimalType) iPrimitive;
+          return FlinkOrcWriters.decimals(decimalType.scale(), decimalType.precision());
+        default:
+          throw new IllegalArgumentException(String.format(
+              "Invalid iceberg type %s corresponding to Flink logical type %s", iPrimitive, flinkPrimitive));
+      }
+    }
+  }
 }
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
index d13a5ac8cd31..2baa7edfaf32 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
@@ -19,5 +19,282 @@
 
 package org.apache.iceberg.flink.data;
 
-public class FlinkOrcWriters {
+import java.math.BigDecimal;
+import java.time.Instant;
+import java.time.OffsetDateTime;
+import java.time.ZoneOffset;
+import java.util.List;
+import org.apache.flink.table.data.ArrayData;
+import org.apache.flink.table.data.MapData;
+import org.apache.flink.table.data.RowData;
+import org.apache.flink.table.data.StringData;
+import org.apache.flink.table.data.TimestampData;
+import org.apache.flink.table.types.logical.LogicalType;
+import org.apache.iceberg.orc.OrcValueWriter;
+import org.apache.iceberg.relocated.com.google.common.collect.Lists;
+import org.apache.orc.storage.common.type.HiveDecimal;
+import org.apache.orc.storage.ql.exec.vector.BytesColumnVector;
+import org.apache.orc.storage.ql.exec.vector.ColumnVector;
+import org.apache.orc.storage.ql.exec.vector.DecimalColumnVector;
+import org.apache.orc.storage.ql.exec.vector.ListColumnVector;
+import org.apache.orc.storage.ql.exec.vector.LongColumnVector;
+import org.apache.orc.storage.ql.exec.vector.MapColumnVector;
+import org.apache.orc.storage.ql.exec.vector.StructColumnVector;
+import org.apache.orc.storage.ql.exec.vector.TimestampColumnVector;
+
+class FlinkOrcWriters {
+
+  private FlinkOrcWriters() {
+  }
+
+  static OrcValueWriter<?> strings() {
+    return StringWriter.INSTANCE;
+  }
+
+  static OrcValueWriter<?> times() {
+    return TimeWriter.INSTANCE;
+  }
+
+  static OrcValueWriter<?> timestamps() {
+    return TimestampWriter.INSTANCE;
+  }
+
+  static OrcValueWriter<?> timestampTzs() {
+    return TimestampTzWriter.INSTANCE;
+  }
+
+  static OrcValueWriter<?> decimals(int scale, int precision) {
+    if (precision <= 18) {
+      return new Decimal18Writer(scale, precision);
+    } else {
+      return new Decimal38Writer(scale, precision);
+    }
+  }
+
+  static <T> OrcValueWriter<ArrayData> list(OrcValueWriter<T> elementWriter, LogicalType elementType) {
+    return new ListWriter<>(elementWriter, elementType);
+  }
+
+  static <K, V> OrcValueWriter<MapData> map(OrcValueWriter<K> keyWriter, OrcValueWriter<V> valueWriter,
+                                            LogicalType keyType, LogicalType valueType) {
+    return new MapWriter<>(keyWriter, valueWriter, keyType, valueType);
+  }
+
+  static OrcValueWriter<RowData> struct(List<OrcValueWriter<?>> writers, List<LogicalType> types) {
+    return new StructWriter(writers, types);
+  }
+
+  private static class StringWriter implements OrcValueWriter<StringData> {
+    private static final StringWriter INSTANCE = new StringWriter();
+
+    @Override
+    public Class<?> getJavaClass() {
+      return StringData.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, StringData data, ColumnVector output) {
+      byte[] value = data.toBytes();
+      ((BytesColumnVector) output).setRef(rowId, value, 0, value.length);
+    }
+  }
+
+  private static class TimeWriter implements OrcValueWriter<Integer> {
+    private static final TimeWriter INSTANCE = new TimeWriter();
+
+    @Override
+    public Class<?> getJavaClass() {
+      return Integer.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, Integer microSecond, ColumnVector output) {
+      ((LongColumnVector) output).vector[rowId] = microSecond;
+    }
+  }
+
+  private static class TimestampWriter implements OrcValueWriter<TimestampData> {
+    private static final TimestampWriter INSTANCE = new TimestampWriter();
+
+    @Override
+    public Class<?> getJavaClass() {
+      return TimestampData.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, TimestampData data, ColumnVector output) {
+      TimestampColumnVector cv = (TimestampColumnVector) output;
+      cv.setIsUTC(true);
+      // millis
+      OffsetDateTime offsetDateTime = data.toInstant().atOffset(ZoneOffset.UTC);
+      cv.time[rowId] = offsetDateTime.toEpochSecond() * 1_000 + offsetDateTime.getNano() / 1_000_000;
+      // truncate nanos to only keep microsecond precision.
+      cv.nanos[rowId] = (offsetDateTime.getNano() / 1_000) * 1_000;
+    }
+  }
+
+  private static class TimestampTzWriter implements OrcValueWriter<TimestampData> {
+    private static final TimestampTzWriter INSTANCE = new TimestampTzWriter();
+
+    @Override
+    public Class<TimestampData> getJavaClass() {
+      return TimestampData.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, TimestampData data, ColumnVector output) {
+      TimestampColumnVector cv = (TimestampColumnVector) output;
+      // millis
+      Instant instant = data.toInstant();
+      cv.time[rowId] = instant.toEpochMilli();
+      // truncate nanos to only keep microsecond precision.
+      cv.nanos[rowId] = (instant.getNano() / 1_000) * 1_000;
+    }
+  }
+
+  private static class Decimal18Writer implements OrcValueWriter<BigDecimal> {
+    private final int scale;
+    private final int precision;
+
+    Decimal18Writer(int scale, int precision) {
+      this.scale = scale;
+      this.precision = precision;
+    }
+
+    @Override
+    public Class<?> getJavaClass() {
+      return BigDecimal.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, BigDecimal data, ColumnVector output) {
+      ((DecimalColumnVector) output).vector[rowId].setFromLongAndScale(data.unscaledValue().longValueExact(), scale);
+    }
+  }
+
+  private static class Decimal38Writer implements OrcValueWriter<BigDecimal> {
+    private final int scale;
+    private final int precision;
+
+    Decimal38Writer(int scale, int precision) {
+      this.scale = scale;
+      this.precision = precision;
+    }
+
+    @Override
+    public Class<?> getJavaClass() {
+      return BigDecimal.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, BigDecimal data, ColumnVector output) {
+      ((DecimalColumnVector) output).vector[rowId].set(HiveDecimal.create(data, false));
+    }
+  }
+
+  static class ListWriter<T> implements OrcValueWriter<ArrayData> {
+    private final OrcValueWriter<T> elementWriter;
+    private final ArrayData.ElementGetter elementGetter;
+
+    ListWriter(OrcValueWriter<T> elementWriter, LogicalType elementType) {
+      this.elementWriter = elementWriter;
+      this.elementGetter = ArrayData.createElementGetter(elementType);
+    }
+
+    @Override
+    public Class<?> getJavaClass() {
+      return ArrayData.class;
+    }
+
+    @Override
+    @SuppressWarnings("unchecked")
+    public void nonNullWrite(int rowId, ArrayData data, ColumnVector output) {
+      ListColumnVector cv = (ListColumnVector) output;
+      cv.lengths[rowId] = data.size();
+      cv.offsets[rowId] = cv.childCount;
+      cv.childCount += cv.lengths[rowId];
+      // make sure the child is big enough.
+      cv.child.ensureSize(cv.childCount, true);
+
+      for (int e = 0; e < cv.lengths[rowId]; ++e) {
+        Object value = elementGetter.getElementOrNull(data, e);
+        elementWriter.write((int) (e + cv.offsets[rowId]), (T) value, cv.child);
+      }
+    }
+  }
+
+  static class MapWriter<K, V> implements OrcValueWriter<MapData> {
+    private final OrcValueWriter<K> keyWriter;
+    private final OrcValueWriter<V> valueWriter;
+    private final ArrayData.ElementGetter keyGetter;
+    private final ArrayData.ElementGetter valueGetter;
+
+    MapWriter(OrcValueWriter<K> keyWriter, OrcValueWriter<V> valueWriter,
+              LogicalType keyType, LogicalType valueType) {
+      this.keyWriter = keyWriter;
+      this.valueWriter = valueWriter;
+      this.keyGetter = ArrayData.createElementGetter(keyType);
+      this.valueGetter = ArrayData.createElementGetter(valueType);
+    }
+
+    @Override
+    public Class<?> getJavaClass() {
+      return MapData.class;
+    }
+
+    @Override
+    @SuppressWarnings("unchecked")
+    public void nonNullWrite(int rowId, MapData data, ColumnVector output) {
+      MapColumnVector cv = (MapColumnVector) output;
+      ArrayData keyArray = data.keyArray();
+      ArrayData valArray = data.valueArray();
+
+      // record the length and start of the list elements
+      cv.lengths[rowId] = data.size();
+      cv.offsets[rowId] = cv.childCount;
+      cv.childCount += cv.lengths[rowId];
+      // make sure the child is big enough
+      cv.keys.ensureSize(cv.childCount, true);
+      cv.values.ensureSize(cv.childCount, true);
+      // Add each element
+      for (int e = 0; e < cv.lengths[rowId]; ++e) {
+        int pos = (int) (e + cv.offsets[rowId]);
+        keyWriter.write(pos, (K) keyGetter.getElementOrNull(keyArray, e), cv.keys);
+        valueWriter.write(pos, (V) valueGetter.getElementOrNull(valArray, e), cv.values);
+      }
+    }
+  }
+
+  static class StructWriter implements OrcValueWriter<RowData> {
+    private final List<OrcValueWriter<?>> writers;
+    private final List<RowData.FieldGetter> fieldGetters;
+
+    StructWriter(List<OrcValueWriter<?>> writers, List<LogicalType> types) {
+      this.writers = writers;
+
+      this.fieldGetters = Lists.newArrayListWithExpectedSize(types.size());
+      for (int i = 0; i < types.size(); i++) {
+        fieldGetters.add(RowData.createFieldGetter(types.get(i), i));
+      }
+    }
+
+    List<OrcValueWriter<?>> writers() {
+      return writers;
+    }
+
+    @Override
+    public Class<?> getJavaClass() {
+      return RowData.class;
+    }
+
+    @Override
+    @SuppressWarnings("unchecked")
+    public void nonNullWrite(int rowId, RowData data, ColumnVector output) {
+      StructColumnVector cv = (StructColumnVector) output;
+      for (int c = 0; c < writers.size(); ++c) {
+        OrcValueWriter writer = writers.get(c);
+        writer.write(rowId, fieldGetters.get(c).getFieldOrNull(data), cv.fields[c]);
+      }
+    }
+  }
 }

From 11f5a0812ab4e517b352da28b0a6ff56b6c1543a Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Tue, 28 Jul 2020 19:20:01 +0800
Subject: [PATCH 3/9] Add unit tests.

---
 .../iceberg/flink/data/FlinkOrcReader.java    | 11 +--
 .../iceberg/flink/data/FlinkOrcWriter.java    |  4 ++
 .../apache/iceberg/flink/data/RandomData.java | 33 +++++++++
 .../flink/data/TestFlinkOrcReaderWriter.java  | 72 +++++++++++++++++++
 4 files changed, 116 insertions(+), 4 deletions(-)
 create mode 100644 flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java

diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
index cf9f2a845a6e..c57c44dd90c4 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
@@ -24,6 +24,7 @@
 import org.apache.flink.table.data.ArrayData;
 import org.apache.flink.table.data.MapData;
 import org.apache.flink.table.data.RowData;
+import org.apache.iceberg.Schema;
 import org.apache.iceberg.data.orc.GenericOrcReaders;
 import org.apache.iceberg.orc.OrcRowReader;
 import org.apache.iceberg.orc.OrcSchemaWithTypeVisitor;
@@ -39,16 +40,18 @@
 public class FlinkOrcReader implements OrcRowReader<RowData> {
   private final OrcValueReader<?> reader;
 
-  public FlinkOrcReader(org.apache.iceberg.Schema iSchema, TypeDescription readSchema) {
+  private FlinkOrcReader(Schema iSchema, TypeDescription readSchema) {
     this(iSchema, readSchema, ImmutableMap.of());
   }
 
-  public FlinkOrcReader(org.apache.iceberg.Schema iSchema,
-                        TypeDescription readOrcSchema,
-                        Map<Integer, ?> idToConstant) {
+  private FlinkOrcReader(Schema iSchema, TypeDescription readOrcSchema, Map<Integer, ?> idToConstant) {
     this.reader = OrcSchemaWithTypeVisitor.visit(iSchema, readOrcSchema, new ReadBuilder(idToConstant));
   }
 
+  public static OrcRowReader<RowData> buildReader(Schema schema, TypeDescription readSchema) {
+    return new FlinkOrcReader(schema, readSchema);
+  }
+
   @Override
   public RowData read(VectorizedRowBatch batch, int row) {
     return (RowData) reader.read(new StructColumnVector(batch.size, batch.cols), row);
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
index ec8fdfa73076..5062a56c7285 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
@@ -46,6 +46,10 @@ private FlinkOrcWriter(RowType rowType, Schema iSchema) {
     }
   }
 
+  public static OrcRowWriter<RowData> buildWriter(RowType rowType, Schema iSchema) {
+    return new FlinkOrcWriter(rowType, iSchema);
+  }
+
   @Override
   @SuppressWarnings("unchecked")
   public void write(RowData row, VectorizedRowBatch output) {
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java b/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
index b1e14c6c0fc5..5e7996ddf6d7 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
@@ -23,9 +23,14 @@
 import java.util.List;
 import java.util.NoSuchElementException;
 import java.util.function.Supplier;
+import org.apache.flink.table.data.RowData;
+import org.apache.flink.table.data.conversion.DataStructureConverter;
+import org.apache.flink.table.data.conversion.DataStructureConverters;
+import org.apache.flink.table.types.utils.TypeConversions;
 import org.apache.flink.types.Row;
 import org.apache.iceberg.Schema;
 import org.apache.iceberg.data.RandomGenericData;
+import org.apache.iceberg.flink.FlinkSchemaUtil;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.types.TypeUtil;
 import org.apache.iceberg.types.Types;
@@ -85,6 +90,34 @@ public Row next() {
     };
   }
 
+  private static Iterable<RowData> generateRowData(Schema schema, int numRecords,
+                                                   Supplier<RandomRowGenerator> supplier) {
+    DataStructureConverter<Object, Object> converter =
+        DataStructureConverters.getConverter(TypeConversions.fromLogicalToDataType(FlinkSchemaUtil.convert(schema)));
+    return () -> new Iterator<RowData>() {
+      private final RandomRowGenerator generator = supplier.get();
+      private int count = 0;
+
+      @Override
+      public boolean hasNext() {
+        return count < numRecords;
+      }
+
+      @Override
+      public RowData next() {
+        if (!hasNext()) {
+          throw new NoSuchElementException();
+        }
+        ++count;
+        return (RowData) converter.toInternal(TypeUtil.visit(schema, generator));
+      }
+    };
+  }
+
+  public static Iterable<RowData> generateRowData(Schema schema, int numRecords, long seed) {
+    return generateRowData(schema, numRecords, () -> new RandomRowGenerator(seed));
+  }
+
   public static Iterable<Row> generate(Schema schema, int numRecords, long seed) {
     return generateData(schema, numRecords, () -> new RandomRowGenerator(seed));
   }
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
new file mode 100644
index 000000000000..b49b8b1b71cd
--- /dev/null
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
@@ -0,0 +1,72 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.flink.data;
+
+import java.io.File;
+import java.io.IOException;
+import java.util.Iterator;
+import org.apache.flink.table.data.RowData;
+import org.apache.flink.table.types.logical.RowType;
+import org.apache.iceberg.Files;
+import org.apache.iceberg.Schema;
+import org.apache.iceberg.data.DataTest;
+import org.apache.iceberg.flink.FlinkSchemaUtil;
+import org.apache.iceberg.io.CloseableIterable;
+import org.apache.iceberg.io.FileAppender;
+import org.apache.iceberg.orc.ORC;
+import org.junit.Assert;
+import org.junit.Rule;
+import org.junit.rules.TemporaryFolder;
+
+public class TestFlinkOrcReaderWriter extends DataTest {
+  private static final int NUM_RECORDS = 200;
+
+  @Rule
+  public TemporaryFolder temp = new TemporaryFolder();
+
+  @Override
+  protected void writeAndValidate(Schema schema) throws IOException {
+    Iterable<RowData> iterable = RandomData.generateRowData(schema, NUM_RECORDS, 1990L);
+
+    File testFile = temp.newFile();
+    Assert.assertTrue("Delete should succeed", testFile.delete());
+
+    RowType rowType = FlinkSchemaUtil.convert(schema);
+    try (FileAppender<RowData> writer = ORC.write(Files.localOutput(testFile))
+        .schema(schema)
+        .createWriterFunc((iSchema, typeDesc) -> FlinkOrcWriter.buildWriter(rowType, iSchema))
+        .build()) {
+      writer.addAll(iterable);
+    }
+
+    try (CloseableIterable<RowData> reader = ORC.read(Files.localInput(testFile))
+        .project(schema)
+        .createReaderFunc(type -> FlinkOrcReader.buildReader(schema, type))
+        .build()) {
+      Iterator<RowData> expected = iterable.iterator();
+      Iterator<RowData> rows = reader.iterator();
+      for (int i = 0; i < NUM_RECORDS; i += 1) {
+        Assert.assertTrue("Should have expected number of rows", rows.hasNext());
+        Assert.assertEquals(expected.next(), rows.next());
+      }
+      Assert.assertFalse("Should not have extra rows", rows.hasNext());
+    }
+  }
+}

From b77a71327f58803c9c0d2575a1d83facf18ffff1 Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Wed, 29 Jul 2020 10:33:14 +0800
Subject: [PATCH 4/9] Fix the broken unit tests.

---
 .../iceberg/data/orc/GenericOrcWriter.java    |  2 +-
 .../iceberg/data/orc/GenericOrcWriters.java   |  4 +-
 .../iceberg/flink/data/FlinkOrcReader.java    |  4 +-
 .../iceberg/flink/data/FlinkOrcReaders.java   | 32 +++++++++-----
 .../iceberg/flink/data/FlinkOrcWriter.java    |  5 +--
 .../iceberg/flink/data/FlinkOrcWriters.java   | 42 ++++++++++++++-----
 .../apache/iceberg/flink/data/RandomData.java |  2 +
 .../flink/data/TestFlinkOrcReaderWriter.java  | 30 +++++++++++--
 8 files changed, 88 insertions(+), 33 deletions(-)

diff --git a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java
index b55cb8c14f92..6f2aa9bd5fc7 100644
--- a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java
+++ b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java
@@ -98,7 +98,7 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, TypeDescriptio
         case UUID:
           return GenericOrcWriters.uuids();
         case FIXED:
-          return GenericOrcWriters.fixed();
+          return GenericOrcWriters.bytes();
         case BINARY:
           return GenericOrcWriters.byteBuffers();
         case DECIMAL:
diff --git a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
index 12d70f5225ad..fad0fe6ba422 100644
--- a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
+++ b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
@@ -88,7 +88,7 @@ public static OrcValueWriter<UUID> uuids() {
     return UUIDWriter.INSTANCE;
   }
 
-  public static OrcValueWriter<byte[]> fixed() {
+  public static OrcValueWriter<byte[]> bytes() {
     return FixedWriter.INSTANCE;
   }
 
@@ -337,7 +337,7 @@ public void nonNullWrite(int rowId, BigDecimal data, ColumnVector output) {
           "Cannot write value as decimal(%s,%s), invalid precision: %s", precision, scale, data);
 
       ((DecimalColumnVector) output).vector[rowId]
-          .setFromLongAndScale(data.unscaledValue().longValueExact(), scale);
+          .setFromLongAndScale(data.unscaledValue().longValueExact(), data.scale());
     }
   }
 
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
index c57c44dd90c4..88e069290ede 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
@@ -102,7 +102,7 @@ public OrcValueReader<?> primitive(Type.PrimitiveType iPrimitive, TypeDescriptio
         case DOUBLE:
           return OrcValueReaders.doubles();
         case DATE:
-          return GenericOrcReaders.dates();
+          return FlinkOrcReaders.dates();
         case TIME:
           return FlinkOrcReaders.times();
         case TIMESTAMP:
@@ -118,7 +118,7 @@ public OrcValueReader<?> primitive(Type.PrimitiveType iPrimitive, TypeDescriptio
           return GenericOrcReaders.uuids();
         case FIXED:
         case BINARY:
-          return GenericOrcReaders.bytes();
+          return OrcValueReaders.bytes();
         case DECIMAL:
           Types.DecimalType decimalType = (Types.DecimalType) iPrimitive;
           return FlinkOrcReaders.decimals(decimalType.precision(), decimalType.scale());
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
index aeb02443aa52..e4d2a375eb0d 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
@@ -36,7 +36,6 @@
 import org.apache.flink.table.data.TimestampData;
 import org.apache.iceberg.orc.OrcValueReader;
 import org.apache.iceberg.orc.OrcValueReaders;
-import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.relocated.com.google.common.collect.Maps;
 import org.apache.iceberg.types.Types;
@@ -49,15 +48,19 @@
 import org.apache.orc.storage.ql.exec.vector.TimestampColumnVector;
 import org.apache.orc.storage.serde2.io.HiveDecimalWritable;
 
-public class FlinkOrcReaders {
+class FlinkOrcReaders {
   private FlinkOrcReaders() {
   }
 
-  public static OrcValueReader<StringData> strings() {
+  static OrcValueReader<StringData> strings() {
     return StringReader.INSTANCE;
   }
 
-  public static OrcValueReader<DecimalData> decimals(int precision, int scale) {
+  static OrcValueReader<Integer> dates() {
+    return DateReader.INSTANCE;
+  }
+
+  static OrcValueReader<DecimalData> decimals(int precision, int scale) {
     if (precision <= 18) {
       return new Decimal18Reader(precision, scale);
     } else {
@@ -65,19 +68,19 @@ public static OrcValueReader<DecimalData> decimals(int precision, int scale) {
     }
   }
 
-  public static OrcValueReader<Integer> times() {
+  static OrcValueReader<Integer> times() {
     return TimeReader.INSTANCE;
   }
 
-  public static OrcValueReader<TimestampData> timestamps() {
+  static OrcValueReader<TimestampData> timestamps() {
     return TimestampReader.INSTANCE;
   }
 
-  public static OrcValueReader<TimestampData> timestampTzs() {
+  static OrcValueReader<TimestampData> timestampTzs() {
     return TimestampTzReader.INSTANCE;
   }
 
-  public static <T> OrcValueReader<ArrayData> array(OrcValueReader<T> elementReader) {
+  static <T> OrcValueReader<ArrayData> array(OrcValueReader<T> elementReader) {
     return new ArrayReader<>(elementReader);
   }
 
@@ -101,6 +104,15 @@ public StringData nonNullRead(ColumnVector vector, int row) {
     }
   }
 
+  private static class DateReader implements OrcValueReader<Integer> {
+    private static final DateReader INSTANCE = new DateReader();
+
+    @Override
+    public Integer nonNullRead(ColumnVector vector, int row) {
+      return (int) ((LongColumnVector) vector).vector[row];
+    }
+  }
+
   private static class Decimal18Reader implements OrcValueReader<DecimalData> {
     private final int precision;
     private final int scale;
@@ -113,8 +125,6 @@ private static class Decimal18Reader implements OrcValueReader<DecimalData> {
     @Override
     public DecimalData nonNullRead(ColumnVector vector, int row) {
       HiveDecimalWritable value = ((DecimalColumnVector) vector).vector[row];
-      Preconditions.checkArgument(precision == value.precision(), "Precision mismatched.");
-      Preconditions.checkArgument(scale == value.scale(), "Scale mismatched.");
       return DecimalData.fromUnscaledLong(value.serialize64(value.scale()), value.precision(), value.scale());
     }
   }
@@ -140,8 +150,8 @@ private static class TimeReader implements OrcValueReader<Integer> {
 
     @Override
     public Integer nonNullRead(ColumnVector vector, int row) {
-      // Flink only support time mills, just erase micros.
       long micros = ((LongColumnVector) vector).vector[row];
+      // Flink only support time mills, just erase micros.
       return (int) (micros / 1000);
     }
   }
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
index 5062a56c7285..fa3568ba8a15 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
@@ -99,7 +99,7 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, LogicalType fl
         case DOUBLE:
           return GenericOrcWriters.doubles();
         case DATE:
-          return GenericOrcWriters.dates();
+          return FlinkOrcWriters.dates();
         case TIME:
           return FlinkOrcWriters.times();
         case TIMESTAMP:
@@ -114,9 +114,8 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, LogicalType fl
         case UUID:
           return GenericOrcWriters.uuids();
         case FIXED:
-          return GenericOrcWriters.fixed();
         case BINARY:
-          return GenericOrcWriters.byteBuffers();
+          return GenericOrcWriters.bytes();
         case DECIMAL:
           Types.DecimalType decimalType = (Types.DecimalType) iPrimitive;
           return FlinkOrcWriters.decimals(decimalType.scale(), decimalType.precision());
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
index 2baa7edfaf32..0578df49246a 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
@@ -19,12 +19,12 @@
 
 package org.apache.iceberg.flink.data;
 
-import java.math.BigDecimal;
 import java.time.Instant;
 import java.time.OffsetDateTime;
 import java.time.ZoneOffset;
 import java.util.List;
 import org.apache.flink.table.data.ArrayData;
+import org.apache.flink.table.data.DecimalData;
 import org.apache.flink.table.data.MapData;
 import org.apache.flink.table.data.RowData;
 import org.apache.flink.table.data.StringData;
@@ -51,6 +51,10 @@ static OrcValueWriter<?> strings() {
     return StringWriter.INSTANCE;
   }
 
+  static OrcValueWriter<?> dates() {
+    return DateWriter.INSTANCE;
+  }
+
   static OrcValueWriter<?> times() {
     return TimeWriter.INSTANCE;
   }
@@ -99,6 +103,20 @@ public void nonNullWrite(int rowId, StringData data, ColumnVector output) {
     }
   }
 
+  private static class DateWriter implements OrcValueWriter<Integer> {
+    private static final DateWriter INSTANCE = new DateWriter();
+
+    @Override
+    public Class<?> getJavaClass() {
+      return Integer.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, Integer data, ColumnVector output) {
+      ((LongColumnVector) output).vector[rowId] = data;
+    }
+  }
+
   private static class TimeWriter implements OrcValueWriter<Integer> {
     private static final TimeWriter INSTANCE = new TimeWriter();
 
@@ -108,8 +126,10 @@ public Class<?> getJavaClass() {
     }
 
     @Override
-    public void nonNullWrite(int rowId, Integer microSecond, ColumnVector output) {
-      ((LongColumnVector) output).vector[rowId] = microSecond;
+    public void nonNullWrite(int rowId, Integer millis, ColumnVector output) {
+      // The time in flink is in millisecond, while the standard time in iceberg is microsecond.
+      // So we need to transform it to microsecond.
+      ((LongColumnVector) output).vector[rowId] = millis * 1000;
     }
   }
 
@@ -152,7 +172,7 @@ public void nonNullWrite(int rowId, TimestampData data, ColumnVector output) {
     }
   }
 
-  private static class Decimal18Writer implements OrcValueWriter<BigDecimal> {
+  private static class Decimal18Writer implements OrcValueWriter<DecimalData> {
     private final int scale;
     private final int precision;
 
@@ -163,16 +183,16 @@ private static class Decimal18Writer implements OrcValueWriter<BigDecimal> {
 
     @Override
     public Class<?> getJavaClass() {
-      return BigDecimal.class;
+      return DecimalData.class;
     }
 
     @Override
-    public void nonNullWrite(int rowId, BigDecimal data, ColumnVector output) {
-      ((DecimalColumnVector) output).vector[rowId].setFromLongAndScale(data.unscaledValue().longValueExact(), scale);
+    public void nonNullWrite(int rowId, DecimalData data, ColumnVector output) {
+      ((DecimalColumnVector) output).vector[rowId].setFromLongAndScale(data.toUnscaledLong(), data.scale());
     }
   }
 
-  private static class Decimal38Writer implements OrcValueWriter<BigDecimal> {
+  private static class Decimal38Writer implements OrcValueWriter<DecimalData> {
     private final int scale;
     private final int precision;
 
@@ -183,12 +203,12 @@ private static class Decimal38Writer implements OrcValueWriter<BigDecimal> {
 
     @Override
     public Class<?> getJavaClass() {
-      return BigDecimal.class;
+      return DecimalData.class;
     }
 
     @Override
-    public void nonNullWrite(int rowId, BigDecimal data, ColumnVector output) {
-      ((DecimalColumnVector) output).vector[rowId].set(HiveDecimal.create(data, false));
+    public void nonNullWrite(int rowId, DecimalData data, ColumnVector output) {
+      ((DecimalColumnVector) output).vector[rowId].set(HiveDecimal.create(data.toBigDecimal(), false));
     }
   }
 
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java b/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
index 5e7996ddf6d7..ac29158f5934 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
@@ -94,6 +94,8 @@ private static Iterable<RowData> generateRowData(Schema schema, int numRecords,
                                                    Supplier<RandomRowGenerator> supplier) {
     DataStructureConverter<Object, Object> converter =
         DataStructureConverters.getConverter(TypeConversions.fromLogicalToDataType(FlinkSchemaUtil.convert(schema)));
+    converter.open(RandomData.class.getClassLoader());
+
     return () -> new Iterator<RowData>() {
       private final RandomRowGenerator generator = supplier.get();
       private int count = 0;
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
index b49b8b1b71cd..1447cff9ba69 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
@@ -22,11 +22,16 @@
 import java.io.File;
 import java.io.IOException;
 import java.util.Iterator;
+import java.util.List;
+import org.apache.commons.compress.utils.Lists;
 import org.apache.flink.table.data.RowData;
 import org.apache.flink.table.types.logical.RowType;
 import org.apache.iceberg.Files;
 import org.apache.iceberg.Schema;
 import org.apache.iceberg.data.DataTest;
+import org.apache.iceberg.data.RandomGenericData;
+import org.apache.iceberg.data.Record;
+import org.apache.iceberg.data.orc.GenericOrcWriter;
 import org.apache.iceberg.flink.FlinkSchemaUtil;
 import org.apache.iceberg.io.CloseableIterable;
 import org.apache.iceberg.io.FileAppender;
@@ -43,7 +48,25 @@ public class TestFlinkOrcReaderWriter extends DataTest {
 
   @Override
   protected void writeAndValidate(Schema schema) throws IOException {
-    Iterable<RowData> iterable = RandomData.generateRowData(schema, NUM_RECORDS, 1990L);
+    List<Record> records = RandomGenericData.generate(schema, NUM_RECORDS, 1990L);
+
+    File recordsFile = temp.newFile();
+    Assert.assertTrue("Delete should succeed", recordsFile.delete());
+
+    try (FileAppender<Record> writer = ORC.write(Files.localOutput(recordsFile))
+        .schema(schema)
+        .createWriterFunc(GenericOrcWriter::buildWriter)
+        .build()) {
+      writer.addAll(records);
+    }
+
+    List<RowData> rowDataList = Lists.newArrayList();
+    try (CloseableIterable<RowData> reader = ORC.read(Files.localInput(recordsFile))
+        .project(schema)
+        .createReaderFunc(type -> FlinkOrcReader.buildReader(schema, type))
+        .build()) {
+      reader.forEach(rowDataList::add);
+    }
 
     File testFile = temp.newFile();
     Assert.assertTrue("Delete should succeed", testFile.delete());
@@ -53,20 +76,21 @@ protected void writeAndValidate(Schema schema) throws IOException {
         .schema(schema)
         .createWriterFunc((iSchema, typeDesc) -> FlinkOrcWriter.buildWriter(rowType, iSchema))
         .build()) {
-      writer.addAll(iterable);
+      writer.addAll(rowDataList);
     }
 
     try (CloseableIterable<RowData> reader = ORC.read(Files.localInput(testFile))
         .project(schema)
         .createReaderFunc(type -> FlinkOrcReader.buildReader(schema, type))
         .build()) {
-      Iterator<RowData> expected = iterable.iterator();
+      Iterator<RowData> expected = rowDataList.iterator();
       Iterator<RowData> rows = reader.iterator();
       for (int i = 0; i < NUM_RECORDS; i += 1) {
         Assert.assertTrue("Should have expected number of rows", rows.hasNext());
         Assert.assertEquals(expected.next(), rows.next());
       }
       Assert.assertFalse("Should not have extra rows", rows.hasNext());
+      Assert.assertFalse("Should not have extra rows", expected.hasNext());
     }
   }
 }

From dbc4ccea1eee5611b24fd69f1bac7c4f5992051d Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Wed, 5 Aug 2020 16:43:56 +0800
Subject: [PATCH 5/9] Addressing comments

---
 .../iceberg/flink/data/FlinkOrcReaders.java   |  6 ++-
 .../flink/data/FlinkOrcSchemaVisitor.java     | 11 +++--
 .../iceberg/flink/data/FlinkOrcWriter.java    |  2 +-
 .../iceberg/flink/data/FlinkOrcWriters.java   | 41 ++++++++++++-------
 .../apache/iceberg/flink/data/RandomData.java | 35 ----------------
 5 files changed, 40 insertions(+), 55 deletions(-)

diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
index e4d2a375eb0d..a434bddfe265 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReaders.java
@@ -63,8 +63,10 @@ static OrcValueReader<Integer> dates() {
   static OrcValueReader<DecimalData> decimals(int precision, int scale) {
     if (precision <= 18) {
       return new Decimal18Reader(precision, scale);
-    } else {
+    } else if (precision <= 38) {
       return new Decimal38Reader(precision, scale);
+    } else {
+      throw new IllegalArgumentException("Invalid precision: " + precision);
     }
   }
 
@@ -125,7 +127,7 @@ private static class Decimal18Reader implements OrcValueReader<DecimalData> {
     @Override
     public DecimalData nonNullRead(ColumnVector vector, int row) {
       HiveDecimalWritable value = ((DecimalColumnVector) vector).vector[row];
-      return DecimalData.fromUnscaledLong(value.serialize64(value.scale()), value.precision(), value.scale());
+      return DecimalData.fromUnscaledLong(value.serialize64(scale), precision, scale);
     }
   }
 
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java
index b8b77be5363d..d262d838ca9f 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java
@@ -25,13 +25,14 @@
 import org.apache.flink.table.types.logical.MapType;
 import org.apache.flink.table.types.logical.RowType;
 import org.apache.iceberg.Schema;
+import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.types.Type;
 import org.apache.iceberg.types.Types;
 
 abstract class FlinkOrcSchemaVisitor<T> {
 
-  static <T> T visit(LogicalType flinkType, Schema schema, FlinkOrcSchemaVisitor<T> visitor) {
+  static <T> T visit(RowType flinkType, Schema schema, FlinkOrcSchemaVisitor<T> visitor) {
     return visit(flinkType, schema.asStruct(), visitor);
   }
 
@@ -48,6 +49,7 @@ private static <T> T visit(LogicalType flinkType, Type iType, FlinkOrcSchemaVisi
         T value = visit(mapType.getValueType(), iMapType.valueType(), visitor);
 
         return visitor.map(iMapType, key, value, mapType.getKeyType(), mapType.getValueType());
+
       case LIST:
         ArrayType listType = (ArrayType) flinkType;
         Types.ListType iListType = iType.asListType();
@@ -63,7 +65,7 @@ private static <T> T visit(LogicalType flinkType, Type iType, FlinkOrcSchemaVisi
 
   private static <T> T visitRecord(LogicalType flinkType, Types.StructType struct,
                                    FlinkOrcSchemaVisitor<T> visitor) {
-
+    Preconditions.checkArgument(flinkType instanceof RowType, "%s is not a RowType.", flinkType);
     RowType rowType = (RowType) flinkType;
 
     int fieldSize = struct.fields().size();
@@ -74,7 +76,10 @@ private static <T> T visitRecord(LogicalType flinkType, Types.StructType struct,
     for (int i = 0; i < fieldSize; i++) {
       Types.NestedField iField = nestedFields.get(i);
       int fieldIndex = rowType.getFieldIndex(iField.name());
-      LogicalType fieldFlinkType = fieldIndex >= 0 ? rowType.getTypeAt(fieldIndex) : null;
+      Preconditions.checkArgument(fieldIndex >= 0,
+          "NestedField: %s is not found in flink RowType: %s", iField, rowType);
+
+      LogicalType fieldFlinkType = rowType.getTypeAt(fieldIndex);
 
       fieldTypes.add(fieldFlinkType);
       results.add(visit(fieldFlinkType, iField.type(), visitor));
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
index fa3568ba8a15..93e0d53cb1ef 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
@@ -118,7 +118,7 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, LogicalType fl
           return GenericOrcWriters.bytes();
         case DECIMAL:
           Types.DecimalType decimalType = (Types.DecimalType) iPrimitive;
-          return FlinkOrcWriters.decimals(decimalType.scale(), decimalType.precision());
+          return FlinkOrcWriters.decimals(decimalType.precision(), decimalType.scale());
         default:
           throw new IllegalArgumentException(String.format(
               "Invalid iceberg type %s corresponding to Flink logical type %s", iPrimitive, flinkPrimitive));
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
index 0578df49246a..a3919c988c21 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriters.java
@@ -31,6 +31,7 @@
 import org.apache.flink.table.data.TimestampData;
 import org.apache.flink.table.types.logical.LogicalType;
 import org.apache.iceberg.orc.OrcValueWriter;
+import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.orc.storage.common.type.HiveDecimal;
 import org.apache.orc.storage.ql.exec.vector.BytesColumnVector;
@@ -47,31 +48,33 @@ class FlinkOrcWriters {
   private FlinkOrcWriters() {
   }
 
-  static OrcValueWriter<?> strings() {
+  static OrcValueWriter<StringData> strings() {
     return StringWriter.INSTANCE;
   }
 
-  static OrcValueWriter<?> dates() {
+  static OrcValueWriter<Integer> dates() {
     return DateWriter.INSTANCE;
   }
 
-  static OrcValueWriter<?> times() {
+  static OrcValueWriter<Integer> times() {
     return TimeWriter.INSTANCE;
   }
 
-  static OrcValueWriter<?> timestamps() {
+  static OrcValueWriter<TimestampData> timestamps() {
     return TimestampWriter.INSTANCE;
   }
 
-  static OrcValueWriter<?> timestampTzs() {
+  static OrcValueWriter<TimestampData> timestampTzs() {
     return TimestampTzWriter.INSTANCE;
   }
 
-  static OrcValueWriter<?> decimals(int scale, int precision) {
+  static OrcValueWriter<DecimalData> decimals(int precision, int scale) {
     if (precision <= 18) {
-      return new Decimal18Writer(scale, precision);
+      return new Decimal18Writer(precision, scale);
+    } else if (precision <= 38) {
+      return new Decimal38Writer(precision, scale);
     } else {
-      return new Decimal38Writer(scale, precision);
+      throw new IllegalArgumentException("Invalid precision: " + precision);
     }
   }
 
@@ -173,12 +176,12 @@ public void nonNullWrite(int rowId, TimestampData data, ColumnVector output) {
   }
 
   private static class Decimal18Writer implements OrcValueWriter<DecimalData> {
-    private final int scale;
     private final int precision;
+    private final int scale;
 
-    Decimal18Writer(int scale, int precision) {
-      this.scale = scale;
+    Decimal18Writer(int precision, int scale) {
       this.precision = precision;
+      this.scale = scale;
     }
 
     @Override
@@ -188,17 +191,22 @@ public Class<?> getJavaClass() {
 
     @Override
     public void nonNullWrite(int rowId, DecimalData data, ColumnVector output) {
+      Preconditions.checkArgument(scale == data.scale(),
+          "Cannot write value as decimal(%s,%s), wrong scale: %s", precision, scale, data);
+      Preconditions.checkArgument(data.precision() <= precision,
+          "Cannot write value as decimal(%s,%s), too large: %s", precision, scale, data);
+
       ((DecimalColumnVector) output).vector[rowId].setFromLongAndScale(data.toUnscaledLong(), data.scale());
     }
   }
 
   private static class Decimal38Writer implements OrcValueWriter<DecimalData> {
-    private final int scale;
     private final int precision;
+    private final int scale;
 
-    Decimal38Writer(int scale, int precision) {
-      this.scale = scale;
+    Decimal38Writer(int precision, int scale) {
       this.precision = precision;
+      this.scale = scale;
     }
 
     @Override
@@ -208,6 +216,11 @@ public Class<?> getJavaClass() {
 
     @Override
     public void nonNullWrite(int rowId, DecimalData data, ColumnVector output) {
+      Preconditions.checkArgument(scale == data.scale(),
+          "Cannot write value as decimal(%s,%s), wrong scale: %s", precision, scale, data);
+      Preconditions.checkArgument(data.precision() <= precision,
+          "Cannot write value as decimal(%s,%s), too large: %s", precision, scale, data);
+
       ((DecimalColumnVector) output).vector[rowId].set(HiveDecimal.create(data.toBigDecimal(), false));
     }
   }
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java b/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
index ac29158f5934..b1e14c6c0fc5 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/RandomData.java
@@ -23,14 +23,9 @@
 import java.util.List;
 import java.util.NoSuchElementException;
 import java.util.function.Supplier;
-import org.apache.flink.table.data.RowData;
-import org.apache.flink.table.data.conversion.DataStructureConverter;
-import org.apache.flink.table.data.conversion.DataStructureConverters;
-import org.apache.flink.table.types.utils.TypeConversions;
 import org.apache.flink.types.Row;
 import org.apache.iceberg.Schema;
 import org.apache.iceberg.data.RandomGenericData;
-import org.apache.iceberg.flink.FlinkSchemaUtil;
 import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.types.TypeUtil;
 import org.apache.iceberg.types.Types;
@@ -90,36 +85,6 @@ public Row next() {
     };
   }
 
-  private static Iterable<RowData> generateRowData(Schema schema, int numRecords,
-                                                   Supplier<RandomRowGenerator> supplier) {
-    DataStructureConverter<Object, Object> converter =
-        DataStructureConverters.getConverter(TypeConversions.fromLogicalToDataType(FlinkSchemaUtil.convert(schema)));
-    converter.open(RandomData.class.getClassLoader());
-
-    return () -> new Iterator<RowData>() {
-      private final RandomRowGenerator generator = supplier.get();
-      private int count = 0;
-
-      @Override
-      public boolean hasNext() {
-        return count < numRecords;
-      }
-
-      @Override
-      public RowData next() {
-        if (!hasNext()) {
-          throw new NoSuchElementException();
-        }
-        ++count;
-        return (RowData) converter.toInternal(TypeUtil.visit(schema, generator));
-      }
-    };
-  }
-
-  public static Iterable<RowData> generateRowData(Schema schema, int numRecords, long seed) {
-    return generateRowData(schema, numRecords, () -> new RandomRowGenerator(seed));
-  }
-
   public static Iterable<Row> generate(Schema schema, int numRecords, long seed) {
     return generateData(schema, numRecords, () -> new RandomRowGenerator(seed));
   }

From 9cf929eae7b216118fb0039ae43305ceb85585af Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Thu, 6 Aug 2020 10:54:51 +0800
Subject: [PATCH 6/9] Addressing the comment and fixing the uuid type issues.

---
 .../org/apache/iceberg/flink/data/FlinkOrcReader.java     | 6 ++----
 .../org/apache/iceberg/flink/data/FlinkOrcWriter.java     | 5 ++---
 ...FlinkOrcSchemaVisitor.java => FlinkSchemaVisitor.java} | 8 ++++----
 .../iceberg/flink/data/TestFlinkOrcReaderWriter.java      | 2 +-
 4 files changed, 9 insertions(+), 12 deletions(-)
 rename flink/src/main/java/org/apache/iceberg/flink/data/{FlinkOrcSchemaVisitor.java => FlinkSchemaVisitor.java} (94%)

diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
index 88e069290ede..2f5db1967ef2 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcReader.java
@@ -25,7 +25,6 @@
 import org.apache.flink.table.data.MapData;
 import org.apache.flink.table.data.RowData;
 import org.apache.iceberg.Schema;
-import org.apache.iceberg.data.orc.GenericOrcReaders;
 import org.apache.iceberg.orc.OrcRowReader;
 import org.apache.iceberg.orc.OrcSchemaWithTypeVisitor;
 import org.apache.iceberg.orc.OrcValueReader;
@@ -44,8 +43,8 @@ private FlinkOrcReader(Schema iSchema, TypeDescription readSchema) {
     this(iSchema, readSchema, ImmutableMap.of());
   }
 
-  private FlinkOrcReader(Schema iSchema, TypeDescription readOrcSchema, Map<Integer, ?> idToConstant) {
-    this.reader = OrcSchemaWithTypeVisitor.visit(iSchema, readOrcSchema, new ReadBuilder(idToConstant));
+  private FlinkOrcReader(Schema iSchema, TypeDescription readSchema, Map<Integer, ?> idToConstant) {
+    this.reader = OrcSchemaWithTypeVisitor.visit(iSchema, readSchema, new ReadBuilder(idToConstant));
   }
 
   public static OrcRowReader<RowData> buildReader(Schema schema, TypeDescription readSchema) {
@@ -115,7 +114,6 @@ public OrcValueReader<?> primitive(Type.PrimitiveType iPrimitive, TypeDescriptio
         case STRING:
           return FlinkOrcReaders.strings();
         case UUID:
-          return GenericOrcReaders.uuids();
         case FIXED:
         case BINARY:
           return OrcValueReaders.bytes();
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
index 93e0d53cb1ef..1dd691533ec6 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
@@ -37,7 +37,7 @@ public class FlinkOrcWriter implements OrcRowWriter<RowData> {
   private final List<RowData.FieldGetter> fieldGetters;
 
   private FlinkOrcWriter(RowType rowType, Schema iSchema) {
-    this.writer = (FlinkOrcWriters.StructWriter) FlinkOrcSchemaVisitor.visit(rowType, iSchema, new WriteBuilder());
+    this.writer = (FlinkOrcWriters.StructWriter) FlinkSchemaVisitor.visit(rowType, iSchema, new WriteBuilder());
 
     List<LogicalType> fieldTypes = rowType.getChildren();
     this.fieldGetters = Lists.newArrayListWithExpectedSize(fieldTypes.size());
@@ -63,7 +63,7 @@ public void write(RowData row, VectorizedRowBatch output) {
     }
   }
 
-  private static class WriteBuilder extends FlinkOrcSchemaVisitor<OrcValueWriter<?>> {
+  private static class WriteBuilder extends FlinkSchemaVisitor<OrcValueWriter<?>> {
     private WriteBuilder() {
     }
 
@@ -112,7 +112,6 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, LogicalType fl
         case STRING:
           return FlinkOrcWriters.strings();
         case UUID:
-          return GenericOrcWriters.uuids();
         case FIXED:
         case BINARY:
           return GenericOrcWriters.bytes();
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkSchemaVisitor.java
similarity index 94%
rename from flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java
rename to flink/src/main/java/org/apache/iceberg/flink/data/FlinkSchemaVisitor.java
index d262d838ca9f..363d2bde4918 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcSchemaVisitor.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkSchemaVisitor.java
@@ -30,13 +30,13 @@
 import org.apache.iceberg.types.Type;
 import org.apache.iceberg.types.Types;
 
-abstract class FlinkOrcSchemaVisitor<T> {
+abstract class FlinkSchemaVisitor<T> {
 
-  static <T> T visit(RowType flinkType, Schema schema, FlinkOrcSchemaVisitor<T> visitor) {
+  static <T> T visit(RowType flinkType, Schema schema, FlinkSchemaVisitor<T> visitor) {
     return visit(flinkType, schema.asStruct(), visitor);
   }
 
-  private static <T> T visit(LogicalType flinkType, Type iType, FlinkOrcSchemaVisitor<T> visitor) {
+  private static <T> T visit(LogicalType flinkType, Type iType, FlinkSchemaVisitor<T> visitor) {
     switch (iType.typeId()) {
       case STRUCT:
         return visitRecord(flinkType, iType.asStructType(), visitor);
@@ -64,7 +64,7 @@ private static <T> T visit(LogicalType flinkType, Type iType, FlinkOrcSchemaVisi
   }
 
   private static <T> T visitRecord(LogicalType flinkType, Types.StructType struct,
-                                   FlinkOrcSchemaVisitor<T> visitor) {
+                                   FlinkSchemaVisitor<T> visitor) {
     Preconditions.checkArgument(flinkType instanceof RowType, "%s is not a RowType.", flinkType);
     RowType rowType = (RowType) flinkType;
 
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
index 1447cff9ba69..f8cdcd90ac6e 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
@@ -23,7 +23,6 @@
 import java.io.IOException;
 import java.util.Iterator;
 import java.util.List;
-import org.apache.commons.compress.utils.Lists;
 import org.apache.flink.table.data.RowData;
 import org.apache.flink.table.types.logical.RowType;
 import org.apache.iceberg.Files;
@@ -36,6 +35,7 @@
 import org.apache.iceberg.io.CloseableIterable;
 import org.apache.iceberg.io.FileAppender;
 import org.apache.iceberg.orc.ORC;
+import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.junit.Assert;
 import org.junit.Rule;
 import org.junit.rules.TemporaryFolder;

From 7ffb1a9c9a5d56facfe4a4aa94e4c41337f8bdaa Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Wed, 19 Aug 2020 22:19:05 +0800
Subject: [PATCH 7/9] Addressing the comments

---
 .../iceberg/data/orc/GenericOrcWriters.java   |  8 +-
 .../apache/iceberg/flink/AssertHelpers.java   | 80 +++++++++++++++++++
 .../iceberg/flink/RowDataConverter.java       | 13 +--
 .../flink/TestIcebergStreamWriter.java        |  6 +-
 .../apache/iceberg/flink/TestTaskWriters.java |  6 +-
 .../flink/data/TestFlinkOrcReaderWriter.java  | 37 +++++----
 6 files changed, 119 insertions(+), 31 deletions(-)
 create mode 100644 flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java

diff --git a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
index fad0fe6ba422..4e1953bcded0 100644
--- a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
+++ b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
@@ -89,7 +89,7 @@ public static OrcValueWriter<UUID> uuids() {
   }
 
   public static OrcValueWriter<byte[]> bytes() {
-    return FixedWriter.INSTANCE;
+    return BytesWriter.INSTANCE;
   }
 
   public static OrcValueWriter<LocalDate> dates() {
@@ -252,8 +252,8 @@ public void nonNullWrite(int rowId, UUID data, ColumnVector output) {
     }
   }
 
-  private static class FixedWriter implements OrcValueWriter<byte[]> {
-    private static final OrcValueWriter<byte[]> INSTANCE = new FixedWriter();
+  private static class BytesWriter implements OrcValueWriter<byte[]> {
+    private static final OrcValueWriter<byte[]> INSTANCE = new BytesWriter();
 
     @Override
     public Class<byte[]> getJavaClass() {
@@ -337,7 +337,7 @@ public void nonNullWrite(int rowId, BigDecimal data, ColumnVector output) {
           "Cannot write value as decimal(%s,%s), invalid precision: %s", precision, scale, data);
 
       ((DecimalColumnVector) output).vector[rowId]
-          .setFromLongAndScale(data.unscaledValue().longValueExact(), data.scale());
+          .setFromLongAndScale(data.unscaledValue().longValueExact(), scale);
     }
   }
 
diff --git a/flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java b/flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java
new file mode 100644
index 000000000000..f20ea844561e
--- /dev/null
+++ b/flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java
@@ -0,0 +1,80 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *   http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing,
+ * software distributed under the License is distributed on an
+ * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
+ * KIND, either express or implied.  See the License for the
+ * specific language governing permissions and limitations
+ * under the License.
+ */
+
+package org.apache.iceberg.flink;
+
+import java.time.LocalTime;
+import java.util.List;
+import java.util.Map;
+import org.apache.iceberg.data.Record;
+import org.apache.iceberg.relocated.com.google.common.collect.Lists;
+import org.apache.iceberg.relocated.com.google.common.collect.Maps;
+import org.junit.Assert;
+
+public class AssertHelpers {
+  private AssertHelpers() {
+  }
+
+  /**
+   * Since flink's time type will truncate the microseconds and only keep millisecond, so when reading Record from
+   * the file which was written by flink writer (Orc, Parquet, Avro), its time only have millisecond. We need to use
+   * this method to assert records.
+   *
+   * @param expected the expected record
+   * @param actual   the actual record.
+   */
+  public static void assertRecordEquals(Record expected, Record actual) {
+    Record expectedRecord = (Record) truncateTimeToMillis(expected);
+    Record actualRecord = (Record) truncateTimeToMillis(actual);
+    Assert.assertEquals(expectedRecord, actualRecord);
+  }
+
+  private static Object truncateTimeToMillis(Object object) {
+    if (object == null) {
+      return null;
+    } else if (object instanceof List) {
+      List<?> list = (List<?>) object;
+      List<Object> result = Lists.newArrayList();
+      for (Object element : list) {
+        result.add(truncateTimeToMillis(element));
+      }
+      return result;
+    } else if (object instanceof Map) {
+      Map<?, ?> map = (Map<?, ?>) object;
+      Map<Object, Object> result = Maps.newHashMap();
+      for (Map.Entry<?, ?> entry : map.entrySet()) {
+        result.put(truncateTimeToMillis(entry.getKey()), truncateTimeToMillis(entry.getValue()));
+      }
+      return result;
+    } else if (object instanceof Record) {
+      Record record = (Record) object;
+      Record result = record.copy();
+      for (int i = 0; i < record.size(); i++) {
+        result.set(i, truncateTimeToMillis(record.get(i)));
+      }
+      return result;
+    } else if (object instanceof LocalTime) {
+      LocalTime localTime = (LocalTime) object;
+      // Truncate the microseconds.
+      return LocalTime.ofNanoOfDay(localTime.toNanoOfDay() / 1_000_000 * 1_000);
+    } else {
+      return object;
+    }
+  }
+}
diff --git a/flink/src/test/java/org/apache/iceberg/flink/RowDataConverter.java b/flink/src/test/java/org/apache/iceberg/flink/RowDataConverter.java
index 3dd7e75c2e63..59306d638ee2 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/RowDataConverter.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/RowDataConverter.java
@@ -34,13 +34,14 @@
 import java.util.UUID;
 import java.util.concurrent.TimeUnit;
 import org.apache.flink.table.data.DecimalData;
+import org.apache.flink.table.data.GenericArrayData;
+import org.apache.flink.table.data.GenericMapData;
 import org.apache.flink.table.data.GenericRowData;
 import org.apache.flink.table.data.RowData;
 import org.apache.flink.table.data.StringData;
 import org.apache.flink.table.data.TimestampData;
 import org.apache.iceberg.Schema;
 import org.apache.iceberg.data.Record;
-import org.apache.iceberg.relocated.com.google.common.collect.Lists;
 import org.apache.iceberg.relocated.com.google.common.collect.Maps;
 import org.apache.iceberg.types.Type;
 import org.apache.iceberg.types.Types;
@@ -124,12 +125,12 @@ private static Object convert(Type type, Object object) {
       case STRUCT:
         return convert(type.asStructType(), (Record) object);
       case LIST:
-        List<Object> convertedList = Lists.newArrayList();
         List<?> list = (List<?>) object;
-        for (Object element : list) {
-          convertedList.add(convert(type.asListType().elementType(), element));
+        Object[] convertedArray = new Object[list.size()];
+        for (int i = 0; i < convertedArray.length; i++) {
+          convertedArray[i] = convert(type.asListType().elementType(), list.get(i));
         }
-        return convertedList;
+        return new GenericArrayData(convertedArray);
       case MAP:
         Map<Object, Object> convertedMap = Maps.newLinkedHashMap();
         Map<?, ?> map = (Map<?, ?>) object;
@@ -139,7 +140,7 @@ private static Object convert(Type type, Object object) {
               convert(type.asMapType().valueType(), entry.getValue())
           );
         }
-        return convertedMap;
+        return new GenericMapData(convertedMap);
       default:
         throw new UnsupportedOperationException("Not a supported type: " + type);
     }
diff --git a/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java b/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java
index bb07586d613e..85a9d970a6eb 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java
@@ -70,12 +70,14 @@ public class TestIcebergStreamWriter {
   private final FileFormat format;
   private final boolean partitioned;
 
-  // TODO add ORC/Parquet unit test once the readers and writers are ready.
+  // TODO add Parquet unit test once the readers and writers are ready.
   @Parameterized.Parameters(name = "format = {0}, partitioned = {1}")
   public static Object[][] parameters() {
     return new Object[][] {
         new Object[] {"avro", true},
-        new Object[] {"avro", false}
+        new Object[] {"avro", false},
+        new Object[] {"orc", true},
+        new Object[] {"orc", false}
     };
   }
 
diff --git a/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java b/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java
index dc39fd5baf27..d8f8d7e843d0 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java
@@ -55,12 +55,14 @@ public class TestTaskWriters {
   @Rule
   public final TemporaryFolder tempFolder = new TemporaryFolder();
 
-  // TODO add ORC/Parquet unit test once the readers and writers are ready.
+  // TODO add Parquet unit test once the readers and writers are ready.
   @Parameterized.Parameters(name = "format = {0}, partitioned = {1}")
   public static Object[][] parameters() {
     return new Object[][] {
         new Object[] {"avro", true},
-        new Object[] {"avro", false}
+        new Object[] {"avro", false},
+        new Object[] {"orc", true},
+        new Object[] {"orc", false}
     };
   }
 
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
index f8cdcd90ac6e..1f8cf0a31a9c 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
@@ -30,7 +30,9 @@
 import org.apache.iceberg.data.DataTest;
 import org.apache.iceberg.data.RandomGenericData;
 import org.apache.iceberg.data.Record;
+import org.apache.iceberg.data.orc.GenericOrcReader;
 import org.apache.iceberg.data.orc.GenericOrcWriter;
+import org.apache.iceberg.flink.AssertHelpers;
 import org.apache.iceberg.flink.FlinkSchemaUtil;
 import org.apache.iceberg.io.CloseableIterable;
 import org.apache.iceberg.io.FileAppender;
@@ -41,56 +43,57 @@
 import org.junit.rules.TemporaryFolder;
 
 public class TestFlinkOrcReaderWriter extends DataTest {
-  private static final int NUM_RECORDS = 200;
+  private static final int NUM_RECORDS = 100;
 
   @Rule
   public TemporaryFolder temp = new TemporaryFolder();
 
   @Override
   protected void writeAndValidate(Schema schema) throws IOException {
-    List<Record> records = RandomGenericData.generate(schema, NUM_RECORDS, 1990L);
+    List<Record> expectedRecords = RandomGenericData.generate(schema, NUM_RECORDS, 1990L);
+    List<RowData> expectedRows = Lists.newArrayList(RandomRowData.convert(schema, expectedRecords));
 
     File recordsFile = temp.newFile();
     Assert.assertTrue("Delete should succeed", recordsFile.delete());
 
+    // Write the expected records into ORC file, then read them into RowData and assert with the converted RowData list.
     try (FileAppender<Record> writer = ORC.write(Files.localOutput(recordsFile))
         .schema(schema)
         .createWriterFunc(GenericOrcWriter::buildWriter)
         .build()) {
-      writer.addAll(records);
+      writer.addAll(expectedRecords);
     }
 
-    List<RowData> rowDataList = Lists.newArrayList();
     try (CloseableIterable<RowData> reader = ORC.read(Files.localInput(recordsFile))
         .project(schema)
         .createReaderFunc(type -> FlinkOrcReader.buildReader(schema, type))
         .build()) {
-      reader.forEach(rowDataList::add);
+      Assert.assertArrayEquals("Should be equal when writing records to ORC file and reading by RowData reader.",
+          expectedRows.toArray(), Lists.newArrayList(reader.iterator()).toArray());
     }
 
-    File testFile = temp.newFile();
-    Assert.assertTrue("Delete should succeed", testFile.delete());
+    File rowDataFile = temp.newFile();
+    Assert.assertTrue("Delete should succeed", rowDataFile.delete());
 
     RowType rowType = FlinkSchemaUtil.convert(schema);
-    try (FileAppender<RowData> writer = ORC.write(Files.localOutput(testFile))
+    try (FileAppender<RowData> writer = ORC.write(Files.localOutput(rowDataFile))
         .schema(schema)
         .createWriterFunc((iSchema, typeDesc) -> FlinkOrcWriter.buildWriter(rowType, iSchema))
         .build()) {
-      writer.addAll(rowDataList);
+      writer.addAll(expectedRows);
     }
 
-    try (CloseableIterable<RowData> reader = ORC.read(Files.localInput(testFile))
+    try (CloseableIterable<Record> reader = ORC.read(Files.localInput(rowDataFile))
         .project(schema)
-        .createReaderFunc(type -> FlinkOrcReader.buildReader(schema, type))
+        .createReaderFunc(type -> GenericOrcReader.buildReader(schema, type))
         .build()) {
-      Iterator<RowData> expected = rowDataList.iterator();
-      Iterator<RowData> rows = reader.iterator();
+      Iterator<Record> expected = expectedRecords.iterator();
+      Iterator<Record> rows = reader.iterator();
       for (int i = 0; i < NUM_RECORDS; i += 1) {
-        Assert.assertTrue("Should have expected number of rows", rows.hasNext());
-        Assert.assertEquals(expected.next(), rows.next());
+        Assert.assertTrue("Should have expected number of records", rows.hasNext());
+        AssertHelpers.assertRecordEquals(expected.next(), rows.next());
       }
-      Assert.assertFalse("Should not have extra rows", rows.hasNext());
-      Assert.assertFalse("Should not have extra rows", expected.hasNext());
+      Assert.assertFalse("Should not have extra records", rows.hasNext());
     }
   }
 }

From 75c2434120f0f6d4df1a2f371e57ee54fb0c4d48 Mon Sep 17 00:00:00 2001
From: openinx <openinx@gmail.com>
Date: Thu, 20 Aug 2020 08:49:09 +0800
Subject: [PATCH 8/9] Fix the broken unit tests

---
 .../iceberg/data/orc/GenericOrcWriter.java    |  2 +-
 .../iceberg/data/orc/GenericOrcWriters.java   | 44 +++++++++++++++++--
 .../flink/RowDataTaskWriterFactory.java       | 12 ++++-
 .../iceberg/flink/data/FlinkOrcWriter.java    |  8 +++-
 .../flink/TestIcebergStreamWriter.java        |  4 ++
 .../apache/iceberg/flink/TestTaskWriters.java |  4 ++
 6 files changed, 67 insertions(+), 7 deletions(-)

diff --git a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java
index 6f2aa9bd5fc7..cf7082cd035f 100644
--- a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java
+++ b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriter.java
@@ -98,7 +98,7 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, TypeDescriptio
         case UUID:
           return GenericOrcWriters.uuids();
         case FIXED:
-          return GenericOrcWriters.bytes();
+          return GenericOrcWriters.byteArrays();
         case BINARY:
           return GenericOrcWriters.byteBuffers();
         case DECIMAL:
diff --git a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
index 4e1953bcded0..2d4a6daa0c05 100644
--- a/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
+++ b/data/src/main/java/org/apache/iceberg/data/orc/GenericOrcWriters.java
@@ -56,6 +56,14 @@ public static OrcValueWriter<Boolean> booleans() {
     return BooleanWriter.INSTANCE;
   }
 
+  public static OrcValueWriter<Byte> bytes() {
+    return ByteWriter.INSTANCE;
+  }
+
+  public static OrcValueWriter<Short> shorts() {
+    return ShortWriter.INSTANCE;
+  }
+
   public static OrcValueWriter<Integer> ints() {
     return IntWriter.INSTANCE;
   }
@@ -88,8 +96,8 @@ public static OrcValueWriter<UUID> uuids() {
     return UUIDWriter.INSTANCE;
   }
 
-  public static OrcValueWriter<byte[]> bytes() {
-    return BytesWriter.INSTANCE;
+  public static OrcValueWriter<byte[]> byteArrays() {
+    return ByteArrayWriter.INSTANCE;
   }
 
   public static OrcValueWriter<LocalDate> dates() {
@@ -136,6 +144,34 @@ public void nonNullWrite(int rowId, Boolean data, ColumnVector output) {
     }
   }
 
+  private static class ByteWriter implements OrcValueWriter<Byte> {
+    private static final OrcValueWriter<Byte> INSTANCE = new ByteWriter();
+
+    @Override
+    public Class<Byte> getJavaClass() {
+      return Byte.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, Byte data, ColumnVector output) {
+      ((LongColumnVector) output).vector[rowId] = data;
+    }
+  }
+
+  private static class ShortWriter implements OrcValueWriter<Short> {
+    private static final OrcValueWriter<Short> INSTANCE = new ShortWriter();
+
+    @Override
+    public Class<Short> getJavaClass() {
+      return Short.class;
+    }
+
+    @Override
+    public void nonNullWrite(int rowId, Short data, ColumnVector output) {
+      ((LongColumnVector) output).vector[rowId] = data;
+    }
+  }
+
   private static class IntWriter implements OrcValueWriter<Integer> {
     private static final OrcValueWriter<Integer> INSTANCE = new IntWriter();
 
@@ -252,8 +288,8 @@ public void nonNullWrite(int rowId, UUID data, ColumnVector output) {
     }
   }
 
-  private static class BytesWriter implements OrcValueWriter<byte[]> {
-    private static final OrcValueWriter<byte[]> INSTANCE = new BytesWriter();
+  private static class ByteArrayWriter implements OrcValueWriter<byte[]> {
+    private static final OrcValueWriter<byte[]> INSTANCE = new ByteArrayWriter();
 
     @Override
     public Class<byte[]> getJavaClass() {
diff --git a/flink/src/main/java/org/apache/iceberg/flink/RowDataTaskWriterFactory.java b/flink/src/main/java/org/apache/iceberg/flink/RowDataTaskWriterFactory.java
index f14aed220a52..e8c5301824ce 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/RowDataTaskWriterFactory.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/RowDataTaskWriterFactory.java
@@ -32,6 +32,7 @@
 import org.apache.iceberg.avro.Avro;
 import org.apache.iceberg.encryption.EncryptionManager;
 import org.apache.iceberg.flink.data.FlinkAvroWriter;
+import org.apache.iceberg.flink.data.FlinkOrcWriter;
 import org.apache.iceberg.io.FileAppender;
 import org.apache.iceberg.io.FileAppenderFactory;
 import org.apache.iceberg.io.FileIO;
@@ -40,6 +41,7 @@
 import org.apache.iceberg.io.OutputFileFactory;
 import org.apache.iceberg.io.TaskWriter;
 import org.apache.iceberg.io.UnpartitionedWriter;
+import org.apache.iceberg.orc.ORC;
 import org.apache.iceberg.relocated.com.google.common.base.Preconditions;
 
 class RowDataTaskWriterFactory implements TaskWriterFactory<RowData> {
@@ -137,8 +139,16 @@ public FileAppender<RowData> newAppender(OutputFile outputFile, FileFormat forma
                 .schema(schema)
                 .overwrite()
                 .build();
-          case PARQUET:
+
           case ORC:
+            return ORC.write(outputFile)
+                .createWriterFunc((iSchema, typDesc) -> FlinkOrcWriter.buildWriter(flinkSchema, iSchema))
+                .setAll(props)
+                .schema(schema)
+                .overwrite()
+                .build();
+
+          case PARQUET:
           default:
             throw new UnsupportedOperationException("Cannot write unknown file format: " + format);
         }
diff --git a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
index 1dd691533ec6..592307ded257 100644
--- a/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
+++ b/flink/src/main/java/org/apache/iceberg/flink/data/FlinkOrcWriter.java
@@ -91,6 +91,12 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, LogicalType fl
         case BOOLEAN:
           return GenericOrcWriters.booleans();
         case INTEGER:
+          switch (flinkPrimitive.getTypeRoot()) {
+            case TINYINT:
+              return GenericOrcWriters.bytes();
+            case SMALLINT:
+              return GenericOrcWriters.shorts();
+          }
           return GenericOrcWriters.ints();
         case LONG:
           return GenericOrcWriters.longs();
@@ -114,7 +120,7 @@ public OrcValueWriter<?> primitive(Type.PrimitiveType iPrimitive, LogicalType fl
         case UUID:
         case FIXED:
         case BINARY:
-          return GenericOrcWriters.bytes();
+          return GenericOrcWriters.byteArrays();
         case DECIMAL:
           Types.DecimalType decimalType = (Types.DecimalType) iPrimitive;
           return FlinkOrcWriters.decimals(decimalType.precision(), decimalType.scale());
diff --git a/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java b/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java
index 85a9d970a6eb..c6eee4635615 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/TestIcebergStreamWriter.java
@@ -213,6 +213,10 @@ public void testBoundedStreamCloseWithEmittingDataFiles() throws Exception {
 
   @Test
   public void testTableWithTargetFileSize() throws Exception {
+    // TODO: ORC file does not support target file size before closed.
+    if (format == FileFormat.ORC) {
+      return;
+    }
     // Adjust the target-file-size in table properties.
     table.updateProperties()
         .set(TableProperties.WRITE_TARGET_FILE_SIZE_BYTES, "4") // ~4 bytes; low enough to trigger
diff --git a/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java b/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java
index d8f8d7e843d0..bb3841efcb8f 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/TestTaskWriters.java
@@ -180,6 +180,10 @@ public void testCompleteFiles() throws IOException {
 
   @Test
   public void testRollingWithTargetFileSize() throws IOException {
+    // TODO ORC don't support target file size before closed.
+    if (format == FileFormat.ORC) {
+      return;
+    }
     try (TaskWriter<RowData> taskWriter = createTaskWriter(4)) {
       List<RowData> rows = Lists.newArrayListWithCapacity(8000);
       List<Record> records = Lists.newArrayListWithCapacity(8000);

From 21dd824793238d5a9bc75a486372c5c10b9eb3ac Mon Sep 17 00:00:00 2001
From: huzheng <openinx@gmail.com>
Date: Thu, 20 Aug 2020 15:13:32 +0800
Subject: [PATCH 9/9] Rebase to use the flink TestHelpers.

---
 .../apache/iceberg/flink/AssertHelpers.java   | 80 -------------------
 .../flink/data/TestFlinkOrcReaderWriter.java  | 24 +++---
 2 files changed, 15 insertions(+), 89 deletions(-)
 delete mode 100644 flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java

diff --git a/flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java b/flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java
deleted file mode 100644
index f20ea844561e..000000000000
--- a/flink/src/test/java/org/apache/iceberg/flink/AssertHelpers.java
+++ /dev/null
@@ -1,80 +0,0 @@
-/*
- * Licensed to the Apache Software Foundation (ASF) under one
- * or more contributor license agreements.  See the NOTICE file
- * distributed with this work for additional information
- * regarding copyright ownership.  The ASF licenses this file
- * to you under the Apache License, Version 2.0 (the
- * "License"); you may not use this file except in compliance
- * with the License.  You may obtain a copy of the License at
- *
- *   http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing,
- * software distributed under the License is distributed on an
- * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
- * KIND, either express or implied.  See the License for the
- * specific language governing permissions and limitations
- * under the License.
- */
-
-package org.apache.iceberg.flink;
-
-import java.time.LocalTime;
-import java.util.List;
-import java.util.Map;
-import org.apache.iceberg.data.Record;
-import org.apache.iceberg.relocated.com.google.common.collect.Lists;
-import org.apache.iceberg.relocated.com.google.common.collect.Maps;
-import org.junit.Assert;
-
-public class AssertHelpers {
-  private AssertHelpers() {
-  }
-
-  /**
-   * Since flink's time type will truncate the microseconds and only keep millisecond, so when reading Record from
-   * the file which was written by flink writer (Orc, Parquet, Avro), its time only have millisecond. We need to use
-   * this method to assert records.
-   *
-   * @param expected the expected record
-   * @param actual   the actual record.
-   */
-  public static void assertRecordEquals(Record expected, Record actual) {
-    Record expectedRecord = (Record) truncateTimeToMillis(expected);
-    Record actualRecord = (Record) truncateTimeToMillis(actual);
-    Assert.assertEquals(expectedRecord, actualRecord);
-  }
-
-  private static Object truncateTimeToMillis(Object object) {
-    if (object == null) {
-      return null;
-    } else if (object instanceof List) {
-      List<?> list = (List<?>) object;
-      List<Object> result = Lists.newArrayList();
-      for (Object element : list) {
-        result.add(truncateTimeToMillis(element));
-      }
-      return result;
-    } else if (object instanceof Map) {
-      Map<?, ?> map = (Map<?, ?>) object;
-      Map<Object, Object> result = Maps.newHashMap();
-      for (Map.Entry<?, ?> entry : map.entrySet()) {
-        result.put(truncateTimeToMillis(entry.getKey()), truncateTimeToMillis(entry.getValue()));
-      }
-      return result;
-    } else if (object instanceof Record) {
-      Record record = (Record) object;
-      Record result = record.copy();
-      for (int i = 0; i < record.size(); i++) {
-        result.set(i, truncateTimeToMillis(record.get(i)));
-      }
-      return result;
-    } else if (object instanceof LocalTime) {
-      LocalTime localTime = (LocalTime) object;
-      // Truncate the microseconds.
-      return LocalTime.ofNanoOfDay(localTime.toNanoOfDay() / 1_000_000 * 1_000);
-    } else {
-      return object;
-    }
-  }
-}
diff --git a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
index 1f8cf0a31a9c..79f1c61f905a 100644
--- a/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
+++ b/flink/src/test/java/org/apache/iceberg/flink/data/TestFlinkOrcReaderWriter.java
@@ -32,7 +32,6 @@
 import org.apache.iceberg.data.Record;
 import org.apache.iceberg.data.orc.GenericOrcReader;
 import org.apache.iceberg.data.orc.GenericOrcWriter;
-import org.apache.iceberg.flink.AssertHelpers;
 import org.apache.iceberg.flink.FlinkSchemaUtil;
 import org.apache.iceberg.io.CloseableIterable;
 import org.apache.iceberg.io.FileAppender;
@@ -50,13 +49,14 @@ public class TestFlinkOrcReaderWriter extends DataTest {
 
   @Override
   protected void writeAndValidate(Schema schema) throws IOException {
+    RowType flinkSchema = FlinkSchemaUtil.convert(schema);
     List<Record> expectedRecords = RandomGenericData.generate(schema, NUM_RECORDS, 1990L);
     List<RowData> expectedRows = Lists.newArrayList(RandomRowData.convert(schema, expectedRecords));
 
     File recordsFile = temp.newFile();
     Assert.assertTrue("Delete should succeed", recordsFile.delete());
 
-    // Write the expected records into ORC file, then read them into RowData and assert with the converted RowData list.
+    // Write the expected records into ORC file, then read them into RowData and assert with the expected Record list.
     try (FileAppender<Record> writer = ORC.write(Files.localOutput(recordsFile))
         .schema(schema)
         .createWriterFunc(GenericOrcWriter::buildWriter)
@@ -68,13 +68,19 @@ protected void writeAndValidate(Schema schema) throws IOException {
         .project(schema)
         .createReaderFunc(type -> FlinkOrcReader.buildReader(schema, type))
         .build()) {
-      Assert.assertArrayEquals("Should be equal when writing records to ORC file and reading by RowData reader.",
-          expectedRows.toArray(), Lists.newArrayList(reader.iterator()).toArray());
+      Iterator<Record> expected = expectedRecords.iterator();
+      Iterator<RowData> rows = reader.iterator();
+      for (int i = 0; i < NUM_RECORDS; i++) {
+        Assert.assertTrue("Should have expected number of records", rows.hasNext());
+        TestHelpers.assertRowData(schema.asStruct(), flinkSchema, expected.next(), rows.next());
+      }
+      Assert.assertFalse("Should not have extra records", rows.hasNext());
     }
 
     File rowDataFile = temp.newFile();
     Assert.assertTrue("Delete should succeed", rowDataFile.delete());
 
+    // Write the expected RowData into ORC file, then read them into Record and assert with the expected RowData list.
     RowType rowType = FlinkSchemaUtil.convert(schema);
     try (FileAppender<RowData> writer = ORC.write(Files.localOutput(rowDataFile))
         .schema(schema)
@@ -87,13 +93,13 @@ protected void writeAndValidate(Schema schema) throws IOException {
         .project(schema)
         .createReaderFunc(type -> GenericOrcReader.buildReader(schema, type))
         .build()) {
-      Iterator<Record> expected = expectedRecords.iterator();
-      Iterator<Record> rows = reader.iterator();
+      Iterator<RowData> expected = expectedRows.iterator();
+      Iterator<Record> records = reader.iterator();
       for (int i = 0; i < NUM_RECORDS; i += 1) {
-        Assert.assertTrue("Should have expected number of records", rows.hasNext());
-        AssertHelpers.assertRecordEquals(expected.next(), rows.next());
+        Assert.assertTrue("Should have expected number of records", records.hasNext());
+        TestHelpers.assertRowData(schema.asStruct(), flinkSchema, records.next(), expected.next());
       }
-      Assert.assertFalse("Should not have extra records", rows.hasNext());
+      Assert.assertFalse("Should not have extra records", records.hasNext());
     }
   }
 }