Merge pull request #1226 from dkharrat/master

Honor ignoreInvalidRows in reducer of Hadoop indexer
2015-03-20 08:36:09 -07:00 · 2015-03-20 08:36:09 -07:00 · bb9118319f
parent 46eae49bf5 3a6dc99384
commit bb9118319f
2 changed files with 19 additions and 3 deletions
--- a/indexing-hadoop/src/main/java/io/druid/indexer/HadoopDruidIndexerMapper.java
+++ b/indexing-hadoop/src/main/java/io/druid/indexer/HadoopDruidIndexerMapper.java
@ -17,6 +17,7 @@

 package io.druid.indexer;

+import com.metamx.common.logger.Logger;
 import io.druid.data.input.InputRow;
 import io.druid.data.input.impl.InputRowParser;
 import io.druid.data.input.impl.MapInputRowParser;
@ -42,6 +43,8 @@ import com.metamx.common.RE;

 public abstract class HadoopDruidIndexerMapper<KEYOUT, VALUEOUT> extends Mapper<Writable, Writable, KEYOUT, VALUEOUT>
 {
+  private static final Logger log = new Logger(HadoopDruidIndexerMapper.class);
+
  private HadoopDruidIndexerConfig config;
  private InputRowParser parser;
  protected GranularitySpec granularitySpec;
@ -77,6 +80,7 @@ public abstract class HadoopDruidIndexerMapper<KEYOUT, VALUEOUT> extends Mapper<
      }
      catch (Exception e) {
        if (config.isIgnoreInvalidRows()) {
+          log.debug(e, "Ignoring invalid row [%s] due to parsing error", value.toString());
          context.getCounter(HadoopDruidIndexerConfig.IndexJobCounters.INVALID_ROW_COUNTER).increment(1);
          return; // we're ignoring this invalid row
        } else {
--- a/indexing-hadoop/src/main/java/io/druid/indexer/IndexGeneratorJob.java
+++ b/indexing-hadoop/src/main/java/io/druid/indexer/IndexGeneratorJob.java
@ -17,6 +17,7 @@

 package io.druid.indexer;

+import com.metamx.common.parsers.ParseException;
 import io.druid.collections.StupidPool;
 import io.druid.data.input.InputRow;
 import io.druid.data.input.Rows;
@ -378,10 +379,21 @@ public class IndexGeneratorJob implements Jobby

        for (final Writable value : values) {
          context.progress();
-          final InputRow inputRow = index.formatRow(HadoopDruidIndexerMapper.parseInputRow(value, parser));
-          allDimensionNames.addAll(inputRow.getDimensions());
+          int numRows;
+          try {
+            final InputRow inputRow = index.formatRow(HadoopDruidIndexerMapper.parseInputRow(value, parser));
+            allDimensionNames.addAll(inputRow.getDimensions());

-          int numRows = index.add(inputRow);
+            numRows = index.add(inputRow);
+          } catch (ParseException e) {
+            if (config.isIgnoreInvalidRows()) {
+              log.debug(e, "Ignoring invalid row [%s] due to parsing error", value.toString());
+              context.getCounter(HadoopDruidIndexerConfig.IndexJobCounters.INVALID_ROW_COUNTER).increment(1);
+              continue;
+            } else {
+              throw e;
+            }
+          }
          ++lineCount;

          if (!index.canAppendRow()) {