Skip to content

TENE-61 Brak rekordów w Solr przy przetwarzaniu z OCR

Piotr Tylczyński requested to merge TENE-61 into develop

W momencie, gdy uruchomione są wszystkie komponenty składowe DACE do pełnego przetwarzania z wzbogaceniem o OCR, tj:

  • identifiers harvester,
  • records harvester,
  • records processor,
  • ocr indexer,

zachodzi mały konflikt. Rekordy, które zostały już przetworzone przez records processor nie trafiają do Solr od razu, istnieje tam kilkusekundowy, wyraźny timeout. W efekcie OCR service zdąży pobrać rekord, wyciągnać z niego zawartość, a następnie wrzucić wynik na topic kafki zanim rekord pojawi się w Solrze. Wówczas OCR indexer sypie błędami, ponieważ próbuje zaktualizować rekord solrowy, którego jeszcze nie ma w indeksie.

Merge request reports