TENE-61 Brak rekordów w Solr przy przetwarzaniu z OCR (!22) · Merge requests · DL-Team / Aggregation / DACE

Piotr Tylczyński requested to merge TENE-61 into develop Oct 28, 2021

W momencie, gdy uruchomione są wszystkie komponenty składowe DACE do pełnego przetwarzania z wzbogaceniem o OCR, tj:

identifiers harvester,
records harvester,
records processor,
ocr indexer,

zachodzi mały konflikt. Rekordy, które zostały już przetworzone przez records processor nie trafiają do Solr od razu, istnieje tam kilkusekundowy, wyraźny timeout. W efekcie OCR service zdąży pobrać rekord, wyciągnać z niego zawartość, a następnie wrzucić wynik na topic kafki zanim rekord pojawi się w Solrze. Wówczas OCR indexer sypie błędami, ponieważ próbuje zaktualizować rekord solrowy, którego jeszcze nie ma w indeksie.

TENE-61 Brak rekordów w Solr przy przetwarzaniu z OCR

Merge request reports