Dataextraktion ur miljövarudeklarationer (EPD) med AI

Cortex är en plattform som automatiserar tolkningen och struktureringen av ostrukturerade dokument, med särskilt fokus på komplexa PDF-filer inom bygg- och industrisektorn. Med hundratals dokument som behöver bearbetas varje dag var målet att skapa en lösning som kan omvandla stora mängder filer till sökbar och strukturerad kunskap - helt utan manuell hantering. Genom att kombinera generativ AI med avancerade AWS-tjänster gör Cortex informationsutvinning snabbare, mer tillförlitlig och fullt skalbar, oavsett dokumentets layout eller format.

Klicka på en symbol för att visa mer information om AWS-tjänstens roll i projektet.

Bakgrund och mål

Syftet med Cortex var att bygga en plattform som kan hantera stora mängder ostrukturerade dokument på ett effektivt sätt och samtidigt säkerställa hög precision och datasäkerhet. Målet var att ersätta tidskrävande manuella processer med en automatiserad och generativ AI-baserad lösning som är flexibel nog att anpassas till olika dokumenttyper och branscher.

Arkitektur och flöde

Flödet inleds när en användare laddar upp en PDF-fil via ett extern gränssnitt. Förfrågan passerar genom Amazon API Gateway, som hanterar autentisering, säkerhet och routing, innan den skickas vidare till en Application Load Balancer som fördelar anropen till rätt ECS-tjänst beroende på dokumentets typ och status. All kommunikation är krypterad med TLS för att säkerställa dataskydd. Backend-tjänsterna körs containeriserat i Amazon ECS med Fargate, vilket ger en serverless och horisontellt skalbar infrastruktur. Den första ECS-tasken fungerar som en producer, där dokumentet valideras, metadata extraheras och eventuellt fel fångas upp tidigt. Efter validering skickas ett meddelande till Amazon SNS, som triggar nästa fas i processen och möjliggör en asynkron, parallell och hög volymhantering. En separat ECS-task – worker – hämtar dokumentet från Amazon S3 och påbörjar bearbetning.

I denna fas används Amazon Textract för att extrahera text och tabeller. Därefter skickas resultatet till en generativ språkmodell i Amazon Bedrock, där innehållet analyseras i kontext, nyckelattribut identifieras och datan omvandlas till en strukturerad form - helt utan hårdkodade regler eller statistiska mallar.

Det färdiga resultatet lagras i Amazon RDS, där både rådata och strukturerad information finns tillgänglig för analys, kvalitetssäkring och sökbarhet. Samtidigt används Amazon S3 för långtidslagring av originalfiler. Åtkomsten till databasen styrs strikt med IAM-roller och isolering i privata subnät inom en Amazon VPC, vilket säkerställer att producer- och worker-tasks endast har tillgång till de resurser de behöver.

Kundvärde och resultat

Med Cortex kan företag nu bearbeta hundratals PDF-filer parallellt och automatiskt omvandla ostrukturerade dokument till sökbar och användbar kunskap. Arkitekturen kombinerar kostnadseffektivitet, säkerhet och prestanda med flexibilitet för vidareutveckling, vilket gör den anpassningsbar till olika branscher och dokumenttyper. Genom att integrera generativ AI med beprövade AWS-tjänster har Cortex skapat en lösning som eliminerar manuell hantering, frigör resurser och gör informationsutvinning både snabbare och mer tillförlitlig.