Article

Deel 2 | Hammer Goldmine | Implementatie

3 min read28 mei

Afgelopen week hebben we uitgelegd dat onze wens is om een interne datawarehouse te bouwen die up-to-date blijft zonder menselijke hulp. Zo'n datawarehouse zal van groot nut zijn bij het vinden van waardevolle informatie voor onze marktinzichten en het sneller vinden van die informatie. Maar voordat dit datawarehouse ons kan helpen, moeten verschillende stappen in de verwerkingspipeline geautomatiseerd worden om soepel te kunnen draaien.

Eerst moeten gegevens periodiek worden verzameld uit de relevante bronnen. Bepalen welke soorten gegevens in een database moeten worden gebruikt, is essentieel voor het succes van de implementatie.

We hebben besloten (voorlopig) ons te concentreren op ongestructureerde gegevens in de vorm van nieuwsartikelen. De hoeveelheid nieuwsoutput vandaag de dag is bijna onbeperkt.

Tijdens onze projecten willen we niet beperkt blijven tot een paar nieuwsbronnen, maar willen we de wereld van beschikbare informatie verkennen om verborgen parels te vinden die ons helpen diepere inzichten te krijgen tijdens onze projecten. Traditioneel is dit zeer tijdrovend. We verwachten dat het verwerken van dit type gegevens ons de grootste tijdwinst zal opleveren tijdens een kwalitatieve analyse.

Zodra de gegevens zijn verzameld, moeten ze goed worden opgeslagen zodat ze snel kunnen worden opgehaald wanneer we ze nodig hebben in een van onze projecten. Een belangrijke overweging bij het opslaan van de gegevens is hoe we de gegevens kunnen standaardiseren. Standaardisatie is een tweesnijdend zwaard: Het toepassen van lage standaardisatie maakt het moeilijk om verschillende gegevensinvoeren door dezelfde pipeline te laten lopen, maar houdt de gegevenskwaliteit hoog en de voetafdruk klein.

Aangezien we met ongestructureerde gegevens werken, bouwen we toch een zeer aanpasbaar model. Dit betekent dat we een laag niveau van standaardisatie kunnen toepassen en toch een strakke pipeline kunnen gebruiken.

Wanneer de gegevens goed zijn opgeslagen, kunnen we ons gaan richten op hoe we de gegevens willen annoteren met informatie die ons kan helpen om gegevensinvoeren te identificeren die relevant zijn voor een specifiek project. Voorlopig hebben we besloten dit te doen door de gegevens te categoriseren in bakken die gegevensinvoeren bevatten die verband houden met een specifiek marktintelligentiegebied. Dit stelt ons in staat om gegevens op te halen die relevant zijn voor de meest dringende informatiebehoefte op elk moment tijdens het project.

Deze labels worden toegevoegd met een actieve leerbenadering. Tijdens de ontwikkelingsfase worden gegevens geannoteerd door een expert voordat ze door een machine learning-model worden verwerkt. Na elke iteratie worden de gegevens geëvalueerd door de expert voordat ze opnieuw door het model worden verwerkt. Met deze aanpak zal het model een begrip krijgen van de labels die we willen gebruiken in ons datawarehouse. Het doel van deze aanpak is om de werklast van het model te maximaliseren en de werklast van de expert te minimaliseren. Dit zorgt ervoor dat het proces van het toevoegen van een nieuw label aan de gegevens in een korte periode kan plaatsvinden. Uiteindelijk kan de expert volledig uit het proces worden gelaten en zal het model nieuwe gegevens zelf labelen. Met deze aanpak hebben we met succes verschillende labels aan het datawarehouse toegevoegd en voegen we continu nieuwe toe.

In de komende weken zullen we de afzonderlijke onderdelen van de Hammer Goldmine-pipeline belichten en hoe we verwachten dat ze onze workflow zullen verbeteren. In de volgende blog zullen we deel 3 van Hammer Goldmine bespreken, de bruikbaarheid van de database en de webinterface.