sql >> Database >  >> RDS >> Database

Gegevensbestanden samenvoegen met Statistica, deel 1

Het Statistica Platform is gerangschikt in de top vijf van datawetenschapsplatforms door Gartner's nieuwe rapport voor 2017, "Magic Quadrant for Data Science Platforms" (https://www.gartner.com/doc/3606026/magic-quadrant-data-science- platforms), voorheen in 2016 "Advanced Analytics Platforms" genoemd. Het brede scala aan functies en een grafische gebruikersinterface (GUI) van Statistica maken het een van de meest gebruikte datawetenschapstools.

Statistische gegevensbestanden worden Spreadsheets genoemd , die rijen en kolommen met gegevens bevatten. Gegevensrijen heten cases en kolomkoppen voor gegevens heten variabelen . Een veelvoorkomend probleem bij het voorbereiden van gegevens is dat verschillende teamleden afzonderlijk gegevenssets ontwikkelen of verzamelen en dat de gegevenssets moeten worden samengevoegd voordat de spreadsheet kan worden gebruikt. De gegevens kunnen zich in meerdere gegevensbestanden bevinden. We zullen bespreken hoe gegevens in twee verschillende gegevensbestanden kunnen worden samengevoegd tot één gegevensbestand met Statistica.

Statistica ondersteunt verschillende soorten samenvoegmodi voor twee gegevensbestanden, en dit zijn:

  • Samenvoegen: Wanneer twee gegevensbestanden worden samengevoegd, wordt één gegevensbestand genomen en toegevoegd (of samengevoegd) aan de rechterkant van het andere gegevensbestand.
  • Cartesiaans: Creëert een kruisproduct van twee gegevensbestanden.
  • Overeenkomen met casenamen: Voegt de zaken (rijen) van het ene bestand samen met de zaken van de andere bestanden door de zaaknamen te matchen.
  • Overeenkomstvariabelen: Voegt de rijen van het ene gegevensbestand samen met de rijen van het andere gegevensbestand door de variabelenamen te matchen.

We zullen beginnen met het bespreken van de samenvoeging van Concatenate. Deze tutorial heeft de volgende secties:

  • De omgeving instellen
  • Gegevensbestanden aaneenschakelen
  • Conclusie

De omgeving instellen

Download en installeer Statistica Platform. Statistische gegevensbestanden worden Spreadsheets genoemd (opgeslagen met de .sta achtervoegsel). In deze tutorial zullen we enkele Statistica-gegevensbestanden maken. Er wordt een gegevensbestand gemaakt met File>New . In Nieuw document maken , selecteer Spreadsheet , zoals weergegeven in afbeelding 1.


Figuur 1: Nieuwe spreadsheet selecteren om te maken

Om een ​​gegevensbestand op te slaan, selecteert u Bestand>Opslaan als , zoals weergegeven in afbeelding 2.


Figuur 2: Bestand>Opslaan als

Gegevensbestanden aaneenschakelen

Maak eerst de twee gegevensbestanden die moeten worden samengevoegd. De gegevensbestanden die moeten worden samengevoegd, hebben doorgaans hetzelfde aantal rijen en hetzelfde of een ander aantal kolommen. Omdat gegevens moeten worden samengevoegd, zijn de kolomnamen doorgaans anders. Niets van dit alles is een vereiste; twee gegevensbestanden kunnen een verschillend aantal rijen hebben en we zullen ook bespreken hoe een dergelijke reeks gegevensbestanden kan worden samengevoegd. Het doel is om de gegevens in het ene gegevensbestand samen te voegen met het andere, zodat het 2 gegevensbestand aan de rechterkant van het 1 gegevensbestand wordt toegevoegd. Maak als voorbeeld een gegevensbestand (genaamd wlslog1.sta ) met kolomkoppen (variabelen ) tijdstempel , categorie , en typ en de volgende gegevens (voorbeeld loggegevens).

4-8-2014-7:06:16,Notice,WebLogicServer
4-8-2014-7:06:17,Notice,WebLogicServer
4-8-2014-7:06:18,Notice,WebLogicServer
4-8-2014-7:06:20,Notice,WebLogicServer
4-8-2014-7:06:21,Notice,WebLogicServer
4-8-2014-7:06:22,Notice,WebLogicServer

De wlslog1.sta gegevensbestand wordt weergegeven in Statistica in Afbeelding 3.


Figuur 3: Gegevensbestand wlslog1.sta

Maak nog een gegevensbestand aan (wlslog2.sta ) met kolomkoppen servernaam , code , en bericht , en voeg de volgende gegevens toe (ook voorbeeldloggegevens).

AdminServer,BEA-000365,STANDBY
AdminServer,BEA-000365,RESUMING
AdminServer,BEA-000365,ADMIN
AdminServer,BEA-000331,STARTING
AdminServer,BEA-000365,STARTED
AdminServer,BEA-000360,RUNNING

De wlslog2.sta bestand wordt getoond in Afbeelding 4. Om de twee gegevensbestanden samen te voegen, wlslog1.sta en wlslog2.sta , klik op de Gegevens tabblad en selecteer Samenvoegen , zoals weergegeven in afbeelding 4.


Figuur 4: Gegevensbestand wlslog2.sta

A Samenvoegopties dialoogvenster wordt weergegeven, zoals weergegeven in Afbeelding 5. De Variabelen tabblad is standaard geselecteerd. Selecteer Modus als Samenvoegen . Klik op de Bestand 1 om het 1 bestand te selecteren dat u wilt samenvoegen.


Figuur 5: Opties voor samenvoegen

Selecteer de wlslog1.sta bestand in de Spreadsheet selecteren dialoogvenster (zie afbeelding 6). Klik op OK . De wlslog1.sta bestand wordt toegevoegd aan Bestand 1 veld. Selecteer op dezelfde manier het 2-bestand wlslog2.sta .


Figuur 6: Een spreadsheet selecteren om samen te voegen

Er is geen andere configuratie vereist. Standaard wordt een uitvoerspreadsheet gegenereerd en deze kan worden geconfigureerd met de Opties tabblad, zoals weergegeven in Afbeelding 7. Behoud de standaardinstellingen voor het uitvoerspreadsheet.


Figuur 7: Tabblad Opties

De twee bestanden die moeten worden samengevoegd, worden toegevoegd aan het Bestand 1 en Bestand 2 velden, zoals weergegeven in Afbeelding 8. De standaardinstelling voor Niet-overeenkomende gevallen vult de gegevensbestanden met de ontbrekende waarden, wat inhoudt dat lege gegevens worden opgeslagen voor de sectie van een samengevoegde rij (case ) die niet overeenkomt van het ene gegevensbestand naar het andere. Klik op OK .


Figuur 8: Gegevensbestanden om samen te voegen

De twee gegevensbestanden worden aaneengeschakeld, zoals weergegeven in afbeelding 9. De resulterende spreadsheet heeft 6 kolommen en 6 rijen.


Figuur 9: Resulterende spreadsheet na een samenvoeging

Als de ene spreadsheet meer rijen zou hebben dan de andere, zouden de twee spreadsheets op dezelfde manier aaneengeschakeld worden. Voeg als voorbeeld een extra rij toe in de 1 spreadsheet (wlslog1.sta ) om 7 rijen te maken, zoals weergegeven in afbeelding 10.


Figuur 10: Extra rij in wlslog1.sta

Wanneer samengevoegd met de 2 spreadsheets (wlslog2.sta ), heeft de resulterende spreadsheet een extra rij met ontbrekende gegevens voor de kolommen van de 2 spreadsheet (zie Afbeelding 11).


Figuur 11: Samengevoegd werkblad

Conclusie

In deze zelfstudie hebben we het samenvoegen van gegevensbestanden (ook wel spreadsheets genoemd) in het Statistica Platform voor datawetenschap geïntroduceerd. We hebben een van de samenvoegmodi besproken:Samenvoegen aaneenschakelen. In een volgende tutorial zullen we het samenvoegen bespreken door casenamen te matchen en door variabelen te matchen.


  1. SQLskills Wait Types Library toont nu SentryOne-gegevens

  2. Controleer uw sessie-instellingen met SESSIONPROPERTY() in SQL Server

  3. Hoe voer je dezelfde aggregatie uit op elke kolom, zonder de kolommen op te sommen?

  4. PostgreSQL-beheer en -automatisering met ClusterControl