Kampányelemzés Business Intelligence Development Studioval – screencast

Komplex adatbányászati feladatok megoldásához a Microsoft a Business Intelligence Development Studiot (BIDS) ajánlja. A BIDS a Visual Studio 2008 testreszabott változata, melyet az SQL Server 2008-cal együtt telepíthetünk akár a kiszolgálóra, akár munkaállomásra, és amely fel van készítve Analysis, Integration és Reporting Services projektek fejlesztésére.

Áttekintés

Egy Analysis Services Projectben az első lépés egy Data Source objektum létrehozása. A data source segítségével határozzuk meg azt az adatforrást, amellyel dolgozni fogunk, ehhez a varázslóban az adatok helyét és a kapcsolódáshoz használt felhasználói fiókot kell megadnunk. Az adatforrás bármilyen OLE DB-n vagy .NET-es adat szolgáltatón (provider) keresztül elérhető adatbázis lehet, tehát – a közhiedelemmel ellentétben – nem csak OLAP kockákon tudunk adatbányászati műveleteket végezni, hanem relációs adatokon, Access adatbázisokon vagy akár Excel munkalapokon is.

Az adatforrások komplex adatszerkezetek, melyeknek általában csak egy részhalmazára van szükségünk az adatbányászati feladatunk megoldásához. Azonosítanunk kell tehát azt a táblát, amely az elemzendő eseteket tartalmazza (case table), azon belül azokat a sorokat és oszlopokat, amelyek valóban relevánsak, továbbá azokat a kapcsolódó táblákat, melyek még szükségesek a probléma megoldásához. A teljes adatforrás egy részének ilyen formán történő kivágásához Data Source View (DSV) objektumot kell létrehoznunk. A DSV lehetőséget ad számított oszlopok definiálására is, így akár bővíthetjük is az adatszerkezetünket.

A bemeneti adatok meghatározása után a következő lépés a két legfontosabb objektum, a Mining Structure és azon belül a Mining Model létrehozása. A Mining Structure objektumban írjuk le, hogy a bemeneti adatokat hogyan kívánjuk használni: itt adjuk meg például az egyes oszlopok adattípusát (szám, szöveg, dátum stb.), a tárolt adatok típusát (folytonos, diszkrét stb.), eloszlását (normál, logaritmikus stb.) és célját (bemenet, jóslandó stb.). Mindezek a paraméterek jelentősen befolyásolják a választott algoritmus működését, melyet a struktúrához rendelt modellben határozunk meg és paraméterezünk fel.

Ha megvan a modell, be kell tanítanunk azt, amit a modell feldolgozásának (Process) is neveznek. Az SQL Server 2008 újdonsága, hogy nem kell külön tanító és tesztelő adatokat biztosítanunk, elég megadnunk, hogy a bemeneti adatok hány százalékát használja a rendszer tesztelésre – ez az ún. holdout és tipikusan 30%.

A betanított modell már használható, futtathatunk lekérdezéseket rajta. Előtte azonban célszerű megvizsgálni, hogy a modellünk mennyire sikerült jól. A modell pontosságának meghatározását a BIDS vizuális eszközökkel támogatja, Lift Chart, Profit Chart, Scatter Plots típusú diagramok és Classification Matrix áll rendelkezésünkre. További segítség az SQL Server 2008-ban bevezetett Cross Validation funkció, amely a tanító és tesztelő adathalmazok partícionálásával és forgatásával segíti a modell megbízhatóságának meghatározását.

Miután megbizonyosodtunk a modellünk helyességéről, bevethetjük éles használatra. Ennek legegyszerűbb változata, ha közvetlenül a BIDS eszközeivel végzünk lekérdezéseket a modellen. Hasonló grafikus eszközöket találunk a Management Studioban is, de akár Reporting Servicesből, Excelből és Visioból is kapcsolódhatunk a modellhez.

Első lépések

Célszerű letölteni a hivatalos AdventureWorks példa adatbázist és a hozzá tartozó Analysis Services projektet. Az SQL2008.AdventureWorks_DW_BI_v2008.x86.msi telepítése után a C:Program FilesMicrosoft SQL Server100ToolsSamplesAdventureWorks 2008 Analysis Services ProjectenterpriseAdventure Works DW 2008.dwproj fájlra duplán kattintva megnyithatjuk azt BIDS-ben. Megnyitás után a Build Deploy menüpontot választva telepíthetjük a projektet a helyi SSAS kiszolgálónkra és megnézhetjük a modellek eredményeit.

Jó tudni

Az AdventureWorks példa projekt a helyi SQL példány AdventureWorksDW2008 adatbázisát használja adatforrásként. A projektben bekonfigurált data source objektum Impersonation beállításai között az alapérték a Use the service account. Ez azt jelenti, hogy ha alapértelmezett beállításokkal telepítettük az Analysis Servicest és a Local Service felhasználó nevében fut a szolgáltatás, akkor a Local Service felhasználót be kell engednünk az SQL Server Database Engine AdventureWorksDW2008 adatbázisába, különben a projekt feldolgozásakor hibaüzenetet fogunk kapni.

Demó

A demóban az AdventureWorks példa adatbázisban található ügyfél adatok alapján határozzuk meg azokat a tulajdonságokat, amelyek legjobban befolyásolják az ügyfeleink vásárlási szokásait. Ehhez létrehozunk egy új projektet a Business Intelligence Development Studioban, majd a Microsoft Decision Trees algoritmus felhasználásával építünk modellt az adatokra. A kész modell pontosságát Lift Chart, Profit Chart és Classification Matrix segítségével ellenőrizzük. Az elemzés eredményét a BIDS beépített Tree Viewere segítségével jelenítjük meg, majd grafikus eszközök felhasználásával kérdezzük le az elkészült modellt.

A videó a képre kattintva megtekinthető böngészőben vagy a kép alatti linkre kattintva letölthető:

Kampányelemzés Business Intelligence Development Studioval - screencast

Letöltés: Kampanyelemzes_BIDS_segitsegevel_(Balassy_Gyorgy).wmv (21:51, 87 631 KB)

További információk

 

Vélemény, hozzászólás?

Adatok megadása vagy bejelentkezés valamelyik ikonnal:

WordPress.com Logo

Hozzászólhat a WordPress.com felhasználói fiók használatával. Kilépés / Módosítás )

Twitter kép

Hozzászólhat a Twitter felhasználói fiók használatával. Kilépés / Módosítás )

Facebook kép

Hozzászólhat a Facebook felhasználói fiók használatával. Kilépés / Módosítás )

Google+ kép

Hozzászólhat a Google+ felhasználói fiók használatával. Kilépés / Módosítás )

Kapcsolódás: %s