|
{
|
|
"nbformat": 4,
|
|
"nbformat_minor": 0,
|
|
"metadata": {
|
|
"colab": {
|
|
"provenance": [],
|
|
"toc_visible": true,
|
|
"authorship_tag": "ABX9TyNUDPHwgFmiKbcS7EIHW8r2",
|
|
"include_colab_link": true
|
|
},
|
|
"kernelspec": {
|
|
"name": "python3",
|
|
"display_name": "Python 3"
|
|
},
|
|
"language_info": {
|
|
"name": "python"
|
|
}
|
|
},
|
|
"cells": [
|
|
{
|
|
"cell_type": "markdown",
|
|
"metadata": {
|
|
"id": "view-in-github",
|
|
"colab_type": "text"
|
|
},
|
|
"source": [
|
|
"<a href=\"https://colab.research.google.com/github/KarinKnopper/eShopOnContainers/blob/dev/Eksamensprojekt_4__semester.ipynb\" target=\"_parent\"><img src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"/></a>"
|
|
]
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"# Eksamensprojekt 4. semester datamatiker"
|
|
],
|
|
"metadata": {
|
|
"id": "JujLEKviOCo_"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"Et projekt af Karin Knopper\n",
|
|
"\n",
|
|
"\n",
|
|
"## Fagelementer og omfang:\n",
|
|
"\n",
|
|
"* AI/ ML (5 ECTS)\n",
|
|
"\n",
|
|
"* Toning\n",
|
|
" * Power BI (20 ECTS)\n",
|
|
" * Python (5 ECTS)\n",
|
|
"\n"
|
|
],
|
|
"metadata": {
|
|
"id": "axxiNf2iTQwV"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"# Semesterprojektet"
|
|
],
|
|
"metadata": {
|
|
"id": "5laDvlQQONc7"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## Beskrivelse af projektet\n",
|
|
"\n",
|
|
"* Indsamling af data\n",
|
|
"* Vask af data\n",
|
|
"* Visualisering\n",
|
|
"* AI/ML\n",
|
|
"* Python\n",
|
|
"* Brug af jupyter notebook som redskab\n",
|
|
"\n",
|
|
"\n",
|
|
"* Refleksion over semestret\n",
|
|
"\n"
|
|
],
|
|
"metadata": {
|
|
"id": "XijPHAgTMzS0"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"# Kunstig intelligens og machine learning"
|
|
],
|
|
"metadata": {
|
|
"id": "wUQKqlEPOh44"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"Kunstig intelligens er et meget vidt begreb, med mange grene og mange anvendelsesmuligheder, både i fortiden, nutiden og fremtiden. Et af de nyeste tiltag er ChatGPT, der allerede efter kun 6 måneder er det nye sort! Det er et fantastisk værktøj til ufattelig mange opgaver, men da det er baseret på ufattelig meget data, som er udsprunget fra mennesker, vil det kunne drejes i ønskede eller uønskede retninger.\n",
|
|
"Og hvad gør man når ChatGPT pludselig begynder at lære udfra data, der er genereret af ChatGPT??? Hvordan kan man være sikker på at oplysningerne er korrekte? Vil der ikke altid være to sider af samme sag afhængigt af hvilket perspektiv man ser det fra? Selv bibelen har 2 versioner af jordens skabelse, set fra 2 forskellige synspunkter...\n",
|
|
"GPT kan være godt og en hjælp, men det fjerner evnen til at samtale. Jeg kan få GPT til at skrive en halv side om AI på ca 50 sekunder, men jeg er jo nødt til at vide noget selv for at kunne svare på spørgsmål. Ellers gentager jeg jo bare gpt\n",
|
|
"\n",
|
|
"Jupyter notebook er et meget anvendeligt værktøj til dataanalyse og ka meget nemt integreres med Power BI da begge er bygget på python. Det er meget nemt at blande tekst og kode\n",
|
|
"\n",
|
|
"Eksempel på dårlig maskinoversættelse:\n",
|
|
"https://hashdork.com/da/machine-learning-training-inference-explained/"
|
|
],
|
|
"metadata": {
|
|
"id": "Pid0XsMZOsgD"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"#Python\n",
|
|
"\n",
|
|
"Python og dataanalyse går hånd i hånd. ;an kan lave en dataframe i python ved hjælp af lister. Man kan vælge kun at vise enkelte kolonner eller rækker. Man kan lave endimensionelle arrays om til flerdimensionelle"
|
|
],
|
|
"metadata": {
|
|
"id": "jdpl1tq-mPY0"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"# Refleksion over semestret"
|
|
],
|
|
"metadata": {
|
|
"id": "Z9wzSIflDrBf"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"\n",
|
|
"**Hvad har jeg lært, hvilke færdigheder har jeg tilegnet mig, hvad gik godt/ mindre godt, hvad kunne jeg have gjort anderledes.**\n",
|
|
"\n",
|
|
"\n",
|
|
"Da fjerde semester startede 1. februar troede jeg, at jeg skulle være på skolen 3 dage om ugen og lære IT sikkerhed, kunstig intelligens og microservices, lave et projekt med clean architecture og C# og søge praktikplads ved bankdata eller lignende, men jeg blev klogere...\n",
|
|
"Fra jeg blev gjort opmærksom på en fantastisk mulighed hos GEV i Grindsted, til kontakten var formidlet, 2 samtaler overstået og kontrakten underskrevet, gik der ca 10 dage og 1. marts startede jeg så hos GEV. Jeg har vist fortjent retten til at skrive omstillingsparat på mit CV!\n",
|
|
"\n",
|
|
"Microservices og C# blev sat på pause og en ny verden med kurs mod dataanalytiker blev åbnet med Power BI, python og real life data.\n",
|
|
"\n",
|
|
"\n",
|
|
"\n",
|
|
"\n",
|
|
"\n",
|
|
"\n",
|
|
"\n"
|
|
],
|
|
"metadata": {
|
|
"id": "WF3rgXIYNxcR"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## Hvad har jeg lært?\n",
|
|
"\n",
|
|
"**Power BI** er et cloudbaseret Business Intelligence værktøj udviklet af microsoft, der hjælper en igennem hele dataanlyse processen ved at gøre en i stand til at hente og vaske data, lave interaktive visualiseringer og udgive/ dele sine rapporter på en nem og effektiv måde. Det er integreret med andre microsoft redskaber som excel, SQL og Teams. Det har sit eget programmeringssprog, DAX, der bl a bruges til at lave beregnede kolonner, udregninger og målinger. DAX består af en række formler og funktioner, der kan hjælpe med at beregne værdier på tværs af tabeller.\n",
|
|
"\n",
|
|
"**Python** er det foretrukne sprog til dataanalyse og da power BI er et dataanalyseværktøj er python naturligvis en integreret del af Power BI. Jeg har kun lige kradset lidt i overfladen mht python, men mulighederne er uendelige. Man kan f eks lave en visualisering ved hjælp af drag'n'drop i Power Bi, men man kan også skrive pythonkode, der laver en visualisering med de ønskede data, overskrift, navngivne x- og y-akser og meget mere. Når det kommer til analyse og træning af data findes der gode værktøjer som pytorch, tensorflow, pandas, scikit og mange flere.\n",
|
|
"\n",
|
|
"**Artificial Intelligence** er et utroligt stort og komplekst emne og findes efterhånden i alt.\n",
|
|
"\n",
|
|
"**Machine learning** er en underafdeling af AI og bruges også i Power BI, hvor man kan se trends, bruge Q&A funktionen og lave analyser mm. For at begrænse mig lidt, har jeg valgt at fokusere på hvilke værktøjer, der findes til at få det hele til at samarbejde og her er Jupyter notebook et virkelig godt eksempel.\n",
|
|
"\n",
|
|
"**Jupyter notebook** er meget populært blandt dataanalytikere, da man kan blande tekst, kode og formler efter forgodtbefindende og det hele kommer ud i et nydeligt format. Man behøver ikke lange kommentarer i ens kode, da man bare indsætter en tekstblok og skriver det man har brug for. Formler skrives med keyboard shortcuts og bliver omsat til pænt opstillede formler med de korrekte matematiske tegn og url adresser genkendes og laves automatisk til et link.\n",
|
|
"Man kan installere programmet på sin computer og køre det via port 8888, men det absolut nemmeste er at køre det gennem google colab, som er et google Research projekt, hvor man logger ind med sin google-konto fra en hvilken som helst computer og så er det køreklart med adgang til alle pythons biblioteker.\n",
|
|
"\n",
|
|
"Jeg har koncentreret mig om Power BI og vask og visualisering af data. Hvad man kan bruge de data til må komme senere hvor jeg vil se på, hvordan man træner datasæt og hvilke værktøjer, der bruges til det."
|
|
],
|
|
"metadata": {
|
|
"id": "qd9PKCgdYbLN"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## Hvilke færdigheder har jeg tilegnet mig?\n",
|
|
"\n",
|
|
"\n",
|
|
"Jeg har lært at\n",
|
|
"* bruge Power BI desktop til at hente data fra flere forskellige kilder som excel, csv filer, databaser og nettet.\n",
|
|
"* bruge power query til at vaske data med funktioner som trim, clean, format, extract, split, merge og mange andre.\n",
|
|
"* kode i python på begynderniveau og jeg har fået øjnene op for potentialet i henhold til dataanalyse\n",
|
|
"* AI og Machine Learning er et enormt stort emne og hvad det kan bruges til, men ikke hvordan...\n",
|
|
"* at ChatGPT er det nye sort, men at man er nødt til at forholde sig kritisk til svarene og at det kan hjælpe en med opgaveløsning og -skrivning, men ikke erstatte viden.\n",
|
|
"* bruge Jupyter notebook og kombinere det med github\n"
|
|
],
|
|
"metadata": {
|
|
"id": "4PT2QLpZv38-"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## Hvad gik godt/mindre godt?\n",
|
|
"\n",
|
|
"Jeg synes at det meste er gået godt og som jeg forventede"
|
|
],
|
|
"metadata": {
|
|
"id": "_HHKiM94_drj"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"## Hvad kunne jeg have gjort anderledes?\n",
|
|
"\n",
|
|
"\n",
|
|
"Pensum var lidt overvældende når alt er nyt, men jeg tænkte, at igennem skulle jeg jo, så jeg startede fra en ende af og damptromlede mig igennem de første ca 12 kurser, men hele tiden under tidspres, hvilket betød at jeg kun gav opgaverne en minimal chance inden jeg trykkede på hint-knappen. Når et kursus var slut, gik jeg direkte videre til næste uden at reflektere over hvad jeg havde lært eller forsøgt at lære. På et tidspunkt stopper jeg heldigvis op og tænker... Det resulterede i, at jeg erkendte at prøve at gå fra zero to hero in three months nok var en dårlig ide, så jeg valgte at fokusere på det grundlæggende og jeg genså en del af kurserne og fandt andre videoer og kurser om de mest basale ting i Power BI. Der er jo ingen grund til at lære at lave avancerede markedsanalyser og case studies, hvis jeg ikke kan finde ud af at hente data eller vaske dem først. Det var virkelig et kvantespring i min forståelse, at jeg gentog det og i et mere roligt tempo. Jeg skulle have brugt mere tid på grundbegreberne fra start og jeg skal virkelig arbejde på min note-skrivning. Den er elendig...\n",
|
|
"Jeg er også blevet introduceret til den virkelige verden og har lært at se efter abnormaliteter i elforbrug, oprette nye installationer og lege detektiv. Også her ville det have været en hjælp, hvis jeg havde været bedre til at tage noter\n",
|
|
"\n",
|
|
"I AI/ML var jeg virkelig udfordret med min computer, der ikke ville lade mig installere de ting vi skulle bruge i klassen, så jeg brugte meget tid på at prøve at finde en løsning, inden jeg opgav og fandt på alternativer. Dem er der så en masse af, så jeg kunne have sparet en masse tid, hvis jeg havde vidst det fra starten. Især indenfor machine learning var der en masse nye begreber og når man googlede dem, var forklaringen fyldt med andre begreber, der også skulle googles og sådan kørte den ring! Jeg skulle have erkendt lidt tidligere, at det at forsøge at lære det hele på et semester var lidt for ambitiøst og valgt jeg at fokusere på hvilke muligheder, der er indenfor kunstig intelligens og hvilke værktøjer, der kan bruges.\n",
|
|
"For mig ville det have været rart med lidt opfølgninger "
|
|
],
|
|
"metadata": {
|
|
"id": "xnDxUPBrYnQC"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"# Pensumliste"
|
|
],
|
|
"metadata": {
|
|
"id": "DKfMQT41jKJB"
|
|
}
|
|
},
|
|
{
|
|
"cell_type": "markdown",
|
|
"source": [
|
|
"\n",
|
|
"\n",
|
|
"https://app.datacamp.com/learn/career-tracks/data-analyst-in-power-bi?version=2\n",
|
|
"\n",
|
|
"https://app.datacamp.com/learn/skill-tracks/sql-fundamentals\n",
|
|
"\n",
|
|
"https://app.datacamp.com/learn/skill-tracks/power-bi-fundamentals\n",
|
|
"\n",
|
|
"https://app.datacamp.com/learn/skill-tracks/python-fundamentals\n",
|
|
"\n",
|
|
"\n",
|
|
"\n",
|
|
"**Datacamp python:**\n",
|
|
"\n",
|
|
"* Introduction to Python \n",
|
|
"* Intermediate Python\n",
|
|
"\n",
|
|
"\n",
|
|
"**Datacamp SQL:**\n",
|
|
"\n",
|
|
"* Introduction to SQL\n",
|
|
"* Intermediate SQL\n",
|
|
"* Joining Data in SQL\n",
|
|
"\n",
|
|
"\n",
|
|
"**Datacamp DAX:**\n",
|
|
"\n",
|
|
"* Introduction to DAX in Power BI\n",
|
|
"* DAX functions in Power BI\n",
|
|
"* Intermediate DAX in Power BI\n",
|
|
" \n",
|
|
"\n",
|
|
"**Datacamp Power BI:**\n",
|
|
"\n",
|
|
"* Understanding Data Science\n",
|
|
"* Introduction to Power BI\n",
|
|
"* Data visualization in Power BI\n",
|
|
"* Case Study: Analyzing Customer Churn in Power BI\n",
|
|
"* Data Preparation in Power BI\n",
|
|
"* Data Transformation in Power BI\n",
|
|
"* Data Modeling in Power BI\n",
|
|
"* Intermediate Data Modeling in Power BI\n",
|
|
"* Case Study: HR Analytics in Power BI\n",
|
|
"* Case Study: Analyzing Job Market Data in Power BI\n",
|
|
"\n",
|
|
"\n",
|
|
"**LinkedIn Learning**\n",
|
|
"\n",
|
|
"* Power BI Data Modeling with DAX\n",
|
|
"* Learning Power BI Desktop\n",
|
|
"\n",
|
|
"\n",
|
|
"**AI/ML**\n",
|
|
"\n",
|
|
"* Pensum fra itslearning\n",
|
|
"* Artikler fra JP i april\n",
|
|
"* ChatGPT\n",
|
|
"* Prosas \"Talk-on-ChatGPT\"\n",
|
|
"\n",
|
|
"\n",
|
|
"**Diverse**\n",
|
|
"\n",
|
|
"* Power BI's egne tutorials\n",
|
|
"* Jupyter notebook https://www.datacamp.com/tutorial/tutorial-jupyter-notebook\n",
|
|
"* Colab's egen dokumentation og tutorials \n",
|
|
"https://colab.research.google.com/\n"
|
|
],
|
|
"metadata": {
|
|
"id": "D5kkIdDONNI_"
|
|
}
|
|
}
|
|
]
|
|
}
|