Text Mining met Python op maat

Datum en locatie in overleg te bepalen
Praktijkgerichte opleiding

Wat is text mining, wat kan je ermee doen, hoe werkt het, wat zijn de problemen en hoe kan je ze oplossen? In deze opleiding verwerf je praktische basiskennis om met Python text mining uit te voeren.

Formaat

Deze navorming omvat vier sessies van 3 uur waarin we de basis van text mining met Python zien. Het is een praktijkgerichte opleiding die start met een algemeen overzicht van text mining concepten en technieken, en vervolgens een overzicht geeft van hoe die verschillende stappen en technieken kunnen uitgevoerd worden in Python:

  • Text preprocessing (tokenization, stemming, stopword removal, indexing/vectorization),
  • exploratie (word clouds),
  • word embeddings (word2vec, BERT, USE),
  • clustering
  • en classificatie.

Tot slot wordt dit aangevuld met enkele praktijkstudies. 

Programma

Concepten van text mining

  • Wat is text mining
  • Wat maakt dit anders dan klassieke data mining
  • Specifieke uitdagingen
  • Mogelijke oplossingen

Text preprocessing en NLP technieken met NLTK en spaCy (hands-on)

  • Tokenization
  • Stemming / lemmatization
  • Stopword removal
  • Part-of-speech tagging voor feature selection
  • Indexing / vectorization

Exploratie (hands-on)

  • Vocabulary
  • Word clouds

Word embeddings (hands-on)

  • word2vec
  • BERT
  • USE
  • Clustering (hands-on)
  • Classificatie (hands-on)

Deze opleiding is geen cursus Python.

In de opleiding bekijken we de Python-code die relevant is voor de text mining technieken, maar dit vergt wel een elementaire kennis van datastructuren in Python en hoe die datastructuren gemanipuleerd worden (lists, dataframes) en basisbegrippen van programmeren (statements; assignements; condities; functies).

Concreet gaan we aan de slag met Jupyter Notebooks om de Python code uit te leggen en uit te proberen. Cursisten kunnen deze notebooks uitvoeren via Google Colab of via een eigen Python installatie (bijvoorbeeld gratis distribute van Anaconda, waarmee ook Jupyter Notebooks geïnstalleerd kan worden).

Voor mensen zonder basiskennis Python voorzien we wel leermateriaal om zelfstandig Python aan te leren, maar dat komt dus niet aan bod in de cursus zelf, dat dienen de cursisten zonder basiskennis Python zelf op eigen tempo door te nemen vóór het begin van de cursus.

Deze opleiding is ook geen cursus in data mining of machine learning. In de opleiding zien we de specifieke text mining technieken en de bijhorende Python code. De basisprincipes van data mining en machine learning worden geacht gekend te zijn door de cursisten (modellen trainen via gelabelde voorbeelden; probleem van overfitting; het valideren van modellen door gebruik te maken van hold-out samples; hyperparameter tuning, precision en recall, …). Een minimale kennis van Scikit-learn (Python library voor machine learning) is meegenomen.

Lesgever

Tom Magerman is lector in de opleiding toegepaste informatica en verantwoordelijke van de BaNaBA en postgraduaatsopleiding Data & Analytics aan UCLL. Hij is tevens actief als onderzoeker bij het expertisecentrum Digital Solutions en actief in toegepast onderzoek in het veld van data mining en text mining.

Expertisecentrum Digital Solutions

Praktisch

Inschrijven?

  • Inschrijvingsperiode:
  • Voorwaarden: basiskennis van Python, data mining en machine learning

Klaar om te starten?

Alle praktische info vind je op de opleidingspagina van UCLL Hogeschool