Onderwerp :Gegevensanalyse
Onderwerp :Sentimentanalyse van productrecensies
Doelstelling :Het doel van deze opdracht is het uitvoeren van sentimentanalyses op productrecensies om het sentiment van de recensent ten opzichte van het product te bepalen.
Instructies :
1. Gegevensvoorbereiding :
- Verzamel een dataset met productrecensies van een geschikte bron (bijvoorbeeld Amazon, Yelp).
- Schoon de gegevens op door dubbele beoordelingen te verwijderen, ontbrekende waarden op te lossen en de tekst naar kleine letters te converteren.
2. Verkennende gegevensanalyse :
- Verken de gegevens om de kenmerken en distributie ervan te begrijpen.
- Voer basisstatistieken uit, zoals frequentietellingen en woordwolken, om veelvoorkomende woorden en zinsneden te identificeren die in de recensies worden gebruikt.
3. Sentimentanalyse :
- Gebruik een geschikte bibliotheek of tool voor sentimentanalyse (bijvoorbeeld TextBlob, VADER of spaCy) om sentimentscores aan elke recensie toe te wijzen.
- Groepeer de recensies in positieve, negatieve of neutrale categorieën op basis van hun sentimentscores.
4. Functietechniek :
- Haal relevante kenmerken uit de recensies die kunnen bijdragen aan het sentiment. Deze kunnen woordfrequenties, leestekens of andere NLP-gerelateerde kenmerken omvatten.
5. Machine Learning-model :
- Ontwikkel een machine learning-model onder toezicht om de beoordelingen als positief of negatief te classificeren.
- Train het model op de gelabelde gegevens en evalueer de prestaties ervan met behulp van de juiste statistieken (bijvoorbeeld nauwkeurigheid, precisie, herinnering en F1-score).
6. Modelinterpretatie :
- Visualiseer de voorspellingen van het model met behulp van verwarringsmatrices of andere relevante visualisaties.
- Analyseer de verkeerd geclassificeerde beoordelingen om verbeterpunten te identificeren.
7. Rapportage :
- Schrijf een rapport met een samenvatting van de bevindingen van de sentimentanalyse.
- Neem details op over de gegevensvoorbereiding, verkennende gegevensanalyse, feature-engineering, modeltraining en evaluatieresultaten.
Inzending :
- Dien het volgende in:
- Een Jupyter Notebook of Python-script met uw code en analyse.
- Een pdf-rapport met een samenvatting van de bevindingen.
Deadline :
- De opdracht moet op [datum] ingeleverd zijn.
- Bij te late indiening wordt een boete van 10% per dag in rekening gebracht.