Τα πλαίσια του βίντεο βάθους, δηλαδή τα ακατέργαστα δεδομένα της Kinect ΙΙ, χρησιμοποιήθηκαν για την εξαγωγή των χαρακτηριστικών χειρονομίας χρησιμοποιώντας τη βιβλιοθήκη ALGLIB SDK. Εφαρμόστηκαν αλγόριθμοι μηχανικής μάθησης σε δύο σύνολα δεδομένων:
- Το πρώτο σύνολο στοιχείων περιελάμβανε καταγεγραμμένα καρέ από επιλεγμένες εκτελέσεις διαφόρων ύμνων από τον εκπαιδευτικό και χρησιμοποιήθηκαν για την εκπαίδευση του αλγορίθμου.
- Το δεύτερο σύνολο δεδομένων περιελάμβανε όλα τα πλαίσια μιας ξεχωριστής εκτέλεσης του μαθητή. Από αυτή εξήχθησαν τα χαρακτηριστικά χειρονομιών του μαθητή.
Για να εξαχθούν τα χαρακτηριστικά του ήχου, ήταν απαραίτητο να απομονωθεί και στη συνέχεια να αναγνωριστεί ξεχωριστά κάθε νότα της ηχογράφησης. Συνήθως, ένας ύμνος αποτελείται από συλλαβές που τραγουδιούνται σε ένα ή περισσότερους ήχους. Η παλάμη του εκτελεστή παραμένει σε σταθερό ύψος για τις συλλαβές μιας συγκεκριμένης νότας. Άρα, η παλάμη βρίσκεται ακίνητη σε κάποια θέση για τα ισοτονικά χρονικά διαστήματα τα οποία φυσικά τελικά θα είναι λιγότερα σε πλήθος από τις γραπτές νότες.
Στην πράξη, παρατηρήθηκε ότι η κίνηση του χεριού απέχει από την πραγματική εκτέλεση της αντίστοιχης νότας μερικά χιλιοστά του δευτερολέπτου. Παρατηρήθηκε, επίσης, ένα μεταβατικό στάδιο μεταξύ ισοτονικών διαστημάτων που σχετίζονται με μια απότομη αλλαγή του ύψους της παλάμης η οποία ξεχωρίζει κάθε νότα.