Introducing COVAREP: A collaborative voice analysis repository for speech technologies

Size: px

Start display at page:

Download "Introducing COVAREP: A collaborative voice analysis repository for speech technologies"

Stuart Shaw
5 years ago
Views:

1 Introducing COVAREP: A collaborative voice analysis repository for speech technologies John Kane Wednesday November 27th, 2013 SIGMEDIA-group TCD COVAREP - Open-source speech processing repository 1

2 Introduction (a) Gilles Degottex (b) Thomas Drugman (c) Tuomo Raitio (d) Stefan Scherer COVAREP - Open-source speech processing repository 2

3 Motivation...open, well-documented, and well-tested scientific code is essential not only to reproducibility in modern scientific research, but to the very progression of research itself. COVAREP - Open-source speech processing repository 3

4 Related toolkits KALDI - Speech recognition toolkit - Speech processing toolkit VOICEBOX - Speech analysis toolkit COVAREP - Open-source speech processing repository 4

5 Solution? Fast, effective results every time COVAREP - Open-source speech processing repository 5

6 COVAREP - Aims Website: GitHub: COVAREP - Open-source speech processing repository 6

7 COVAREP - Aims More reproducible research Increase the availability and impact of speech processing algorithms Participation and feedback COVAREP - Open-source speech processing repository 7

8 COVAREP - Scope Broad scope - any speech signal processing algorithms Speech analysis, synthesis, conversion, transformation, speech quality, enhancement, glottal source/voice quality analysis, etc. Use! Contribute! COVAREP - Open-source speech processing repository 8

9 Overview of COVAREP Speech Signal Polarity Detection Pitch Tracking GCI SpectraldEnvelope d GlottaldFlow Sinusoidal Modeling Phase-based Representation Formant Tracking GlottaldFlow Parameterization COVAREP - Open-source speech processing repository 9

10 Overview of COVAREP Speech Signal 1. Periodicity Pitch Tracking Polarity Detection GCI Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation COVAREP - Open-source speech processing repository 10

11 Overview of COVAREP Speech Signal 1. Periodicity Pitch Tracking Polarity Detection GCI 2. Spectral envelope Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation COVAREP - Open-source speech processing repository 11

12 Overview of COVAREP Speech Signal 1. Periodicity Pitch Tracking Polarity Detection GCI 2. Spectral envelope Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation 3. Sine modelling COVAREP - Open-source speech processing repository 12

13 Overview of COVAREP Speech Signal 1. Periodicity Pitch Tracking Polarity Detection GCI 2. Spectral envelope Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation 3. Sine modelling 4. Glottal analysis COVAREP - Open-source speech processing repository 13

14 Overview of COVAREP Speech Signal 1. Periodicity Pitch Tracking Polarity Detection GCI 2. Spectral envelope Spectral Envelope Glottal Flow 4. Phase analysis Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation 3. Sine modelling 4. Glottal analysis COVAREP - Open-source speech processing repository 14

15 COVAREP - Periodicity & synchronicity Speech Signal 1. Periodicity Pitch Tracking Polarity Detection GCI Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation COVAREP - Open-source speech processing repository 15

16 COVAREP - Periodicity & synchronicity Polarity detection f 0 and voicing decision extraction Detection of glottal closure instants COVAREP - Open-source speech processing repository 16

17 Periodicity & synchronicity - F0 extraction 50 Speech spectrum Amplitude (db) Frequency (Hz) Speech amplitude spectrum COVAREP - Open-source speech processing repository 17

18 Periodicity & synchronicity - F0 extraction 50 Speech spectrum Amplitude (db) Frequency (Hz) Residual spectrum 0 Amplitude (db) Frequency (Hz) Envelope-removed speech amplitude spectrum COVAREP - Open-source speech processing repository 18

19 Periodicity & synchronicity - F0 extraction 50 Speech spectrum Amplitude (db) Frequency (Hz) Residual spectrum 0 Amplitude (db) Frequency (Hz) SRH(f) = E(f )+ N k=2 [E(k f ) E((k 0.5) f )] for f [F 0 min, F 0 max ] where E is the residual spectrum, f is frequency (Hz) and N is the number of harmonics considered COVAREP - Open-source speech processing repository 19

Periodicity & synchronicity - F0 extraction 250 Residual harmonic summation Frequency (Hz) 200 150 100 50 0.5 1 1.

20 Periodicity & synchronicity - F0 extraction 250 Residual harmonic summation Frequency (Hz) Time (seconds) Residual harmonic summation over time COVAREP - Open-source speech processing repository 20

21 5000 Frequency [Hz] COVAREP - Periodicity & synchronicity Glottal Flow (GF) derivative with GCIs 0.1 Amplitude Time [s] Detected glottal closure instants COVAREP - Open-source speech processing repository 21

22 COVAREP - Spectral envelope estimation 2. Spectral envelope Speech Signal Pitch Tracking Polarity Detection GCI Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation COVAREP - Open-source speech processing repository 22

23 COVAREP - Spectral envelope estimation Discrete all-pole (DAP) model True envelope (TE) - spectral envelope by iterative cepstral smoothing Weighted linear prediction Conversion from envelope to Mel-Frequency Cepstral Coefficients (MFCC) COVAREP - Open-source speech processing repository 23

24 COVAREP - Spectral envelope estimation 30 Speech spectrum Amplitude (db) Frequency (Hz) Speech amplitude spectrum COVAREP - Open-source speech processing repository 24

25 COVAREP - Spectral envelope estimation 30 Speech spectrum with mel spaced filters Amplitude (db) Frequency (Hz) Speech spectrum with mel-spaced triangular filters COVAREP - Open-source speech processing repository 25

26 COVAREP - Spectral envelope estimation 40 Speech spectrum with "True Envelope" 20 0 Amplitude (db) Frequency (Hz) Speech spectrum with TE spectral envelope COVAREP - Open-source speech processing repository 26

27 COVAREP - Spectral envelope estimation 30 "True Envelope" spectrum with mel spaced filters Amplitude (db) Frequency (Hz) TE spectral envelope with mel-spaced triangular filters COVAREP - Open-source speech processing repository 27

28 COVAREP - Sinusoidal modelling Speech Signal Pitch Tracking Polarity Detection GCI Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation 3. Sine modelling COVAREP - Open-source speech processing repository 28

29 COVAREP - Sinusoidal modelling Harmonic model Quasi-Harmonic Model (QHM) Adaptive Harmonic Model (ahm) Harmonic synthesis COVAREP - Open-source speech processing repository 29

30 COVAREP - Glottal analysis Speech Signal Pitch Tracking Polarity Detection GCI Spectral Envelope Glottal Flow Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation 4. Glottal analysis COVAREP - Open-source speech processing repository 30

31 COVAREP - Glottal analysis COVAREP - Open-source speech processing repository 31

32 COVAREP - Glottal analysis Deconvolution of glottal source and vocal tract components Algorithms for parameterising the glottal source Detection of changes in tone-of-voice and voice quality COVAREP - Open-source speech processing repository 32

33 COVAREP - Glottal analysis Vocal effort COVAREP - Open-source speech processing repository 33

34 COVAREP - Glottal analysis Frequency (Hz) Time (seconds) Wavelet decomposition of an impulse COVAREP - Open-source speech processing repository 34

35 COVAREP - Glottal analysis Amplitude Amplitude Time (seconds) 125 Hz 250 Hz 500 Hz 1 khz 2 khz 4 khz 8 khz Time (seconds) All peaks across the different frequency bands for breathy (top) and tense (bottom) speech samples COVAREP - Open-source speech processing repository 35

36 COVAREP - Phase processing Speech Signal Pitch Tracking Polarity Detection GCI Spectral Envelope Glottal Flow 4. Phase analysis Sinusoidal Modeling Formant Tracking Glottal Flow Parameterization Phase-based Representation COVAREP - Open-source speech processing repository 36

37 COVAREP - Phase processing Relative phase shift - speaker verification Phase distortion - emotional valence detection Chirp group delay represenation - detection of voice disorders COVAREP - Open-source speech processing repository 37

38 Emotion classification experiment Speech data: Berlin emotion database (10 speakers, 7 acted emotions, 500+ utterances) Class labellng: Emotion vs non-emotion (binary), Passive-neutral-active (3-class) Feature extraction: Using COVAREP v1.1.0 Classification: Support vector machines (RBF kernel) Validation: Speaker independent, leave-one-speaker-out COVAREP - Open-source speech processing repository 38

39 Emotion classification experiment Feature sets MFCC: Standard Mel-frequency cepstral coefficients TE-MFCC MFCCs derived from True Envelope representation Glottal/VQ: Glottal and voice quality related features ALL: TE-MFCC and Glottal/VQ combined SEL: 10 most discriminative features Speaker independent - Leave-one-speaker-out classification experiments COVAREP - Open-source speech processing repository 39

40 Emotion classification experiment - Results 0 peakslope Neutral Anger Bored Disgust Fear Happy Sad 2 Rd Neutral Anger Bored Disgust Fear Happy Sad COVAREP - Open-source speech processing repository 40

41 Emotion classification experiment - Results 40 Emotion vs neutral Activation (3 class) Error (%) MFCCs TE_MFCCs Glottal/VQ ALL SEL COVAREP - Open-source speech processing repository 41

42 Emotion classification experiment - Results Table: Confusion matrix (%) MFCCs Glottal/VQ Neutral Emotion Neutral Emotion Neutral Emotion COVAREP - Open-source speech processing repository 42

43 Emotion classification experiment - Results COVAREP - Open-source speech processing repository 43

44 Potential applications for COVAREP algorithms Speech synthesis Speech recognition Modelling variation in speaking styles and affective states Speaker verification Voice pathology detection Lots of others!! COVAREP - Open-source speech processing repository 44

45 COVAREP summary Repository of open-source speech processing algorithms Cross-unversity/country effort Fast access to newly developed state-of-the-art algorithms Improve visability and impact More reproducible research COVAREP - Open-source speech processing repository 45

46 ... and finally! COVAREP - Open-source speech processing repository 46

47 Thank you! Resources: Website: GitHub: Paper: Degottex, G., Kane, J., Drugman, T., Raitio, T., COVAREP - A collaborative voice analysis repository for speech technologies, Submitted to ICASSP 2014 COVAREP - Open-source speech processing repository 47

A Full-Band Adaptive Harmonic Representation of Speech

A Full-Band Adaptive Harmonic Representation of Speech Gilles Degottex and Yannis Stylianou {degottex,yannis}@csd.uoc.gr University of Crete - FORTH - Swiss National Science Foundation G. Degottex & Y.