pip install -r requirements.txt

Requirement already satisfied: soundfile in d:\anaconda\lib\site-packages (from -r requirements.txt (line 1)) (0.12.1)Note: you may need to restart the kernel to use updated packages.

Requirement already satisfied: gradescope-utils in d:\anaconda\lib\site-packages (from -r requirements.txt (line 2)) (0.5.0)
Requirement already satisfied: numpy in d:\anaconda\lib\site-packages (from -r requirements.txt (line 3)) (1.24.4)
Requirement already satisfied: h5py in d:\anaconda\lib\site-packages (from -r requirements.txt (line 4)) (3.7.0)
Requirement already satisfied: librosa in d:\anaconda\lib\site-packages (from -r requirements.txt (line 5)) (0.10.1)
Requirement already satisfied: cffi>=1.0 in d:\anaconda\lib\site-packages (from soundfile->-r requirements.txt (line 1)) (1.15.1)
Requirement already satisfied: audioread>=2.1.9 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (3.0.0)
Requirement already satisfied: scipy>=1.2.0 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (1.10.1)
Requirement already satisfied: scikit-learn>=0.20.0 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (1.4.2)
Requirement already satisfied: joblib>=0.14 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (1.2.0)
Requirement already satisfied: decorator>=4.3.0 in c:\users\jinen\appdata\roaming\python\python311\site-packages (from librosa->-r requirements.txt (line 5)) (5.1.1)
Requirement already satisfied: numba>=0.51.0 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (0.57.0)
Requirement already satisfied: pooch>=1.0 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (1.4.0)
Requirement already satisfied: soxr>=0.3.2 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (0.3.6)
Requirement already satisfied: typing-extensions>=4.1.1 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (4.11.0)
Requirement already satisfied: lazy-loader>=0.1 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (0.2)
Requirement already satisfied: msgpack>=1.0 in d:\anaconda\lib\site-packages (from librosa->-r requirements.txt (line 5)) (1.0.3)
Requirement already satisfied: pycparser in d:\anaconda\lib\site-packages (from cffi>=1.0->soundfile->-r requirements.txt (line 1)) (2.21)
Requirement already satisfied: llvmlite<0.41,>=0.40.0dev0 in d:\anaconda\lib\site-packages (from numba>=0.51.0->librosa->-r requirements.txt (line 5)) (0.40.0)
Requirement already satisfied: requests in d:\anaconda\lib\site-packages (from pooch>=1.0->librosa->-r requirements.txt (line 5)) (2.31.0)
Requirement already satisfied: packaging in c:\users\jinen\appdata\roaming\python\python311\site-packages (from pooch>=1.0->librosa->-r requirements.txt (line 5)) (23.1)
Requirement already satisfied: appdirs in d:\anaconda\lib\site-packages (from pooch>=1.0->librosa->-r requirements.txt (line 5)) (1.4.4)
Requirement already satisfied: threadpoolctl>=2.0.0 in d:\anaconda\lib\site-packages (from scikit-learn>=0.20.0->librosa->-r requirements.txt (line 5)) (2.2.0)
Requirement already satisfied: charset-normalizer<4,>=2 in d:\anaconda\lib\site-packages (from requests->pooch>=1.0->librosa->-r requirements.txt (line 5)) (2.0.4)
Requirement already satisfied: idna<4,>=2.5 in d:\anaconda\lib\site-packages (from requests->pooch>=1.0->librosa->-r requirements.txt (line 5)) (3.4)
Requirement already satisfied: urllib3<3,>=1.21.1 in d:\anaconda\lib\site-packages (from requests->pooch>=1.0->librosa->-r requirements.txt (line 5)) (1.26.16)
Requirement already satisfied: certifi>=2017.4.17 in d:\anaconda\lib\site-packages (from requests->pooch>=1.0->librosa->-r requirements.txt (line 5)) (2023.7.22)


# This function is using librosa for display purpose only, 
# you should not import librosa or use it in submitted.py as this will break the autograder

import librosa
import librosa.display
import numpy as np

def display_spectrogram(spec, sr):
    
    fig, ax = plt.subplots(nrows=1, ncols=1, figsize=(12,4),sharex=True)
    dB = librosa.amplitude_to_db(np.abs(spec.T), ref=np.max)
    librosa.display.specshow(dB, y_axis='linear', x_axis='time',sr=sr, ax=ax)
    ax.set(title='spectrogram')
    ax.label_outer()

def display_waveform(waveform):
    
    fig, ax = plt.subplots(1,1,figsize=(14,2))
    timestamp = np.arange(len(waveform))/samplerate
    ax.plot(timestamp,waveform)


import IPython.display
import matplotlib.pyplot as plt
import importlib, submitted
import soundfile as sf

data, samplerate = sf.read('visible.wav')
print(data.shape)
IPython.display.Audio(data, rate=samplerate)

(320026,)


display_waveform(data)


importlib.reload(submitted)
help(submitted.stft)

Help on function stft in module submitted:

stft(signal, window_size=2048, hop_size=512)


spec = submitted.stft(data)
print('The shape of the spectrogram is', spec.shape)
display_spectrogram(spec, samplerate)

The shape of the spectrogram is (622, 1025)


importlib.reload(submitted)
help(submitted.istft)

Help on function istft in module submitted:

istft(stft_matrix, hop_size=512)


istft_sig = submitted.istft(spec, 512)
print('The shape of the reconstructed signal is', istft_sig.shape)

The shape of the reconstructed signal is (320000,)


display_waveform(istft_sig)


IPython.display.Audio(istft_sig, rate=samplerate)


importlib.reload(submitted)
help(submitted.griffin_lim)

Help on function griffin_lim in module submitted:

griffin_lim(magnitude_spectrogram, phase=None, n_iter=100, window_size=2048, hop_size=512)


reconstructed_iter1 = submitted.griffin_lim(np.abs(spec), n_iter=1)
print('Reconstructed signal has a shape of', reconstructed_iter1.shape)
IPython.display.Audio(reconstructed_iter1, rate=samplerate)

(622, 1025)
(622, 1025)
(622, 1025)
Reconstructed signal has a shape of (320000,)


reconstructed_iter10 = submitted.griffin_lim(np.abs(spec), n_iter=10)
print('Reconstructed signal has a shape of', reconstructed_iter10.shape)
IPython.display.Audio(reconstructed_iter10, rate=samplerate)

(622, 1025)
(622, 1025)
(622, 1025)
Reconstructed signal has a shape of (320000,)


reconstructed_iter100 = submitted.griffin_lim(np.abs(spec), n_iter=100)
print('Reconstructed signal has a shape of', reconstructed_iter100.shape)
IPython.display.Audio(reconstructed_iter100, rate=samplerate)

(622, 1025)
(622, 1025)
(622, 1025)
Reconstructed signal has a shape of (320000,)


importlib.reload(submitted)
help(submitted.time_stretch_griffin_lim)

Help on function time_stretch_griffin_lim in module submitted:

time_stretch_griffin_lim(magnitude_spectrogram, stretch_factor, phase=None, n_iter=100, window_size=2048, hop_size=512)


reconstructed_stretch = submitted.time_stretch_griffin_lim(np.abs(spec), stretch_factor=2, n_iter=100)
print('Reconstructed signal has a shape of', reconstructed_stretch.shape)
IPython.display.Audio(reconstructed_stretch, rate=samplerate)

(1244, 1025)
(1244, 1025)
(1244, 1025)
Reconstructed signal has a shape of (638464,)


display_waveform(reconstructed_stretch)


reconstructed_shrink = submitted.time_stretch_griffin_lim(np.abs(spec), stretch_factor=0.5, n_iter=100)
print('Reconstructed signal has a shape of', reconstructed_shrink.shape)
IPython.display.Audio(reconstructed_shrink, rate=samplerate)

(311, 1025)
(311, 1025)
(311, 1025)
Reconstructed signal has a shape of (160768,)


display_waveform(reconstructed_shrink)


importlib.reload(submitted)
help(submitted.freq_stretch_griffin_lim)

Help on function freq_stretch_griffin_lim in module submitted:

freq_stretch_griffin_lim(magnitude_spectrogram, stretch_factor, phase=None, n_iter=100, window_size=2048, hop_size=512)


vtln_wave = submitted.freq_stretch_griffin_lim(np.abs(spec), stretch_factor=1.5, n_iter=100, hop_size=512)
IPython.display.Audio(vtln_wave, rate=samplerate)

(622, 1025)
(622, 1025)
(622, 1025)


D = submitted.stft(vtln_wave)
display_spectrogram(D, 32000)


vtln_wave = submitted.freq_stretch_griffin_lim(np.abs(spec), stretch_factor=0.75, n_iter=100, hop_size=512)
IPython.display.Audio(vtln_wave, rate=samplerate)

(622, 1025)
(622, 1025)
(622, 1025)


D = submitted.stft(vtln_wave)
display_spectrogram(D, 32000)

STFT, ISTFT, and Griffin-Lim speech vocoder¶

Part 1: STFT¶

Part 2: ISTFT¶

Part 3: Griffin-Lim Vocoder¶

Part 4: Vocal Tract Length Normalization¶