Ga naar hoofdinhoud

Hoe muziek te maken met behulp van kunstmatige intelligentie en machine learning



Leer muziek maken met kunstmatige intelligentie! Terugkerende neurale netwerken voor het maken van muziek!

Gegevensbestand MAESTRO en Wave2Midi2Wave
Nadat ik deze bronnen had bekeken, vond ik een onderzoeksdocument dat een nieuwe dataset introduceerde genaamd MAESTRO (wat staat voor MIDI en Audio Edited voor Synchronous TRacks and Organization). Hij ontwerpt ook de nieuwe Wave2Midi2Wave-architectuur, die in feite drie state-of-the-art algoritmen combineert en ze samen traint in een MAESTRO-gegevensbestand.

MIDI is eigenlijk een technische standaard die veel protocollen bevat voor computers met verschillende soorten audio-apparaten. Dit is handig omdat de verzonden informatie informatie over de toon, toonhoogte, snelheid en tempo bevat.

De belangrijkste reden dat deze nieuwe dataset zo belangrijk is, is dat deze veel meer gegevens bevat dan welke eerdere dataset dan ook. Om het in perspectief te plaatsen, het MAESTRO-gegevensbestand bevat 172 uur audio- en MIDI-transcripties. Het MAPS-gegevensbestand bevat slechts 17,9 uur en het MusicNet-gegevensbestand slechts 15,3 uur.

Zoals ik eerder al zei, is Wave2Midi2Wave in feite een combinatie van drie verschillende ultramoderne modellen en voert elk een andere taak uit. Eerst wordt Wave2Midi gebruikt om geluid te vertalen naar een symbolische representatie (MIDI). Dan creëert een deel van het Midi-netwerk nieuwe inhoud. Dit alles is gesynthetiseerd door Midi2Wave om een ​​realistisch geluid te produceren.

Het eerste netwerk van Wave2Midi2Wave maakt gebruik van een ultramoderne architectuur genaamd Onsets and Frames, die uw opnames automatisch converteert naar noten die in MIDI worden weergegeven. Dus als je aan het improviseren was, zou je precies kunnen weten wat je speelde!

Met behulp van CNN en LSTM konden wetenschappers 'het begin van de toonhoogte voorspellen en vervolgens deze voorspellingen gebruiken om de voorspellingen van de framepitch aan te passen'. Dit betekent in wezen dat één neuraal netwerk in het model wordt gebruikt om te voorspellen wanneer een noot wordt gespeeld (dwz onset). En een ander neuraal netwerk voorspelt hoe lang een noot wordt gespeeld (elk frame dat actief is).

Midi: Music Transformer
Voor het tweede netwerk in Wave2Midi2Wave wordt een speciaal type transformator gebruikt om gloednieuwe muzieksequenties te genereren met coherentie op lange termijn. Netwerkoutput is veel structureler dan andere neurale netwerken.

In een conventionele Transformer wordt aandacht besteed aan het modelleren van de relaties tussen woorden, omdat in zinnen de betekenis van een woord niet alleen gebaseerd is op de woorden die eraan voorafgingen, maar op de context van de hele zin.
Transformatoren verzamelen informatie uit alle andere delen van het netwerk en genereren een representatie voor elk woord op basis van de hele context. Dit proces wordt herhaald zodat elk woord nieuwe representaties genereert.

Het punt is dat we transformatoren kunnen gebruiken om informatie toe te wijzen aan verschillende stukjes gegevens op basis van de context van het hele netwerk. Laten we terugkeren naar het onderwerp muziekgeneratie.
Een probleem met de originele Transformer is dat hij voor zijn eigen aandacht op absolute posities vertrouwt. Als het om muziek gaat, worstelen Transformers met afstanden, orde en herhaling. Met relatieve aandacht kan het muziektransformatiemodel focussen op relationele elementen en sequenties genereren die verder gaan dan wat werd getoond in de trainingsvoorbeelden.

Midi2Wave: WaveNet
Het laatste deel van het netwerk neemt het WaveNet-model en traint het in een gegevensset voor het genereren van muziek die letterlijk klinkt als een opname. WaveNet is een modelarchitectuur die is gebaseerd op PixelCNN en gespecialiseerd is in audiosynthese.
Architectuur maakt gebruik van convolutionele lagen. Omdat de threads geen terugkerende verbindingen gebruiken zoals in RNN, wat betekent dat het meestal veel gemakkelijker is om te trainen dan RNN. Een probleem is echter dat tonnen lagen of supergrote filters nodig zijn om het waarnemingsveld (de hoeveelheid gegevens die een model kan dekken) te vergroten, wat de computerkosten verhoogt.

Expansiedraden worden gebruikt om te omzeilen. Dit betekent in feite dat filters over een groter gebied kunnen worden toegepast als bepaalde invoerwaarden worden overgeslagen. Je krijgt bijna hetzelfde effect als een groter filter als je het met nullen hebt uitgebreid, maar het is veel efficiënter.

WaveNet-training, het modernste model voor spraaksynthese, op de MAESTRO-dataset levert een aantal ongelooflijke resultaten op waarmee ik u geleidelijk aan specifieke voorbeelden zal introduceren.

Reacties

Populaire berichten van deze blog

Python code eenvoudige rekenmachine

Dit eenvoudige Python-programma vraagt ​​de gebruiker om de gewenste bewerking te selecteren. Selectieopties 1, 2, 3 en 4 zijn geldig. Twee als ... elif ... anders nummers zijn geselecteerd en vertakking wordt gebruikt om een ​​specifiek gedeelte van het programma uit te voeren. Door de gebruiker gedefinieerde functies add (), subtract (), multiply () en divide () voeren de juiste bewerkingen uit.
# Deze functie voegt twee getallen toe def opt (x, y): return x + y # Deze functie trekt twee getallen af ​​aftrekken (x, y): return x - y # Deze functie vermenigvuldigt twee numbersdef vermenigvuldigt ( x, y): return x * y # Deze functie verdeelt twee getallen def delen (x, y): return x / y print ("Selecteer bewerking.") print ("1.Toevoegen") print ("2.Trek af") afdrukken ("3.Multiply")

Rokytnice nad Jizerou, Lysa hora

Rokytnice nad Jizerou (Rochlitz an der Iser in het Duits) is een stad en bergresort in het westelijke Reuzengebergte. Het is gelegen in de regio Liberec, in het district Semily, in de langwerpige vallei van de beek Huťský tussen de massieven van de Stráž (782 m), Čertova hora (1022 m) en Lysá hora (1344 m) en langs de linker (oostelijke) oever van de rivier de Jizera. Er wonen ongeveer 2 inwoners.

Traveler Premium HTML-sjabloon gratis downloaden

Premium HTML-sjabloon Reiziger is een uniek sjabloon voor super gebruiksgemak, niet alleen voor reisbureaus en agentschappen, waarmee beginnende gebruikers ook unieke originele websites kunnen maken voor onmiddellijke implementatie.

Webthema's en sjabloonpagina's worden perfect weergegeven op elk apparaat, inclusief desktops, laptops, tablets en alle soorten smartphones. Ze zijn volledig vriendelijk voor zoek- en indexeringsdiensten die u topposities in zoekresultaten geven.
Het oorspronkelijke idee bij het maken van een origineel ontwerp is het uitdrukken van een bepaalde uniciteit, ongebruikelijkheid van elke toepassing die interessant en nieuw is voor de klant. Een belangrijke factor is hoeveel de specificaties en ideeën van de klant in het begin zijn en hoeveel ruimte er nog is om een ​​volledig originele applicatie of website-ontwerp te ontwerpen.

Mijn bedoeling is om originele software te maken zodat ik me niet hoef te schamen voor mijn werk voor klanten en dat de klant niet meer hoeft uit te geven ...