ذهن ذوب هوش مصنوعی می سازد فرانک سیناترا بخوان “سمی” توسط بریتنی اسپیرز

در پایان آوریل هوش مصنوعی شرکت توسعه OpenAI جدید منتشر شد neural net Jukebox که می توانید ترکیب و موسیقی اصلی در این سبک بیش از 9000 گروهها و نوازندگان.

در کنار آن OpenAI منتشر شده یک لیست از نمونه آهنگ های تولید شده با این الگوریتم که خم موسیقی به ژانرهای جدید و یا حتی تفسیر مجدد یک هنرمند آهنگ در دیگر سبک — فکر می کنم یک جاز-پاپ ترکیبی از الا فیتزجرالد و Céline Dion.

این شاهکار باور نکردنی از تکنولوژی اما فوتوریسم سرمقاله تیم ناراضی با آهنگ OpenAI به اشتراک گذاشته. واقعا پا زدن لاستیک ما رفت و به CJ کار و زاک Zukowski نوازندگان و علوم کامپیوتر کارشناسان پشت algorithmically تولید گروه موسیقی DADABOTS با یک درخواست: ما می خواستم به شنیدن فرانک سیناترا بخوان بریتنی اسپیرز “سمی است.”

و پسر آنها تحویل داده شده است.

یک الگوریتم است که می تواند ایجاد اصلی آثار موسیقی در سبک های موجود گروهها و هنرمندان افزایش ناشناخته حقوقی و خلاق سوال. برای مثال می توانید این هنرمندان که Jukebox آموزش دیده بود بر ادعای اعتبار ناشی آهنگ ؟ یا ما تجربه آغاز یک نام تجاری عصر جدید از موسیقی است ؟

“وجود دارد خیلی خلاقیت برای کشف وجود دارد” Zukowski گفت فوتوریسم.

در زیر نتیجه آهنگ در آن هوش مصنوعی-تولید شکوه به دنبال فوتوریسم را به آرامی ویرایش گفتگو با الگوریتمی نوازندگان کار و Zukowski.

فوتوریسم: با تشکر برای گرفتن وقت برای چت, CJ و زاک. قبل از اینکه ما پرش در, من دوست دارم به یادگیری کمی بیشتر در مورد هر دو شما و چگونه شما آموخته است که چگونه به انجام تمام این. چه نوع از پس زمینه شما باید که وام خود را به هوش مصنوعی-تولید موسیقی ؟

زاک Zukowski: من فکر می کنم ما هر دو خیلی نوازندگان اما همچنین من درگیر شده است در فن آوری برای مدتی. من نزدیک ماشین من یادگیری مطالعات صوتی چشم انداز: من می خواستم به گسترش آنچه که در حال حاضر در حال انجام با سنتز و تکنولوژی موسیقی. به نظر می رسید مانند یادگیری ماشین شد و بدیهی است که این راه بود که رفتن به ترین دستاوردهای بنابراین من شروع به یادگیری در مورد آن نوع از الگوریتم های. SampleRNN ابزار ما بیشتر مایل به استفاده از — که یکی از اصلی ترین ابزار است که ما شده ایم با استفاده از برای ما livestreams و ما Bandcamp آلبوم بیش از سال گذشته.

CJ Carr: نوازنده اول انگیزه در علوم کامپیوتر برای انجام کارهای جدید با موسیقی است. DADABOTS خود بیرون می آید از hackathon فرهنگ است. من انجام داده ام 65 hackathons و زاک و من هم موفق به کسب 15 یا بیشتر. که محیط الهام بخش مردم برای فشار به آنچه آنها انجام می دهند در برخی از راه های جدید برای انجام کاری تحریک آمیز. که روح DADABOTS آمد از در سال 2012 و ما شده ایم هل دادن آن را بیشتر و بیشتر به عنوان تکنولوژی پیشرفت کرده است.

چرا شما تصمیم به گام از فرد hackathons و چوب با DADABOTS? از کجا این ایده از برای پروژه های مختلف خود را?

CJ: زمانی که ما آن را آغاز کردیم و هر دو کارورزان در کالج موسیقی برکلی مشغول به کار در موسیقی tech. وقتی که من ملاقات زاک — برای برخی از این دلیل آن را احساس مثل من شناخته ام زاک تمام زندگی من است. این طبیعی بود همکاری. زاک می دانستم که بیشتر در مورد پردازش سیگنال از من, من می دانستم که بیشتر در مورد برنامه نویسی و در حال حاضر ما هر دو مغز است.

شما چه روش معمول? آنچه که در پشت صحنه ؟

CJ: SampleRNN شده است و ابزار اصلی ما. آن را واقعا سریع به قطار — ما می توانید آموزش آن را در یک یا دو روز در یک هنرمند جدید. یکی از کارهای اصلی ما عشق را به انجام همکاری با هنرمندان, وقتی که یک هنرمند می گوید: “هی من دوست دارم برای انجام یک ربات آلبوم است.” اما به تازگی Jukebox ساختگی دولت از هنر در موسیقی نسل. آنها انجام یک کار واقعا خوب.

SampleRNN و Jukebox آنها مشابه که در آنها هر دو توالی ژنراتور. این مطالعه یک توالی شنیداری در 44.1 k یا 16k نرخ نمونه و سپس آن را در تلاش برای پیش بینی آنچه در آینده نمونه است برای رفتن به. این شبکه تصمیم گیری در کسری از یک میلی ثانیه به آمده تا با نمونه. این است که چرا آن را به نام عصبی سنتز. آن را کپی و چسباندن صوتی از داده های آموزشی آن یادگیری به سنتز.

چه چیزی متفاوت در مورد آنها این است که SampleRNN استفاده طولانی “حافظه کوتاه مدت” (LSTM), معماری, در حالی که jukebox با استفاده از یک ترانسفورماتور معماری. ترانسفورماتور دارای توجه است. این یک چیز نسبتا جدید است که آمده تا به محبوبیت در یادگیری عمیق و پس از RNN پس از LSTM. آن را به خصوص در زمان بیش از زبان ، من نمی دانم اگر شما به یاد داشته باشید جعلی اخبار ژنراتور مانند GPT-2 و استیفن گراور. آنها با استفاده از ترانسفورماتور معماری. بسیاری از محققان زبان چپ LSTM پشت سر گذاشت. هیچ کس واقعا آن را به صدا در موسیقی و در عین حال که بزرگ افزایش برای Jukebox. آنها در حال گرفتن یک زبان معماری و استفاده از آن را به موسیقی است.

آنها همچنین انجام این کار چیزی اضافی به نام “Vector-تدریجی Variational AutoEncoder” (VQ-VAE). آنها در حال تلاش برای تبدیل صوتی به زبان. آنها آموزش یک مدل است که باعث ایجاد یک codebook مانند حروف الفبا. و آنها را به این الفبا که یک مجموعه گسسته از 2048 کاراکتر — هر نماد چیزی است که در مورد موسیقی — و سپس آنها را آموزش ترانسفورماتور مدل در آن است.”

چه که الفبای نگاه مانند? چه شده است که “چیزی در مورد موسیقی؟”

CJ: آنها نمی کنند که تجزیه و تحلیل در همه. ما واقعا کنجکاو. برای مثال می تواند به ما در نوشتن با آن ؟

زاک: ما باید این 2048 کاراکتر و بنابراین ما تعجب می کنم که آنهایی که معمولا استفاده می شود. در الفبای ما استفاده نمی Zs بیش از حد. اما آنچه “حروف صدادار?” که نمادها اغلب استفاده می شود? این امر می تواند واقعا جالب برای دیدن آنچه که اتفاق می افتد زمانی که شما شروع به خلاص شدن از برخی از این نمادها و ببینید چه شبکه می توانید با آنچه باقی مانده است. راه ما باید زبان تئوری موسیقی با آکورد و مقیاس شاید این چیزی است که ما می توانیم آهنگسازی با فراتر از ساخت deepfakes از یک هنرمند.

چه می توانید آن زبان به ما بگویید که در مورد زمینه قوانین و قطعات موسیقی و چگونه می توانیم با استفاده از این به عنوان بلوک های ساختمان خود را ؟ آنها بسیار سطح بالاتر از آکورد — شاید آنها نوع مربوط. ما واقعا نمی دانم. این امر می تواند واقعا سرد به انجام است که تجزیه و تحلیل کنید و ببینید چه اتفاقی می افتد با استفاده از فقط یک زیر مجموعه از زبان است.

CJ: آنها آمده ام تا با تئوری موسیقی.

آن را برای تلفن های موبایل مانند سه ما باید بسیاری از سوالات مشابه در مورد همه این است. شما شروع به سرهم بند با آن به یاد چه خبر است ؟

CJ: ما فقط کد در حال اجرا است. به عنوان مثال برای اولین بار است که این سیناترا چیز. اما همانطور که ما با استفاده از این بیشتر فلسفی مفاهیم در اینجا این است که به عنوان نوازندگان ما به طور مستقیم می دانم که موسیقی بسیار زبان مانند. این نه فقط امواج و سر و صدا است که آنچه در آن مانند به نظر می رسد در یک مقیاس کوچک اما زمانی که ما در حال بازی ما در حال برقراری ارتباط با یکدیگر. باس و درام در مرحله رشته ها و خواننده می تواند انجام تماس-و-پاسخ. و OpenAI بود “با سلام اگر برخورد ما با موسیقی مانند زبان است؟”

اگر مرتب کردن بر اساس حروف الفبا از این الگوریتم استفاده می کند می تواند دیده می شود به عنوان یک جدید, تئوری موسیقی, آیا شما فکر می کنم این خواهد بود که یک ابزار را برای شما دو رفتن به جلو ؟ و یا آن را بیشتر از یک چیز عجیب و غریب به بازی در اطراف با ؟

CJ: شاید من باید درست خودم. به جای اینکه تئوری موسیقی این مدل می توانید آموزش تئوری موسیقی.

زاک: نظریه چیزی است که ما می تواند توضیح دهد در حال حاضر. ما نمی توانیم بگوییم “این مقدار به معنی این است.” آن را کاملا به عنوان انسان تفسیری, من حدس می زنم.

CJ: این مدل فقط می آموزد احتمالی الگوها و این چیزی است که تئوری موسیقی است. این یادداشت ها تمایل دارند که این الگوها و تولید این احساسات. و کسانی که انسان اختراع شده است. اگر ما فقط باید یک ماشین سعی کنید به کشف که در آن خود را و پس از آن ما بخواهید آن را از موسیقی ؟ و اگر آن را در آن خوب احتمالا آن را آموخته خوب نقل قول را تمام کردن “تئوری موسیقی.”

زاک: قیاس ما فکر: در این روز از باخ و این آهنگسازان بودند که واقعا علاقه مند به داشتن مقابل — صدای بسیاری در حال حرکت در جهت خود را — آنها تا به حال یک مجموعه ای از قوانین برای این است. اولین خط ملودیک آهنگساز ایجاد کردن است به نام cantus firmus. وجود دارد یک بازی آموزشی جدید آهنگسازان خواهد بازی — اگر شما می تواند به دنبال یادداشت ها که ارائه شد در cantus firmus و حدس بزنید چه هماهنگ یادداشت های بعدی بودند شما می شود درست بر اساس موسیقی روز.

ما در حال فکر کردن در این نوع از دستگاه نسخه از آن در برخی از راه. چیزی است که می تواند مورد استفاده برای ایجاد موسیقی های جدید در این سبک از موسیقی است که شنیده شده است قبل از.

من می دانم آن را در اوایل روز است و این نظری است اما آیا شما هر گونه پیش بینی برای چه مردم ممکن است با استفاده از Jukebox? خواهد بود بیشتر از این ترکیب و یا آیا شما فکر می کنید مردم را توسعه ترکیب اصلی?

CJ: از یک طرف شما ترس از فشار هنر است. بسیاری از مردم فکر می کنم و دکمه هنر بسیار عجیب و غریب. اما من فکر می کنم فشار هنر زمانی که یک فرهنگ می تواند دستیابی به این — این یک متعالی لحظه ای که برای فرهنگ است. این بدان معنی است که ارتباط آن فرهنگ دست یافته است ظرفیت آن است. فکر می کنم در مورد الگوی رفتاری ژنراتور — من می توانید یک عکس از کیانو ریوز را در برخی از شوخی در داخل و ارسال آن به دوستان و سپس آنها می توانند درک کنند و قدر آنچه را که من در برقراری ارتباط. که قدرتمند است. پس از آن است که عجیب و غریب است, اما آن را مؤثر.

از طرف دیگر شما باید این نوازندگی — این سازندگان هستند که تو را به درد نمیخورد و سعی کنید برای ایجاد یک رسانه هنر است که هرگز قبل وجود داشته است. آنچه منافع ما این 24/7 ژنراتور که در آن فقط می توانید نگه داشتن تولید برای همیشه لطفا برای.

زاک: من فکر می کنم آن را یک ابزار جالب برای هنرمندانی که مشغول به کار در یک بدن از آلبوم. وجود هنرمندان هستند که حتی نمی دانند که آنها را می توان در Jukebox. بنابراین من فکر می کنم بسیاری از آنها می خواهم به دانستن آنچه که می توان در آنها شباهت. این می تواند یک تنوع ابزار می تواند از نو خلق کردن کار برای یک هنرمند از طریق یک چشم انداز آنها نیست و حتی شنیده می شود. این خم شدن می تواند کار خود را از طریق هنرمندان مشابه و یا حتی بسیار دورتر-تلطیف هنرمندان. می توان آن را به یک ابزار آموزشی بزرگ برای هنرمندان است.

شما گفت که شما می خواهم شنید از برخی از هنرمندان که با نزدیک شدن شما به تولید موسیقی در حال حاضر — این چیزی است که شما می توانید به بحث در مورد ؟

CJ: زمانی که گروههای رویکرد ما آنها بیشتر شده است ماندن در خط “هی با استفاده از فقط من آموزش داده و اجازه دهید ببینیم که چه چیزی بیرون می آید — من واقعا علاقه مند است.”

طرفداران هر چند در یوتیوب هستند مثل “در اینجا یک لیست از چهار باند های مورد علاقه, لطفا من را به چیزی خارج از آن.”

بنابراین اجازه دهید بحث در مورد مسیر واقعی شما برای ما ساخته شده. برای این آهنگ جدید فوتوریسم پیشنهاد بریتنی اسپیرز “سمی” به عنوان خوانده شده توسط فرانک سیناترا. آیا ویژگی های کنار کشیدن که با هم متفاوت از معمول کار می کند ؟

CJ: این متفاوت است. با SampleRNN ما بازآموزی آن را از ابتدا در معمولا یک هنرمند و یا یک آلبوم. و این که واقعا آن می درخشد — آن را قادر به انجام این اتصالات بسیار خوبی است. چه OpenAI قادر به انجام — با چند دلار محاسبه بودجه — آنها قادر به آموزش این غول شبکه عصبی. و آنها آموزش داده و آنها را در بیش از 9000 هنرمندان در بیش از 300 ژانرهای. شما نیاز به یک تیم با بودجه فقط به این generalizable net.

زاک: دو گزینه وجود دارد. تاپیک شعر و نه ترانه. هیچ شعر است که مرتب کردن بر اساس مانند چگونه SampleRNN کار کرده است. با شعر آن تلاش می کند برای به دست آوردن همه آنها را در جهت, اما گاهی اوقات آن حلقه و یا تکرار. اما آن را تلاش می کند به رفتن را از ابتدا تا انتها و نگه داشتن جریان رفتن. اگر شما بیش از حد بسیاری از اشعار آن را درک نمی کند. آن را درک نمی کند که اگر شما یک کر, تکرار, موسیقی باید تکرار به عنوان به خوبی. بنابراین در می یابیم که این کوتاه تر ترکیب کار برای ما بهتر است.

اما شما تا به حال شعر در پروژه های گذشته استفاده می شود که SampleRNN مانند “انسان انقراض است. چگونه است که متفاوت است ؟

CJبود که دود و آینه.

زاک: که از یک نوع توهم است. آلبوم ما آموزش آن را در حال آواز به طوری که برخی آن را از طریق به. ما تا به حال یک متن ژنراتور ساخته شده است که تا شعر هر زمان که آن را شنیده صدا.

در بسیاری از این Jukebox, ترکیب, من متوجه شده ام که این صدا برای تلفن های موبایل نوع تیره و تار. این است که تنها یک ماده از هوش مصنوعی-تولید صدا بودن مجبور به آمار مشخصی داشته باشید و یا آن را چیزی بیشتر برای انجام با محدودیت های الگوریتم خود را ؟

زاک: شما حدس می زنم برای تلفن های موبایل شبیه به آنچه که من می خواهم می گویند. این احتمالا فقط واقعا بعید است که آن شعر یا واج برای تلفن های موبایل خود را از کلمات نشان داد تا در یک روش مشابه به چگونه ما مجبور به تولید آن هجا. آن را احتمالا شنیده زیادی در موسیقی بیشتر نیست که فرانک سیناترا پس از آن می توانید تصور کنید برخی از چیزهایی که فرانک سیناترا انجام نداده است. اما آن را فقط پایین می آید که تا حدودی متفاوت از هر یک از اصلی فرانک سیناترا متون.

هنگامی که شما ایجاد شد و این تفسیر از سمی را به شما ضربه هر گونه موانع در امتداد راه است ؟ و یا آن را فقط یک ماده از الگوریتم زمان کافی برای انجام آن کار است ؟

CJ: بخشی از آن است که ما باید واقعا گران قطعه از سخت افزار است که ما نیاز به اجاره در Amazon Cloud در سه دلار در هر ساعت. و آن طول می کشد — چه مدت آن را برای تولید زاک?

زاک: در آخر من تا به حال تولید شده در زمان حدود یک روز اما من تا به حال انجام شده است آن را بارها و بارها برای یک هفته. شما باید کمی کنترل است که گاهی اوقات شما فقط باید بروید و دوباره. آن را به چند عبارت و سپس آن را به از دست دادن آهنگ از این ترانه. گاهی اوقات شما می توانید دو خط اما نه کل گروه کر در یک ردیف. آمد آن را به شانس — در انتظار یک حق به آمده است همراه.

آن می تواند حلقه یک خط و یا گاهی اوقات آن را می تواند به ظاهر آهنگ های مختلف. آن را به طور کامل از دست دادن مسیر از جایی که در آن بود. وجود دارد برخی از چیزهایی که وحشی است که می تواند اتفاق می افتد. یک زمان من تولید شد فرانک سیناترا و این به وضوح یک گروه کر از مردان و زنان با هم است. نبود حتی صدای حق. آن را می توانید خیلی شبح مانند.

آیا می دانید اگر وجود دارد هر گونه مسائل حقوقی درگیر در این نوع از موسیقی است ؟ قابلیت جدید برای تولید موسیقی در سبک و یا صدای یک هنرمند به نظر می رسد مانند قلمرو ناشناخته اما وجود دارد مسائل را با محتوای ترکیبی است که با استفاده از موجود در شعر ؟ یا کسانی هستند که بیشتر قابل قبول تحت پوشش نمایشگاه با استفاده از مرتب کردن بر اساس مانند طنز آهنگ ؟

CJ: ما نه قانونی مردم ما نیست و مطالعه مسائل مربوط به کپی رایت. پرنیان است که وجود دارد یک مورد قوی برای استفاده منصفانه اما هنرمندان ممکن است مردم ایجاد این deepfakes.

زاک: من فکر می کنم آن را پایین می آید به قصد و هر چه قانون تصمیم می گیرد آنها تصمیم می گیرند. اما همانطور که مردم با استفاده از این ابزار و هنرمندان وجود دارد قطعا یک کد اخلاق است که مردم احتمالا باید احترام. نمی شاش کردن مردم. ما سعی می کنیم به استناد افرادی که مشغول به کار بر روی فن آوری افرادی که در آن آموزش دیده بود ، این همه بستگی دارد چگونه شما قرار دادن آن را و چگونه احترام شما که از مردم کار می کنند.

قبل از اینکه من به شما اجازه رفتن چه چیز دیگری شما دو کار در حال حاضر ؟

CJ: ما تحقیقات طولانی مدت در تلاش است تا این مدل سریع تر و ارزان تر تا اتاق خواب, تولید و 12 ساله می توان به ساخت موسیقی هیچ کس تا به حال فکر. البته در حال حاضر آن را بسیار گران قیمت و آن را به روز. ما در یک موقعیت ممتاز بودن قادر به انجام آن با اجاره سخت افزار.

به طور خاص آنچه ما انجام می دهند در حال حاضر وجود دارد را لیست 9,000 به علاوه گروههای که این مدل در حال حاضر پشتیبانی می کند. اما آنچه جالب است این گروههای نمی خواست به بخشی از این مجموعه. برخی از یادگیری ماشین محققان در توییتر بودند بحث اخلاق است. وجود دارد دو طرف از آن, البته, اما ما واقعا می خواهید برای رسیدن به آن دسته از گروههای موسیقی است. اگر کسی می داند این گروهها اگر شما این باند ما تولید موسیقی برای شما. ما می خواهیم به این تکنولوژی که ما فکر می کنم قادر است با نام تجاری جدید انواع خلاقیت و آن را به عقب به هنرمندان است.

بیشتر در DADABOTS: محققان آموزش یک شبکه عصبی با استفاده از یک Cannibal Corpse آلبوم

نگه دارید تا. عضویت در خبرنامه روزانه ما شوید.

tinyurlis.gdu.nuclck.ruulvis.netshrtco.de

Leave a reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>