Jika nilai digital hanyalah perkiraan, mengapa tidak kembali ke analog untuk AI?

18

Dorongan di balik transisi abad ke-20 dari sirkuit analog ke digital didorong oleh keinginan untuk akurasi yang lebih besar dan kebisingan yang lebih rendah. Sekarang kami sedang mengembangkan perangkat lunak di mana hasil perkiraan dan kebisingan memiliki nilai positif.

Dalam jaringan buatan, kami menggunakan gradien (Jacobian) atau model tingkat kedua (Hessian) untuk memperkirakan langkah selanjutnya dalam algoritma konvergen dan menentukan tingkat ketidakakuratan dan keraguan yang dapat diterima. ¹
Dalam strategi konvergensi, kami sengaja menambahkan noise dengan menyuntikkan gangguan acak atau pseudo acak untuk meningkatkan keandalan dengan melompati minima lokal pada permukaan optimisasi selama konvergensi. ²

Apa yang kami terima dan sengaja perkenalkan dalam sistem AI saat ini adalah hal yang sama yang mendorong elektronik ke sirkuit digital.

Mengapa tidak kembali ke sirkuit analog untuk jaring saraf dan menerapkannya dengan matriks penguat operasional, bukan matriks elemen pemrosesan sinyal digital?

Nilai-nilai parameter pembelajaran jaringan buatan dapat dipertahankan dengan menggunakan kapasitor terintegrasi yang dibebankan melalui konverter D-ke-A sedemikian rupa sehingga negara yang dipelajari dapat memperoleh manfaat dari keakuratan dan kenyamanan digital, sementara propagasi ke depan mendapat manfaat dari keunggulan analog.

Kecepatan lebih tinggi ³
Pesanan transistor dengan magnitudo lebih sedikit mewakili sel jaringan
Kebisingan termal alami ⁴

Artikel akademik atau pencarian paten untuk jaringan buatan analog mengungkapkan banyak pekerjaan selama empat puluh tahun terakhir, dan tren penelitian telah dipertahankan. Sirkuit analog komputasi dikembangkan dengan baik dan memberikan dasar untuk susunan saraf.

Dapatkah obsesi saat ini dengan komputasi digital mengaburkan pandangan umum tentang opsi arsitektur AI?

Apakah analog hybrid arsitektur unggul untuk jaringan buatan?

Catatan kaki

[1] Kerangka Pembelajaran PAC (mungkin kira-kira benar) mengaitkan kesalahan yang dapat diterima $\epsilon$ dan keraguan yang dapat diterima $\delta$ dengan ukuran sampel yang diperlukan untuk pembelajaran untuk jenis model tertentu. (Perhatikan bahwa $1 - \epsilon$ mewakili keakuratan dan $1 - \delta$ mewakili keyakinan dalam kerangka kerja ini.)

[2] Keturunan gradien stokastik diperlihatkan, ketika strategi dan parameter hiper yang tepat digunakan, untuk bertemu lebih cepat selama pembelajaran dan menjadi praktik terbaik dalam aplikasi jaringan buatan dunia nyata tipikal.

[3] Prosesor Intel Core i9-7960X berjalan pada kecepatan turbo 4,2 GHz sedangkan penyiaran satelit satelite standar adalah 41 GHz.

[4] Kebisingan termal dapat diperoleh pada silikon dengan memperkuat dan menyaring kebocoran elektron melintasi dioda zener bias balik pada titik longsorannya. Sumber fenomena kuantum adalah derau termal Johnson-Nyquist. Sanguinetti et. Al. negara dalam 'Generasi Nomor Acak Acak pada Ponsel' (2014), "Sebuah detektor dapat dimodelkan sebagai saluran lossy dengan probabilitas transmisi η diikuti oleh konverter foton-ke-elektron dengan efisiensi unit ... distribusi yang diukur akan menjadi kombinasi dari ketidakpastian kuantum dan kebisingan teknis, "dan ada karya JTWPA CalTech. Kedua hal ini dapat menjadi standar untuk menghasilkan kebisingan kuantum yang benar-benar tidak deterministik dalam sirkuit terintegrasi.

Referensi

— FauChristian
sumber

1

Saya berpendapat bahwa Anda tertarik pada sesuatu. Ada beberapa upaya untuk memasukkan AI ke dalam chip analog (saya pikir Apple mungkin akan melakukan sesuatu dengan iphone). Saya tidak yakin berapa banyak penelitian yang telah dilakukan tetapi saya yakin Anda dapat menemukan kertas putih di suatu tempat. Pasti layak untuk diteliti. Prediksi saya adalah bahwa tidak lama lagi mungkin ada chip AI yang dapat diprogram yang memiliki sejumlah input dan output (agak mirip register bus).

— Zakk Diaz

Ini bukan jawaban lengkap, tapi saya kira masalah utamanya adalah biaya. Sirkuit cetak sangat murah pada skala, dan masih cukup mahal dalam jumlah kecil. GPU diskrit sudah diproduksi massal, dan bekerja "cukup baik". Chip analog biasanya hanya dapat melakukan satu tugas dengan baik, dan model yang disukai berubah dengan cepat. Chip diskrit dapat diprogram untuk melakukan banyak hal berbeda. Jika kita menemukan topologi "terbaik" untuk JST, mungkin masuk akal untuk membuat chip analog lagi.

— John Doucette

1

Wow. Hari pertama saya di situs ini dan saya menemukan seseorang yang berbagi pemikiran dengan saya. :-D

6

Saya pikir, ada berbagai alasan. Pertama-tama: Fleksibilitas. Dengan CPU dan GPU modern Anda dapat membangun hampir setiap model AI yang Anda inginkan dan dalam setiap ukuran dan kompleksitas yang Anda inginkan. Bagaimana Anda bisa yakin bahwa model yang Anda gunakan saat ini masih cocok dalam beberapa tahun? Mungkin akan ada terobosan besar dalam NN dalam beberapa tahun ke depan? Mungkin beberapa ilmuwan menemukan bahwa ada cara yang lebih baik untuk mengembangkan AI dibandingkan dengan NNs, algoritma genetika dll. Chip normal dapat menangani semuanya, dan mereka dapat mengatasinya dengan cukup baik. Tetapi jika Anda ingin mengoptimalkannya dan tidak memiliki kekhawatiran tentang uang, Anda dapat mengembangkan arsitektur khusus (ini sudah dilakukan oleh perusahaan yang berbeda, yang memberikan dorongan kecepatan utama pada tugas-tugas tertentu).

Alasan nomor dua: Produksi massal. Maksud saya, perusahaan pada akhirnya dapat menghasilkan komponen AI analog yang sangat terintegrasi (katakanlah, misalnya chip NN). Tetapi itu akan menjadi investasi yang lebih besar. Agak tidak jelas apakah unit yang cukup fleksibel untuk menjadi alternatif perangkat keras AI yang serius, dapat dengan mudah diproduksi dalam produksi massal-nm yang dapat bersaing dengan CPU dan GPU. Terutama yang terakhir sangat dioptimalkan untuk melakukan perhitungan paralel masif. Dan, jika Anda menyaksikan pengembangan arsitektur yang mirip GPU (dapat melakukan beberapa hal, tetapi yang sangat baik) yang dioptimalkan secara aditif untuk pembelajaran maschine, Anda dapat melihat bahwa itu akan menjadi persaingan keras untuk unit analog.

Semua hal di atas tidak berarti bahwa tidak ada penelitian di bidang ini. Ada beberapa percobaan yang mencoba untuk mengarsipkan itu, tetapi mereka belum 'berbahaya' untuk arsitektur umum. Akhirnya, mereka akan datang di masa depan, ketika kita memahami AI dan kecerdasan secara umum lebih baik dan hanya mencoba untuk mengubah, tetapi saya agak skeptis tentang itu.

EDIT: Juga, sesuatu yang juga agak fleksibel: Anda dapat bereksperimen lebih baik dengan algoritma AI yang berjalan pada perangkat keras digital 'normal'. Misalnya, Anda dapat dengan mudah memeriksa NN di lokasi tertentu, Anda dapat dengan cepat mengubah data input atau memberikan yang alternatif, Anda benar-benar tidak terikat dengan apa pun. Dan karena kita masih belum tahu atau mengerti setiap model sepenuhnya, kapan harus menggunakannya, jika ada arsitektur yang lebih baik untuk tugas tertentu dll, tidak masuk akal untuk meletakkan sesuatu 'muda' dan 'eksperimental' dalam analog tetap Arsitektur.

— Ben
sumber

Meskipun skala ekonomi (volume manufaktur tipis) lebih disukai digital saat ini, tidak pada tahun 1980-an dan banyak yang tidak pada tahun 2040-an. Analog lebih murah dengan transistor. Ada 128.000 transistor dalam inti CUDA per utas dan hanya 40 transistor dalam op amp multipleks. Lebih penting lagi, pertanyaannya adalah teoretis - apa yang paling masuk akal dari segi teknologi - bukan apa yang ekonomis pada kondisi ekonomi VLSI saat ini. Jika ada pola yang dapat kita lihat dalam teknologi selama 100 tahun terakhir adalah bahwa hari ini yang normal adalah benda museum masa depan. - Membaca persyaratan karunia dapat membantu.

— FauChristian

Tapi bukankah itu agak mirip dalam skenario ini? Mengembangkan perangkat keras secara besar-besaran SEKARANG juga tidak masuk akal secara ekonomis, tetapi juga tidak teknologi. Kami hanya tidak cukup tahu.

— Ben

Jika, "kami," adalah keanggotaan AI Stack Exchange, ada kecenderungan kuat terhadap apa pun yang telah diterapkan di pustaka Python populer. Tetapi pemerintah dan perusahaan besar tampaknya tertarik pada jaringan spiking dan VLSI analog juga, USAF dan Intel misalnya. Ada dorongan dari laboratorium robotik ke analog, dan peneliti neuro-cogitive melihat JST sebagai tidak layak dari N. neuron nyata ribuan kali lebih kompleks daripada fungsi ReLU. Apa yang akan muncul sebagai dominan untuk aplikasi apa yang tidak jelas, tetapi itu tidak sama dengan tidak cukup tahu untuk membahas opsi.

— FauChristian

Anda mungkin telah membaca kata "murni" ke dalam pertanyaan. Tak satu pun dari penelitian yang sedang berlangsung menunjukkan analog murni, dengan cepat sebagai pengganti keyboard dan CRT bukan LCD. Semua proposal baru-baru ini dalam literatur dan dalam pengembangan VLSI aktif mengikuti paradigma yang dipahami dengan baik: Simulasikan analog yang dapat diprogram (tidak diperbaiki) yang dapat mempelajari program sebagaimana jaringan buatan digital dapat, kemudian wujudkan dalam silikon, tanpa menghilangkan kemampuan pemrograman atau kapasitas belajar. Sinyal waktu nyata mungkin analog, digital, atau keduanya, tetapi kontrol keseluruhan chip adalah digital, seperti dengan GPU atau DSP.

— FauChristian

Periode hadiah akan segera berakhir, dan apakah pembelajaran analog masuk akal karena dapat memanfaatkan kebisingan kuantum yang tersedia belum ditangani dalam jawaban ini. Prediksi tidak ditunjukkan oleh pertanyaan. Lebih jauh lagi, anggaran besar-besaran yang tampaknya ditargetkan pada perhitungan analog dari perceptron, konvolusi, dan jaringan spiking mungkin sangat baik berlaku, tetapi hanya jika kelayakan jangka panjang rasional. Demikian pertanyaannya.

— FauChristian

6

Jawaban cepat

Ketika Intel mengakuisisi Nirvana, mereka menunjukkan keyakinan mereka bahwa VLSI analog memiliki tempatnya dalam chip neuromorfik dalam waktu dekat ^{1, 2, 3} .

Apakah itu karena kemampuan untuk lebih mudah mengeksploitasi kebisingan kuantum alami di sirkuit analog belum dipublikasikan. Ini lebih mungkin karena jumlah dan kompleksitas fungsi aktivasi paralel yang dapat dimasukkan ke dalam chip VLSI tunggal. Analog memiliki urutan keunggulan lebih besar dari digital dalam hal itu.

Tampaknya bermanfaat bagi anggota AI Stack Exchange untuk mempercepat evolusi teknologi yang sangat terindikasi ini.

Tren Penting dan Non-tren dalam AI

Untuk mendekati pertanyaan ini secara ilmiah, yang terbaik adalah membandingkan teori sinyal analog dan digital tanpa bias tren.

Penggemar kecerdasan buatan dapat menemukan banyak di web tentang pembelajaran mendalam, ekstraksi fitur, pengenalan gambar, dan perpustakaan perangkat lunak untuk mengunduh dan segera mulai bereksperimen. Ini adalah cara yang paling membuat mereka basah dengan teknologi, tetapi pengenalan jalur cepat ke AI juga memiliki sisi buruk.

Ketika dasar-dasar teoritis dari penyebaran awal yang sukses dari AI yang menghadapi konsumen tidak dipahami, asumsi membentuk konflik dengan dasar-dasar tersebut. Opsi penting, seperti neuron buatan analog, jaringan berduri, dan umpan balik waktu nyata, diabaikan. Peningkatan bentuk, kemampuan, dan keandalan dikompromikan.

Antusiasme dalam pengembangan teknologi harus selalu dilunakkan dengan setidaknya pemikiran rasional yang setara.

Konvergensi dan Stabilitas

Dalam sistem di mana akurasi dan stabilitas dicapai melalui umpan balik, nilai sinyal analog dan digital selalu merupakan perkiraan belaka.

Nilai digital dalam algoritma konvergen, atau, lebih tepatnya, strategi yang dirancang untuk konvergen
Nilai sinyal analog dalam sirkuit penguat operasional yang stabil

Memahami paralel antara konvergensi melalui koreksi kesalahan dalam algoritma digital dan stabilitas yang dicapai melalui umpan balik dalam instrumentasi analog adalah penting dalam memikirkan pertanyaan ini. Ini adalah paralel menggunakan jargon kontemporer, dengan digital di sebelah kiri dan analog di sebelah kanan.

┌────────────────────────────────────────────── ─────────────┐
│ * Jaring Buatan Digital * │ * Jaring Buatan Analog * │
├────────────────────────────────────────────── ─────────────┤
│ Maju ke depan │ Jalur sinyal primer │
├────────────────────────────────────────────── ─────────────┤
│ Fungsi kesalahan │ Fungsi kesalahan │
├────────────────────────────────────────────── ─────────────┤
│ Konvergen │ Stabil │
├────────────────────────────────────────────── ─────────────┤
│ Saturasi gradien │ Saturasi pada input │
├────────────────────────────────────────────── ─────────────┤
│ Fungsi aktivasi │ Teruskan fungsi transfer │
└────────────────────────────────────────────── ─────────────┘

Popularitas Sirkuit Digital

Faktor utama meningkatnya popularitas sirkuit digital adalah penahanan kebisingan. Sirkuit digital VLSI saat ini memiliki waktu rata-rata yang lama untuk mengalami kegagalan (waktu rata-rata di antara instance ketika nilai bit salah ditemui).

Penghapusan kebisingan secara virtual memberi sirkuit digital keunggulan signifikan dibandingkan sirkuit analog untuk pengukuran, kontrol PID, perhitungan, dan aplikasi lainnya. Dengan sirkuit digital, seseorang dapat mengukur akurasi hingga lima digit desimal, kontrol dengan presisi luar biasa, dan menghitung π hingga seribu digit desimal akurasi, berulang dan andal.

Itu terutama aeronautika, pertahanan, balistik, dan anggaran penanggulangan yang meningkatkan permintaan manufaktur untuk mencapai skala ekonomi dalam pembuatan sirkuit digital. Permintaan resolusi layar dan kecepatan rendering mendorong penggunaan GPU sebagai prosesor sinyal digital sekarang.

Apakah sebagian besar kekuatan ekonomi ini menyebabkan pilihan desain terbaik? Apakah jaringan buatan berbasis digital adalah penggunaan terbaik real estat VLSI yang berharga? Itulah tantangan dari pertanyaan ini, dan ini pertanyaan yang bagus.

Realitas Kompleksitas IC

Seperti disebutkan dalam komentar, dibutuhkan puluhan ribu transistor untuk mengimplementasikan dalam silikon sebuah neuron jaringan buatan yang independen dan dapat digunakan kembali. Ini sebagian besar karena multiplikasi vektor-matriks yang mengarah ke setiap lapisan aktivasi. Hanya diperlukan beberapa lusin transistor per neuron buatan untuk mengimplementasikan perkalian vektor-matriks dan susunan lapisan dari penguat operasional. Amplifier operasional dapat dirancang untuk melakukan fungsi-fungsi seperti langkah biner, sigmoid, soft plus, ELU, dan ISRLU.

Sinyal Digital Kebisingan dari Pembulatan

Pensinyalan digital tidak bebas dari noise karena sebagian besar sinyal digital dibulatkan dan karenanya perkiraan. Kejenuhan sinyal dalam propagasi balik muncul pertama kali sebagai gangguan digital yang dihasilkan dari pendekatan ini. Saturasi lebih lanjut terjadi ketika sinyal selalu dibulatkan ke representasi biner yang sama.

$v$ $e$ $k$ $n$ $N$

$v = \sum_{n = 0}^{N} 1_n \, 2^{\, k + e + N - n}$

Pemrogram terkadang menghadapi efek pembulatan dalam angka floating point IEEE presisi ganda atau tunggal ketika jawaban yang diharapkan 0,2 muncul sebagai 0,20000000000001. Seperlima tidak dapat direpresentasikan dengan akurasi sempurna sebagai angka biner karena 5 bukan merupakan faktor 2.

Science Over Hype Media dan Tren Populer

$E = mc^2$

Dalam pembelajaran mesin seperti halnya banyak produk teknologi, ada empat metrik kualitas utama.

Efisiensi (yang mendorong kecepatan dan penghematan penggunaan)
Keandalan
Ketepatan
Comprehensibility (yang mendorong rawatan)

Terkadang, tetapi tidak selalu, pencapaian satu kompromi yang lain, dalam hal ini keseimbangan harus dicapai. Gradient descent adalah strategi konvergensi yang dapat diwujudkan dalam algoritme digital yang dengan baik menyeimbangkan keempatnya, itulah sebabnya itu adalah strategi dominan dalam pelatihan multi-layer perceptron dan di banyak jaringan dalam.

Keempat hal itu penting bagi pekerjaan cybernetics awal Norbert Wiener sebelum sirkuit digital pertama di Bell Labs atau flip flop pertama direalisasikan dengan tabung vakum. Istilah sibernetika berasal dari bahasa Yunani κυβερνήτης (dilafalkan kyvernítis ) yang berarti pengemudi, di mana kemudi dan layar harus mengkompensasi angin dan arus yang terus berubah dan kapal yang diperlukan untuk berkumpul di pelabuhan atau pelabuhan yang dimaksud.

Tren yang didorong oleh pertanyaan ini mungkin melingkupi gagasan apakah VLSI dapat dicapai untuk mencapai skala ekonomis untuk jaringan analog, tetapi kriteria yang diberikan oleh penulisnya adalah untuk menghindari pandangan yang didorong oleh tren. Bahkan jika itu tidak terjadi, seperti yang disebutkan di atas, transistor jauh lebih sedikit diperlukan untuk menghasilkan lapisan jaringan buatan dengan sirkuit analog daripada dengan digital. Untuk alasan itu, sah untuk menjawab pertanyaan dengan asumsi bahwa VLSI analog sangat layak dengan biaya yang masuk akal jika perhatian diarahkan untuk mencapainya.

Desain Jaringan Buatan Analog

Jaring buatan analog sedang diselidiki di seluruh dunia, termasuk usaha patungan IBM / MIT, Intel Nirvana, Google, Angkatan Udara AS pada awal 1992 ⁵ , Tesla, dan banyak lainnya, beberapa diindikasikan dalam komentar dan tambahan ini. pertanyaan.

Ketertarikan pada analog untuk jaringan buatan berkaitan dengan jumlah fungsi aktivasi paralel yang terlibat dalam pembelajaran dapat ditampung dalam satu milimeter persegi dari real estate chip VLSI. Itu sangat tergantung pada berapa banyak transistor yang diperlukan. Matriks atenuasi (matriks parameter pembelajaran) ⁴ membutuhkan multiplikasi vektor-matriks, yang membutuhkan sejumlah besar transistor dan dengan demikian merupakan bagian penting dari real estat VLSI.

Harus ada lima komponen fungsional independen dalam jaringan perceptron multilayer dasar jika harus tersedia untuk pelatihan paralel penuh.

Penggandaan vektor-matriks yang menentukan amplitudo propagasi maju antara fungsi aktivasi setiap lapisan
Retensi parameter
Fungsi aktivasi untuk setiap lapisan
Retensi output lapisan aktivasi untuk diterapkan dalam propagasi balik
Turunan dari fungsi aktivasi untuk setiap lapisan

Dalam sirkuit analog, dengan paralelisme yang lebih besar yang melekat dalam metode transmisi sinyal, 2 dan 4 mungkin tidak diperlukan. Teori umpan balik dan analisis harmonik akan diterapkan pada desain sirkuit, menggunakan simulator seperti Spice.

$c_p$ $c(\int r)$ $r(t, c)$ $t$ $i$ $I$ $w_i$ $\tau_p$ $\tau_a$ $\tau_d$

$c = c_p \; c(\int r(t, c) \, dt) \; \Big( \sum_{i = 0}^{I - 2} \, (\tau_p w_i w_{i-1} + \tau_a w_i + \tau_d w_i) + \tau_a w_{I-1} + \tau_d w_{I-1} \Big)$

Untuk nilai-nilai umum dari rangkaian ini dalam sirkuit terintegrasi analog saat ini, kami memiliki biaya untuk chip VLSI analog yang konvergen dari waktu ke waktu dengan nilai setidaknya tiga urutan besarnya di bawah chip digital dengan paralelisme pelatihan yang setara.

Langsung Mengatasi Injeksi Kebisingan

Pertanyaannya menyatakan, "Kami menggunakan gradien (Jacobian) atau model tingkat kedua (Hessian) untuk memperkirakan langkah selanjutnya dalam algoritma konvergen dan sengaja menambahkan noise [atau] menyuntikkan gangguan acak semu untuk meningkatkan keandalan konvergensi dengan melompati sumur lokal dalam kesalahan permukaan selama konvergensi. "

Alasan pseudo random noise disuntikkan ke dalam algoritma konvergensi selama pelatihan dan secara real time jaringan re-entrant (seperti jaringan penguatan) adalah karena keberadaan minima lokal di permukaan disparitas (kesalahan) yang bukan global minimum dari itu. permukaan. Minimum global adalah keadaan terlatih optimal dari jaringan buatan. Minima lokal mungkin jauh dari optimal.

Permukaan ini menggambarkan fungsi kesalahan dari parameter (dua dalam kasus ^{6 yang} sangat disederhanakan ini ) dan masalah minimum lokal yang menyembunyikan keberadaan minimum global. Titik-titik rendah di permukaan mewakili minimum pada titik-titik kritis daerah lokal dari konvergensi pelatihan optimal. ^7,8

Fungsi kesalahan hanyalah ukuran perbedaan antara status jaringan saat ini selama pelatihan dan status jaringan yang diinginkan. Selama pelatihan jaringan buatan, tujuannya adalah untuk menemukan minimum global perbedaan ini. Permukaan seperti itu ada apakah data sampel diberi label atau tidak berlabel dan apakah kriteria penyelesaian pelatihan adalah internal atau eksternal untuk jaringan buatan.

Jika laju pembelajaran kecil dan keadaan awal adalah pada asal ruang parameter, konvergensi, menggunakan gradient descent, akan menyatu dengan sumur paling kiri, yang merupakan minimum lokal, bukan minimum global di sebelah kanan.

Bahkan jika para ahli menginisialisasi jaringan buatan untuk belajar cukup pintar untuk memilih titik tengah antara dua minimum, gradien pada titik itu masih miring ke minimum tangan kiri, dan konvergensi akan tiba pada keadaan pelatihan yang tidak optimal. Jika optimalitas pelatihan sangat penting, yang sering terjadi, pelatihan akan gagal mencapai hasil kualitas produksi.

Salah satu solusi yang digunakan adalah menambahkan entropi ke proses konvergensi, yang seringkali hanya injeksi output yang dilemahkan dari generator bilangan acak semu. Solusi lain yang lebih jarang digunakan adalah melakukan percabangan proses pelatihan dan mencoba injeksi sejumlah besar entropi dalam proses konvergen kedua sehingga ada pencarian konservatif dan pencarian agak liar berjalan secara paralel.

Memang benar bahwa noise kuantum dalam sirkuit analog yang sangat kecil memiliki keseragaman yang lebih besar terhadap spektrum sinyal dari entropinya daripada generator pseudo-acak digital dan lebih sedikit transistor yang diperlukan untuk mencapai noise kualitas yang lebih tinggi. Apakah tantangan untuk melakukannya dalam implementasi VLSI telah diatasi belum diungkapkan oleh laboratorium penelitian yang tertanam dalam pemerintah dan perusahaan.

Akankah elemen stokastik seperti itu digunakan untuk menyuntikkan jumlah acak yang diukur untuk meningkatkan kecepatan dan keandalan pelatihan yang cukup kebal terhadap kebisingan eksternal selama pelatihan?
Apakah mereka akan cukup terlindung dari cross-talk internal?
Akankah muncul permintaan yang akan menurunkan biaya pembuatan VLSI secara memadai untuk mencapai titik penggunaan yang lebih besar di luar perusahaan riset yang didanai tinggi?

Ketiga tantangan itu masuk akal. Yang pasti dan juga sangat menarik adalah bagaimana perancang dan produsen memfasilitasi kontrol digital dari jalur sinyal analog dan fungsi aktivasi untuk mencapai pelatihan kecepatan tinggi.

Catatan kaki

[1] https://ieeexplore.ieee.org/abstract/document/8401400/

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] Atenuasi mengacu pada penggandaan output sinyal dari satu aktuasi dengan perameter yang dapat dilatih untuk memberikan tambahan untuk dijumlahkan dengan yang lain untuk input ke aktivasi lapisan berikutnya. Meskipun ini adalah istilah fisika, sering digunakan dalam teknik elektro dan itu adalah istilah yang tepat untuk menggambarkan fungsi perkalian vektor-matriks yang mencapai apa, dalam lingkaran yang kurang terdidik, disebut membobot input lapisan.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf

[6] Ada lebih dari dua parameter dalam jaringan buatan, tetapi hanya dua yang digambarkan dalam ilustrasi ini karena plot hanya dapat dipahami dalam 3-D dan kami membutuhkan satu dari tiga dimensi untuk nilai fungsi kesalahan.

[7] Definisi permukaan: $z = (x-2)^2 + (y-2)^2 + 60 - \frac {40} {\sqrt{1 + (y - 1.1)^2 + (x - 0.9)^2}} - \frac {40} {(1 + {((y - 2.2)^2 + (x - 3.1)^2)}^4)}$

[8] Perintah gnuplot terkait:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

— Douglas Daseeco
sumber

4

Instrumentasi Digital Sel Analog

Salah satu tantangan utama dalam jaringan buatan analog adalah bahwa instrumentasi jaringan akan paling praktis jika digital. Setiap implementasi VLSI dari perceptrons analog, konvolusi, atau jaringan spiking mungkin perlu memiliki komponen digital dalam pengaturan hibrida untuk beberapa fungsi.

Indikator kesehatan
Indikator kesalahan
Arsip dan pengambilan parameter yang dipelajari ¹
Kontrol sistem secara keseluruhan
Pengaturan hyper-parameter
Statistik operasional
Introspeksi untuk pengembangan dan debugging
Break point
Kemampuan audit

Ini berarti bahwa realisasi jaringan pembelajaran analog buatan untuk keperluan umum akan membutuhkan konversi A-ke-D dan D-ke-A. ² Tantangan desain VLSI kemudian menjadi menghindari penumpukan transistor dari pengenalan sejumlah besar blok konversi. Seperti akan mengalahkan keuntungan kepadatan realisasi analog propagasi maju dan mundur.

Solusi yang mungkin adalah menggunakan matriks pengunci untuk mendistribusikan sinyal dari konverter D-ke-A ke kapasitor dan matriks switching kebocoran rendah untuk memilih nilai mana yang akan dibaca oleh konverter A-ke-D. Ini harus dilakukan tanpa memasukkan gangguan digital ke jalur analog dan tanpa merendahkan biaya yang tersimpan atau kehilangan keakuratan pengisian daya.

Seberapa signifikan jumlah transistor tambahan dan rute dalam keluar dari rangkaian jaringan primer akan hanya dapat ditemukan dengan menggunakan proses desain VLSI.

Kontribusi Sumber Terbuka Penting

University of Massachusetts memperkenalkan open source BindsNet ^3,4 pada Februari 2018. Ini mensimulasikan jaringan spiking analog dengan perangkat lunak dan perangkat keras digital dan memanfaatkan akselerasi GPU melalui PyTorch.

Ini memfasilitasi eksperimen saat ini ke dalam spiking desain jaringan dan strategi. Keberhasilan menggunakan simulasi, jika cukup signifikan, kemungkinan akan mengarah pada desain VLSI yang unggul.

Catatan kaki

[1] Dalam sistem pembelajaran praktis apa pun, parameter yang dipelajari harus diekstraksi dari implementasi VLSI, disimpan dalam database, dan tersedia untuk sejumlah pengembangan, pengujian, UAT, atau sistem produksi untuk penyebaran, analisis penyebab cacat, penskalaan, dan pemulihan bencana. Menyimpan dan memuat harus menjadi fitur dasar dari jaringan buatan analog hybrid VLSI, bahkan di antara zaman selama pelatihan dan selama penggunaan lapangan yang sebenarnya.

[2] Seseorang tidak dapat menahan keadaan terpelajar dari jaringan buatan dalam kapasitor tanpa batas waktu. Meskipun kapasitor telah menjadi komponen pasif yang dominan untuk rangkaian analog yang dirancang dalam proses CMOS standar, mereka tidak dapat memiliki banyak kapasitas dan kebocoran bukanlah nol. Waktu paruh dari sirkuit penyimpanan kapasitif dan keakuratan nilai parameter yang diperlukan akan menentukan laju siklus pembaruan ulang yang dibaca dan bersyarat.

[3] Repositori open source BindsNet

[4] BindsNET [paper]: Pustaka neural networks yang berorientasi pada pembelajaran mesin dengan Python untuk publikasi Harvard U dari abstrak dari makalah BindsNet.

— FauChristian
sumber

4

Saya terkejut tidak ada yang menyebutkan beberapa arah penelitian khusus di bidang AI analog. Dan juga untuk memperjelas Kecerdasan Buatan tidak persis sama dengan Pembelajaran Mesin seperti jawaban ini disarankan . Kemajuan terbaru dalam perhitungan analog hanya di bidang Machine Learning.

CMOS analog:

Pertama mari kita bicara tentang implementasi analog neuron yang paling awal. Dr.Giacomo Indiveri, dkk telah menjadi beberapa perintis di bidang ini. Meskipun dengan logika CMOS Anda dapat mendesain sparing Neural Nets dengan STDP (Spike Time Dependent Plastisitas), sulit untuk menggunakan algoritma Machine Learning. Otak manusia belum sepenuhnya dipahami, terutama bagaimana ia mengomunikasikan informasi yang kompleks dengan paku. Jaringan berbasis lonjakan bagus dalam melakukan pengenalan gambar yang relatif kecil dan tugas dengan kompleksitas rendah (Sebagian besar makalah tampaknya lebih peduli tentang peningkatan kinerja daripada berlaku untuk tugas yang sangat kompleks). Karena banyaknya transistor yang tersedia, kami mungkin dapat memanfaatkannya dalam tugas-tugas kompleks.

Contoh terbaik adalah Google menggunakan ide presisi rendah di TPU dan kompensasi presisi, dengan menggunakan sejumlah besar unit pemrosesan yang menyebabkan semacam pertukaran antara waktu, presisi, dan area. Ini dapat dianalogikan dengan sejumlah besar transistor dalam prosesor walaupun dengan presisi rendah. ( Pandangan mendalam pada Tensor Processing Unit (TPU) pertama Google )

CATATAN: Beberapa orang mungkin berpendapat teknologi CMOS termasuk dalam domain digital, tetapi karena kami tidak secara khusus menggunakan CMOS di sini untuk melakukan operasi digital apa pun, saya suka menganggapnya sebagai analog.

Tugas berbasis lonjakan tampaknya cukup baik untuk jaringan Winner Take All (seperti Self Organizing Maps ), jadi itu adalah cara umum untuk mengimplementasikan Algoritma Pembelajaran Mesin dalam chip VLSI.

Jaringan berbasis lonjakan tidak memiliki memori yang ideal, Anda tidak dapat memiliki bobot presisi tinggi. Mereka telah mengusulkan untuk menerapkan bobot biologis atau sinapsis atau memori menggunakan kapasitor, tetapi tampaknya itu menghadapi masalah yang mirip dengan chip silikon normal, seperti kebocoran muatan dan juga dari non-idealitas berbasis silikon lainnya dan dari apa yang saya pahami, mereka juga dapat memodelkan bobot terbatas ( seperti -1, 0, 1).

Perhitungan Digital:

Di sinilah, datang perhitungan digital. Tugas-tugas yang membutuhkan jumlah representasi titik apung yang tinggi tidak dapat dengan mudah dilaksanakan oleh paku, karena kita belum mengetahui atau bahkan dapat sepenuhnya meniru aspek biofisik atau aspek neuron yang sebenarnya dalam hal ini. Komputasi digital hanya membantu dalam menyampaikan lebih banyak informasi juga dengan ketepatan sebanyak yang kita suka (jika kita mendesain CPU seperti itu). Meskipun kemacetan adalah kelemahan yang diketahui dari arsitektur Von Neumann untuk komputasi digital, itu tidak menjadi masalah seperti representasi informasi melalui paku. Paku selalu memiliki besaran tetap, satu-satunya cara ia mungkin menyampaikan informasi adalah dengan frekuensi dan tanda (rangsang atau penghambatan). Kecepatan clock juga cukup tinggi di komputer modern.

Memristors: Arah baru

Di sinilah penemuan terbaru, Memristor . Sejauh ini, ini merupakan perangkat analog yang paling menjanjikan dalam Pembelajaran Mesin. Memristor adalah konsep yang sangat baru yang diprediksi pada tahun 70-an dan diproduksi hanya pada tahun 2008. Pada dasarnya, mereka adalah RAM RRAM atau Resisitive. Dalam hal ini resistensi dari Memory Resistor atau Memristor secara langsung berkaitan dengan sejarah masa lalu saat ini yang sangat mirip dengan model biofisik neuron. Mereka juga dapat dilatih dengan mudah menggunakan array palang (pada dasarnya matriks kontak listrik) dari memristor (array palang akan mewakili matriks bobot, tegangan diterapkan sepanjang baris atau sepanjang kolom menentukan propagasi maju atau propagasi mundur).

Dengan demikian Memristor memberikan putaran analog nyata ke algoritma Machine Learning. Sayangnya, karena kedatangannya baru-baru ini ada banyak masalah yang belum diselesaikan.

Memristor dapat menurunkan cukup cepat, yaitu mereka memiliki siklus pelatihan terbatas.
Memristor menimbulkan banyak kebisingan, yang tampaknya tidak membantu dalam penyebab regularisasi seperti yang mungkin dipikirkan oleh insinyur ML.
Elemen eksotis diperlukan untuk membuatnya ( $TiO_2$ dan $HfO_2$ ) pengguna untuk Memristors di kalangan akademis sangat terbatas. Tetapi beberapa laboratorium yang mengerjakan bidang ini adalah:

Laboratorium Penelitian Nano-elektronik, Universitas Purdue

Bahan Elektrokimia, ETH Zurich

Proyek Otak Manusia

Institut MARCS untuk Otak, Perilaku dan Pengembangan

Photonics Neuromorfik:

Baru-baru ini, ada minat dalam bidang fotonics Neuromorphic. Berikut ini adalah artikel pendek tentang hal yang sama. Saya tidak terbiasa dengan cara kerja internal yang sama, tetapi AFAIK melibatkan transmisi informasi dalam bentuk optik dalam chip pemrosesan itu sendiri. Ini mengarah pada beberapa keunggulan dibandingkan sirkuit analog atau digital normal:

Pemrosesan informasi yang lebih cepat.
Kepadatan informasi lebih tinggi.
Kesetiaan data yang lebih baik karena kerugian yang sangat sedikit.

— Duta
sumber

Catatan: Beberapa pengamatan saya berdasarkan fakta sementara beberapa murni dari ingatan, jadi saya mungkin salah (karena saya pemula dalam bidang ini). Jangan ragu untuk menunjukkan kesalahan.

— DuttaA

2

Saya percaya bahwa kebanyakan orang telah menjawab pertanyaan itu dengan sungguh-sungguh dengan cara yang sangat informatif. Saya hanya ingin mengatakan bahwa kami menggunakan sirkuit digital secara umum karena itulah teknologi yang ada dan bahwa sirkuit analog tampaknya sangat menjanjikan.

Namun, pada saat ini, ide ini tidak berkembang dengan baik meskipun jumlah penelitian yang dilakukan dalam beberapa tahun terakhir. Sejauh ini belum ada perusahaan yang mencoba menerapkan ide tersebut di tingkat komersial di mana mereka membuat chip tersebut untuk digunakan di luar laboratorium mereka.

Selain itu, ide ini terasa seperti pendekatan baru dan memiliki potensi besar.

Tetapi, dengan kurangnya pemahaman kita tentang bagaimana beberapa model bekerja, beberapa hanya tidak memiliki masalah; bagaimana jaringan saraf benar - benar menyelesaikan masalah yang begitu kompleks dan banyak hal lainnya. Oleh karena itu, masih merupakan teknologi yang cukup jauh untuk mencapai potensi penuhnya.

PS Saya masih pemula di bidang ini dan berpikir bahwa pendapat saya tidak masuk hitungan, jika saya berlebihan di mana saja atau gagal memberikan jawaban yang diharapkan saat itu, saya dengan tulus menyesalinya.

— pengguna79161
sumber

Jawaban ini menunjukkan pikiran. Memang benar juga bahwa teknologi yang ada tidak menunjukkan banyak kemajuan dengan VLSI analog yang dapat diprogram sebagai digital. ... Apa yang tidak diketahui adalah hasil R & D analog kontrol Angkatan Laut AS dan DARPA yang telah didanai cukup banyak selama beberapa dekade. Hanya dokumen awal yang telah dideklasifikasi. ICBM dan teknologi penanggulangan semua mungkin sirkuit intelijen analog dalam kisaran 100 GHz. Atau tidak. ... Tulisan Anda tidak berlebihan atau naif. Tentunya, dalam open source, teknologi ini baru mulai terlihat. Jawaban yang bagus. Jangan ragu untuk meninggalkannya apa adanya atau mengembangkannya lebih lanjut.

— FauChristian

2

Seseorang juga dapat mendekati pertanyaan dari aspek teori informasi:

Ada dua trade / off untuk dipilih:

Informasi analog yang dapat mewakili informasi dengan cara yang lebih tepat / spesifik, tetapi terbatas jumlahnya.

Informasi digital yang tidak sepenuhnya mewakili dunia nyata, tetapi dapat berisi informasi dalam jumlah yang tidak terbatas dalam beberapa bit. Contoh yang baik bisa berupa penambahan untuk loop:

i = 0
while True:
   print(i)
   i += 1

Yang mana yang lebih kuat?

— Aleksei Maide
sumber

Itu umumnya benar. Pikirkan tentang apa artinya belajar dalam konteks AI. Kami telah mensimulasikan berbagai jenis pembelajaran dalam mesin melalui sistem aturan dengan aturan meta, jaringan buatan, ekstensi ke rantai Markov, logika fuzzy dan berbagai teknik dan arsitektur lainnya. Ketika pembelajaran terjadi, ada semacam perilaku optimal yang berusaha diperoleh pembelajaran. Bagaimana sistem analog atau digital dapat menyatu atau melacak (dalam waktu nyata) dengan perilaku optimal itu, dan yang memiliki keunggulan jangka panjang?

— FauChristian

1

Hava Siegelmann

Pada tampilan pertama, komputasi analog lebih unggul daripada yang digital. Komputer kuantum lebih cepat daripada komputer Von-Neumann dan chip neuromorfik membutuhkan lebih sedikit energi daripada CPU Intel. Dari sudut pandang teori, banyak yang berbicara untuk komputer analog. Hava Siegelmann telah meneliti kemampuan Super-turing dari jaringan saraf, yang berarti bahwa komputer analog dapat meniru yang digital tetapi tidak sebaliknya. Jadi mengapa kita tidak menggunakan komputasi analog?

Stephen Wolfram

Alasannya ada hubungannya dengan sistem pendidikan. Matematika klasik yang diajarkan di sekolah adalah matematika analog. Ini didasarkan pada aturan slide, tabel logaritma dan pemikiran di sirkuit. Sebaliknya, berpikir dalam nilai-nilai diskrit dari suatu algoritma dan menggambarkan dunia dalam nol dan yang mendasar berbeda dan membawa kita ke jenis matematika baru. Stephen Wolfram telah menjelaskan, bahwa pemahaman tentang otomat seluler adalah langkah penting untuk menggambarkan alam semesta dan dia benar. Mengabaikan matematika analog dan lebih memilih bahasa komputer yang mampu adalah metode yang kuat dalam pendidikan. Membantu tidak hanya mengenal komputer tetapi juga semua hal lain seperti kedokteran, literatur, dan ekonomi. Sekalipun mesin analog lebih unggul secara teknis, kami lebih suka mesin Turing yang lambat tapi terpisah,

Mengajar matematika

Untuk memahami perbedaan antara komputasi digital dan analog, kita harus fokus pada matematika itu sendiri yang digunakan di sekolah. Jika idenya adalah untuk mendorong komputasi analog ke depan, jenis matematika yang sesuai dikelompokkan di sekitar bidang listrik, integrasi dan diferensiasi. Di sekolah ini diajarkan di bawah istilah payung "Analisis Matematika". Topik ini sangat penting di masa lalu, karena analisis membantu membangun jembatan, mesin, dan mobil. Dalam semua domain ini aljabar vektor untuk menggambarkan ruang geometrik digunakan.

Jika perhitungan analog begitu kuat, mengapa ada orang yang membutuhkan matematika digital? Ini ada hubungannya dengan algoritma. Apa yang tidak dimiliki planimeter dan penganalisis diferensial adalah kemampuan pemrograman. Tidak mungkin mendefinisikan algoritma dan bahasa buatan. Melihat sejarah matematika menunjukkan, bahwa algoritma-teori itu tidak terlalu umum di masa lalu. Dalam matematika modern dibahas di bawah istilah Kalkulus Lambda dan masalah terputus - putus .

Lucunya, pada tampilan pertama kalkulus Lamda tidak memiliki aplikasi praktis. Tidak diperlukan jika seseorang ingin menghitung luas jembatan. Teori algoritma adalah sekolah pemikiran untuk meningkatkan pemikiran kritis. Ini adalah filosofi yang dibutuhkan oleh manusia, bukan oleh mesin.

— Manuel Rodriguez
sumber

Senang bahwa Anda memberi Seigelmann menyebutkan. Paragraf kedua sulit diikuti secara logis. Tentu saja pendidikan adalah inti dari pertanyaan ini, dan pengurutan DNA dan pencitraan digital jelas meningkatkan pengobatan. Bisakah Anda menguraikan bagaimana sastra meningkat? Beberapa orang akan berpendapat bahwa komputasi digital telah memperburuk volatilitas ekonomi, tetapi lebih penting bagi persyaratan karunia, mengapa siapa pun lebih suka diskrit lambat daripada kontinu cepat tidak mengikuti pernyataan Wolfram. Tidak ada referensi untuk pernyataan itu juga. Bisakah Anda memberikan referensi dan memberikan logika yang hilang?

— FauChristian