3Blue1BrownJapan
3Blue1BrownJapan
  • 50
  • 8 321 308
GPT解説2 アテンションの仕組み (Attention, Transformer) | Chapter6, 深層学習
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。
チャンネル登録と高評価をよろしくお願いいたします。
日本語版Twitter
3B1BJP
元チャンネル(英語)
ua-cam.com/users/3blue1brown
元動画(英語)
ua-cam.com/video/eMlx5fFNoYc/v-deo.html&pp=ygUVYXR0ZW50aW9uIDNibHVlMWJyb3du
新チャンネルUfolium
ua-cam.com/video/nF7gFRebGTk/v-deo.html&pp=ygUHdWZvbGl1bQ%3D%3D
ua-cam.com/video/wrNCjIjIzuk/v-deo.html&pp=ygUHdWZvbGl1bQ%3D%3D
資料
Andrej Karpathy
ua-cam.com/video/kCc8FmEb1nY/v-deo.htmlsi=ja2COj-IOYR_gQvt
vcubingx
ua-cam.com/video/1il-s4mgNdI/v-deo.htmlsi=6v5eNjToNX999kW4
Anthropic
transformer-circuits.pub/2021/framework/index.html
www.gptandchill.ai/codingproblems
LLMの歴史 Brit Cruise
ua-cam.com/video/OFS90-FX6pg/v-deo.htmlsi=udNZoCAlpt8Odaoe
arxiv.org/pdf/1301.3781
訳注
「シングルヘッドのアテンション」と訳されている部分は、英語では"Single head of attention"、"Single-headed attention"、"single-head attention"などと表現されています。意味としては「アテンションのヘッド1つ分」という使い方もあれば、「シングルヘッド」という「ある種の特徴や仕様を表現する言葉」として使っている場合もあります。日本語訳では前者のように受け取れる部分でもいくつかは後者で訳していて、これはMulti-head Attentionとの対比をより明確にするためにこのように訳しています。
----------------------------------------
英語版翻訳元チャンネルの支援
www.patreon.com/3blue1brown
アニメーションはmanimで作られています
github.com/3b1b/manim
英語版公式ソーシャルメディア
Webサイト: www.3blue1brown.com
Twitter: 3Blue1Brown
Facebook: 3blue1brown
Reddit: www.reddit.com/r/3Blue1Brown
----------------------------------------
Music by Vincent Rubinetti
Download the music on Bandcamp:
vincerubinetti.bandcamp.com/album/the-music-of-3blue1brown
Stream the music on Spotify:
open.spotify.com/album/1dVyjwS8FBqXhRunaG5W5u
Переглядів: 27 259

Відео

GPTとは何か Transformerの視覚化 | Chapter 5, Deep Learning
Переглядів 114 тис.Місяць тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版Twitter 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/wjZofJX0v4M/v-deo.htmlsi=9YsuEzHATlhPtpOF Check out our new channel Ufolium ua-cam.com/video/wrNCjIjIzuk/v-deo.html&pp=ygUj5aSn57Wx6aCY6YG45oyZ44Gu5LuV57WE44G_IHVmb2xpdW0= Richard Turner's introduction is one of th...
なぜ正規分布どうしの畳み込みは正規分布なのか
Переглядів 29 тис.2 місяці тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 2 つの正規分布変数の合計を計算する視覚的なトリック 過去の関連動画 畳み込みの仕組み ua-cam.com/video/CHx6uHnWErY/v-deo.html 中心極限定理 ua-cam.com/video/XXsTu66VB-E/v-deo.html なぜ正規分布にπが現れるか ua-cam.com/video/lXLHPMJ-u5c/v-deo.html 畳み込み(連続の場合) ua-cam.com/video/x3iY5JYwnM4/v-deo.html 最近できた3B1BJPの中の人たちによる新たなチャンネルUfolium www.youtube.com/@Ufolium 日本語版X twitte...
畳み込み | 確率の美しい演算
Переглядів 35 тис.3 місяці тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 新チャンネル @Ufolium www.youtube.com/@Ufolium 畳み込みの動画(離散的な場合に注目し様々な例を見た前回の動画) ua-cam.com/video/CHx6uHnWErY/v-deo.html&pp=ygUM55Wz44G_6L6844G_ 中心極限定理の動画 ua-cam.com/video/XXsTu66VB-E/v-deo.html 日本語版Twitter 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/IaSGqQa5O-M/v-deo.htmlsi=3N...
なぜ正規分布に「π」が現れるか
Переглядів 97 тис.3 місяці тому
なぜ正規分布にπが現れるか。どこに円があるのか。e^(-x^2)がどこから来たのかと、どんな関係があるのか。 前回の中心極限定理の動画 ua-cam.com/video/XXsTu66VB-E/v-deo.html&pp=ygUS5Lit5b-D5qW16ZmQ5a6a55CG 訂正 13:55 分母は2πσ^2が正しいです 古典的な証明の動画やサイト vcubingx: ua-cam.com/video/9CgOthUUdw4/v-deo.htmlsi=Fa52Z0PXTkm74 f BriTheMathGuy: ua-cam.com/video/S79KPrIm_Gc/v-deo.htmlsi=7FwoWifTlmx1gXHq Dr. Alter's math library: idan-alter.github.io/2023/02/20/Gaussian-Integral.h...
中心極限定理とは何か? 【正規分布が現れるとき・確率】
Переглядів 152 тис.3 місяці тому
確率の最も重要な定理 ~ニュース~ 新チャンネル、Ufoliumを開設しました。数学に限らず幅広いトピックの動画を投稿する予定です。 ぜひ新着動画の半導体解説をご覧ください ua-cam.com/video/eRCui7QmRW0/v-deo.htmlsi=769tg4OrNGi_BtAP 確率密度についての過去の動画 3B1BJP 「確率0」は「不可能」ではない | 確率密度 ua-cam.com/video/edNiwyy1pmk/v-deo.htmlsi=NwSGKjZD7UHeJBJJ 畳み込みについての動画 ua-cam.com/video/CHx6uHnWErY/v-deo.html この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版X tw...
「確率0」は「不可能」ではない | 確率密度
Переглядів 65 тис.4 місяці тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 測度論関連資料(英語) terrytao.files.wordpress.com/2012/12/gsm-126-tao5-measure-book.pdf 日本語版Twitter 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/ZA4JkHKZM50/v-deo.htmlsi=g2qMbpV5l392hyyD 英語版翻訳元チャンネルの支援 www.patreon.com/3blue1brown アニメーションはmanimで作られています github.com/3b1b/manim 英語版公式ソ...
畳み込みの仕組み | Convolution
Переглядів 115 тис.5 місяців тому
確率から画像処理まで、離散畳み込みと高速フーリエ変換(FFT) 激ムズ数え上げパズルと驚きの解法 ua-cam.com/video/FR6_JK5thCY/v-deo.html フーリエ変換の解説動画 ua-cam.com/video/fGos3wrKeHY/v-deo.html 【注釈】 整数のかけ算のアルゴリズムについて、FFTの"straightforward"な適用はO(N * log(n) log(log(n)) )の実行時間になる。log(log(n))の項は小さいが、2019年になってHarvey and van der Hoevenがこの項を取り除くアルゴリズムを発見した。また、O(N^2)を、必要な計算量がN^2と共に大きくなると表現したが、厳密にはこれはTheta(N^2)が意味するところである。 O(N^2)は計算量が高々N^2の定数倍になるという意味で、特に、...
突然崩れるパターン | ボールウェイン積分
Переглядів 114 тис.5 місяців тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 次回の畳み込みについての動画 ua-cam.com/video/CHx6uHnWErY/v-deo.html このトピックについてのJohn Baezの記事 johncarlosbaez.wordpress.com/2018/09/20/patterns-that-eventually-fail/ Borwein, David; Borwein, Jonathan M. (2001), “Some remarkable properties of sinc and related integrals”, The Ramanujan Journal 5 (1): 73?89, doi:10.1023/A:10114...
誤差逆伝播と微積分 | Chapter 4, ニューラルネットワークの仕組み
Переглядів 23 тис.6 місяців тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版Twitter 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/tIeHLnjs5U8/v-deo.htmlsi=2GwvCeODLmxDYZP0 英語版翻訳元チャンネルの支援 www.patreon.com/3blue1brown アニメーションはmanimで作られています github.com/3b1b/manim 英語版公式ソーシャルメディア Webサイト: www.3blue1brown.com Twitter: 3Blue1Brown Facebook:...
誤差逆伝播法(バックプロパゲーション) | Chapter 3, ニューラルネットワークの仕組み
Переглядів 42 тис.6 місяців тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版Twitter 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/Ilg3gGewQ5U/v-deo.htmlsi=BcVKZ8GTjNPQ-ZF1 by CrowdFlower: 3b1b.co/crowdflower 英語版翻訳元チャンネルの支援 www.patreon.com/3blue1brown アニメーションはmanimで作られています github.com/3b1b/manim 英語版公式ソーシャルメディア Webサイト: www.3blue1brown.com Twitte...
Chapter 16 抽象ベクトル空間 | 線形代数のエッセンス
Переглядів 22 тис.7 місяців тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版X 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/TgKwz5Ikpc8/v-deo.htmlsi=SiHdi8urnjBblBJG 英語版翻訳元チャンネルの支援 www.patreon.com/3blue1brown アニメーションはmanimで作られています github.com/3b1b/manim 英語版公式ソーシャルメディア Webサイト: www.3blue1brown.com X: 3Blue1Brown Facebook: facebook.co...
Chapter 15 固有値の計算の小技 | 線形代数のエッセンス
Переглядів 14 тис.7 місяців тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 参考までに、ジングルの英語は "m plus or minus square root of m squared minus p!" (m±, mの2乗-pの平方根!)と言っています acapellascience ua-cam.com/users/acapellascience 日本語版X 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/e50Bj7jn9IQ/v-deo.htmlsi=S7c4erSFNi35PmwV 英語版翻訳元チャンネルの支援 www.patreon.com/3blue1...
Chapter 14 固有ベクトルと固有値 | 線形代数のエッセンス
Переглядів 28 тис.7 місяців тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版X 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/PFDu9oVAE-g/v-deo.htmlsi=HMd8yokqWWo2DM1p 英語版翻訳元チャンネルの支援 www.patreon.com/3blue1brown アニメーションはmanimで作られています github.com/3b1b/manim 英語版公式ソーシャルメディア Webサイト: www.3blue1brown.com X: 3Blue1Brown Facebook: facebook.co...
Chapter13 基底変換 | 線形代数のエッセンス
Переглядів 22 тис.8 місяців тому
この動画は3Blue1Brownの動画を東京大学の学生有志団体が翻訳・再編集し公式ライセンスのもと公開しているものです。 チャンネル登録と高評価をよろしくお願いいたします。 日本語版Twitter 3B1BJP 元チャンネル(英語) ua-cam.com/users/3blue1brown 元動画(英語) ua-cam.com/video/P2LTAUO1TdA/v-deo.htmlsi=1Q7PX9FbMFgSgLmI 英語版翻訳元チャンネルの支援 www.patreon.com/3blue1brown アニメーションはmanimで作られています github.com/3b1b/manim 英語版公式ソーシャルメディア Webサイト: www.3blue1brown.com Twitter: 3Blue1Brown Facebook:...
Chapter12 クラメルの公式 | 線形代数のエッセンス
Переглядів 22 тис.9 місяців тому
Chapter12 クラメルの公式 | 線形代数のエッセンス
深層学習の仕組み, 勾配降下 | Chapter 2, 深層学習(ディープラーニング)
Переглядів 83 тис.9 місяців тому
深層学習の仕組み, 勾配降下 | Chapter 2, 深層学習(ディープラーニング)
ニューラルネットワークの仕組み | Chapter 1, 深層学習(ディープラーニング)
Переглядів 193 тис.9 місяців тому
ニューラルネットワークの仕組み | Chapter 1, 深層学習(ディープラーニング)
激ムズ数え上げパズルと驚きの解法
Переглядів 114 тис.10 місяців тому
激ムズ数え上げパズルと驚きの解法
Chapter 11 一次変換と外積 | 線形代数のエッセンス
Переглядів 20 тис.10 місяців тому
Chapter 11 一次変換と外積 | 線形代数のエッセンス
Chapter 10 外積 | 線形代数のエッセンス
Переглядів 30 тис.11 місяців тому
Chapter 10 外積 | 線形代数のエッセンス
Chapter 9 内積と双対 | 線形代数のエッセンス
Переглядів 40 тис.11 місяців тому
Chapter 9 内積と双対 | 線形代数のエッセンス
ゼータ関数の見た目【解析接続】
Переглядів 156 тис.Рік тому
ゼータ関数の見た目【解析接続】
Chapter 8 非正方行列 | 線形代数のエッセンス
Переглядів 26 тис.Рік тому
Chapter 8 非正方行列 | 線形代数のエッセンス
Chapter 7 逆行列, 階数, 零空間 | 線形代数のエッセンス
Переглядів 39 тис.Рік тому
Chapter 7 逆行列, 階数, 零空間 | 線形代数のエッセンス
Chapter 6 行列式 | 線形代数のエッセンス
Переглядів 64 тис.Рік тому
Chapter 6 行列式 | 線形代数のエッセンス
素数の螺旋
Переглядів 932 тис.Рік тому
素数の螺旋
回転と四元数(体験型Webサイト)
Переглядів 32 тис.Рік тому
回転と四元数(体験型Webサイト)
4次元の数 「四元数」の見た目
Переглядів 325 тис.Рік тому
4次元の数 「四元数」の見た目
Chapter 5 3次元の一次変換 | 線形代数のエッセンス
Переглядів 36 тис.Рік тому
Chapter 5 3次元の一次変換 | 線形代数のエッセンス

КОМЕНТАРІ

  • @yuseikanayama3571
    @yuseikanayama3571 18 годин тому

    素晴らしすぎる動画です ありがとうございます

  • @user-so7mx5jz9p
    @user-so7mx5jz9p День тому

    線選んだ後と無造作に選んだ点が選択した線上にある、2点が重なるとか考えたら、わからんくなった

  • @ms-pv2og
    @ms-pv2og День тому

    わかりやすい説明ありがとうございます! トークンの確率分布デコーディングの入力は何ですか? 質問の仕方がおかしかったらご指摘願います 次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています) 1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み 2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み 3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み

  • @ms-pv2og
    @ms-pv2og День тому

    わかりやすい説明ありがとうございます! トークンの埋め込みとトークンの確率分布へのデコーディングについて以下の質問させてください 質問がおかしかったら無視していただいても平気です 以下の理解でいいでしょうか? 1 トークンの埋め込み層は、文脈がちがっても同じ埋め込みが作成される? その場合、IDはvlookupみたいに検索して返される形式がある? または行列の掛け算で埋め込む? 2 そうではなく、事前学習時に、埋め込み部分も学習しているので、文脈に応じて違う埋め込みになるでいいでしょうか? 3 エンコーディングとデコーディングの重みは、特に転置すれば同じになるようなものでなく、全然別物である

  • @ms-pv2og
    @ms-pv2og День тому

    わかりやすい説明ありがとうございます! トークナイザーについて以下の質問させてください 1 文章をトークンに分けてIDを割り振るものをすべてトークナイザーと言える。 なので、名刺は1、形容詞は2と品詞毎にIDを割り当てるだけのものもトークナイザーと言えるという理解でいいでしょうか? 2 Unigramなどでは、実質的に頻度が低い単語等は同じトークンIDに割り振られる(つまり同じ埋め込みになる)という理解でいいでしょうか?   つまり、世の中のトークンナイザーでかっこう、違う単語が同じトークンIDに割り振られるものが存在する

  • @ms-pv2og
    @ms-pv2og День тому

    わかりやすい説明ありがとうございます! トークンの確率分布デコーディングの入力は何ですか? 質問の仕方がおかしかったり、意味が不明瞭でしたらご指摘願います 次の3つの可能性を考えました(一般的にあり得る順で書きました、もしかして、どれでもできそうと思っています) 1 コンテキスト長1000トークンならそれが、アテンションブロック層を経由したすべてのトークン位置の埋め込み 2 コンテキスト長1000トークンならそれが、アテンションブロック層を経由した最後のトークン位置の埋め込み 3 アテンションブロック層を経由した予測する位置にあたるトークン位置の埋め込み

  • @user-so4gf7yh4z
    @user-so4gf7yh4z День тому

    これ日本語に翻訳したやつ天才すぎるまじで助かるありがとう!!!lovelove

  • @PGW90RU14
    @PGW90RU14 День тому

    7:40 この辺の話を代数的処理(積分における変数変換)も使って併せて示せば、係数2πが極座標系から自然と出てくるのが明瞭になるのではないかと思います。実用的な知識にもなるのではないかと思います。

  • @AI-jo8fb
    @AI-jo8fb 2 дні тому

    すばらっ

  • @user-es7fw5hm6s
    @user-es7fw5hm6s 3 дні тому

    大学で興味あるトポロジー学び初めて、定義だらけで逃げ出しそうだったけど、この動画みてやっぱり自分はこういう類の話が大好きなんだと改めて感じました

  • @user-kc8fo8qu2v
    @user-kc8fo8qu2v 3 дні тому

    😂😂😂😂😂😂リー😂

  • @user-kc8fo8qu2v
    @user-kc8fo8qu2v 3 дні тому

    😂😂😂😂😂😂9点円😂

  • @user-ld4je6vb5e
    @user-ld4je6vb5e 4 дні тому

    正しく構造化されたラベル名前なら早く結論に辿り着くってことから、日本語が難しい理由に構造化されていないってことだと思うんだよね。扱いやすくするために名前を付けるんだけど、昔の日本人は島国で井の中の蛙だから遅れている。近年はインターネットによって正しい名前付けが浸透してきたから、変な解釈になる内容は構造化して分類分けされてるんだろうね

  • @2-zm4ct
    @2-zm4ct 5 днів тому

    ガウスが考えたネイピア数や虚数と素数の関係性にもう一つエッセンスがあれば大きく進展するんだろうなぁ

  • @ichiwari1576
    @ichiwari1576 5 днів тому

    やっぱ数学は賢くないと理解できませんわw 努力だけでは答えにたどり着けないのが数学

  • @user-vq8mm4sr9h
    @user-vq8mm4sr9h 7 днів тому

    世界中の信用がブロックチェーンに変われば、それこそシンギュラリティでんな。 統一貨幣になれば、井の中の蛙は干からびるかもだけど、人類は生物として進化する。

  • @erewkx
    @erewkx 7 днів тому

    A

  • @user-me7pd8xb3u
    @user-me7pd8xb3u 7 днів тому

    マイナスの数字っていうのは数字上だけですよね?実数ではない しかし実数の二乗がマイナスになるのが理解できない

  • @TJBEATSAMV
    @TJBEATSAMV 8 днів тому

    まさかねー...日本語で3Blue1Brownがいますか。それはすごいですね!

  • @IamACrafter
    @IamACrafter 8 днів тому

    never knew grant had a jap channel

  • @supermariio2326
    @supermariio2326 8 днів тому

    これどうやってその単語らが「関連がある」って学習するの?セルフアテンションなので入力は自分自身でラベルはないと思いましたが、そこがいまいち不明でした。人間がそれ関連してるよって言ってるのであれば理解できるのですが。。どなたか教えてください。

  • @user-cu3ek4ks5v
    @user-cu3ek4ks5v 9 днів тому

    『伏魔御厨子』は他の者の領域とは異なり結界で空間を分断しない。結界を閉じず生得領域を具現化することはキャンバスを用いず空に絵を描くに等しい正に神業。

  • @3Ater1feles
    @3Ater1feles 10 днів тому

    「GPU搭載、みんなキロGoogle持ってる多惑星ギガ銀河スーパーコンピュータが宇宙の年齢の37倍計算する」とか言うパワーセンテンスまじで草

  • @takopon1571
    @takopon1571 11 днів тому

    サムネが電マの振動みたい

  • @user-wm6iw2so7w
    @user-wm6iw2so7w 12 днів тому

    1+1=1と認識している 私には理解できない世界。 でも、GPTを知りたいと 思っていたので助かります

  • @MidnightSoulEclipse
    @MidnightSoulEclipse 12 днів тому

    翻訳解説とてもありがたいですね。

  • @user-rh3ro1uy6z
    @user-rh3ro1uy6z 13 днів тому

    19:30 なんで雫型‪💧‬なんだ?

  • @user-ey3et6bb9q
    @user-ey3et6bb9q 13 днів тому

    難しかったので、自分なりに動画の内容をまとめました。間違っている部分や補足あればコメントお願いします! 一言でいえば、Attentionは各単語(厳密にはトークン)間の関連度合いに応じて、それぞれのトークンからの意味的な更新を行列の掛け算を用いて実現する機構。ここで掛け算する行列は最初はランダムであり、学習を通してうまく機能するような数値を探すことになる。 もう少し具体的に解説すると、まず、モデルのパラメータの一部となるクエリ行列とキー行列を用いて、各トークン間の関連度合いを内積で計算する。 この関連度合いを0~1に正規化して表にしたものをAttentionパターンという。 その後、Attentionパターンで定義される関連度合いの重み比率に基づいて、モデルのパラメータの一部となるバリュー行列を使って、各トークンの埋め込みベクトルを更新する(= 各トークンに他のトークンからの意味、文脈を取り込む)。 クエリ行列、キー行列、バリュー行列は学習の初期段階においてはほぼランダムな行列だが、学習を繰り返して最適化していくことで、トークンに他のトークンからの意味を関連度合いに応じて取り込み、文脈を含んだトークンのベクトルが生成されるようになる。 ちなみに、ここまでの工程を別の96パターンのキー、クエリ、バリュー行列でも実施することでさらにモデルのパラメータを増やす(ちょうどNNを多層にして精度を上げたように)。 最終的には、もとの文章の一番最後のたった一つのトークンに全文脈が内包され、これをもとに次のトークンの存在確率ベクトルを算出することで次の単語を生成していく(前回の動画)。

  • @hitoshiyamauchi
    @hitoshiyamauchi 13 днів тому

    翻訳動画をありがとうございました。😀

  • @hitoshiyamauchi
    @hitoshiyamauchi 13 днів тому

    翻訳動画をありがとうございました!😀

  • @yoshihironumazawa7145
    @yoshihironumazawa7145 14 днів тому

    複素関数が曲者だったね。😂解析関数の微分0のところが…一筆書きみたいに繋がってる。🤫

  • @user-jo9jz4ix9n
    @user-jo9jz4ix9n 14 днів тому

    2ヶ月くらい前に見たときまじでちんぷんかんぷんでほぼ何言ってるか分からなくて泣きそうだったのに今日見たら言ってることがすんなり入ってきてちょっとびっくりした。

  • @SSS-100M
    @SSS-100M 14 днів тому

    逆に言えば、人間はこれより複雑な会話ができるってことか。ある意味、ChatGPTのような明快で論理的な回答の方が、複雑な思考ではない気がする。

  • @user-pu8vn8rq7v
    @user-pu8vn8rq7v 15 днів тому

    すごいわかりやすかったです LLMの文脈で言えば、transformerはWord2vecの次元が一つ上がったものという感じなんでしょうか

  • @yukikotanaka3685
    @yukikotanaka3685 16 днів тому

    15:45 ヒトラーを足すとかいうパワーワードで笑ってしまった

  • @user-wc8yt8cm6c
    @user-wc8yt8cm6c 16 днів тому

    これが日本語訳で観れるありがたさ……

  • @wswsan
    @wswsan 16 днів тому

    こんだけ行列, しかもかなり高次元な行列を何十回も何万回も計算して単語を出すのに数秒くらいしかかかってないの化け物すぎる やっぱGPUの並列計算(?)がつよいからなのか?

  • @shinsogayborg
    @shinsogayborg 16 днів тому

    素晴らしい!素晴らしすぎますって。 今後は強化学習の分野もやって欲しいです。

  • @chibajunchan
    @chibajunchan 16 днів тому

    わかりやスーイ

  • @AA-lz7iv
    @AA-lz7iv 17 днів тому

    要するに頭の悪い人は脳内のバリュー行列の次元が低いってこと?

  • @mizuchin36
    @mizuchin36 17 днів тому

    すごい

  • @underscoress
    @underscoress 17 днів тому

    今回の内容難しくないか?俺がアホになっただけ?

  • @user-zf8gs6ol2l
    @user-zf8gs6ol2l 17 днів тому

    初心者すぎて、12:00あたりの説明がわからない…… 1文を区切ることで、入力された文章自体を学習の材料に出来ちゃうというのは分かった。 でも、今回の例は形容詞は後に続く名詞を説明しているから大丈夫だけど、後置修飾の場合だったら、後ろのトークンが前に影響を及ぼせるようにしないといけないのでは? 後置修飾の情報は、どうやって反映されるんだ?

    • @3Blue1BrownJapan
      @3Blue1BrownJapan 17 днів тому

      例えば後置修飾の場合、前の名詞が逆に後ろの形容詞の意味を深めることができます。 重要なのは、モデルは必ずしも我々人間と同じ方法で処理しているとは限りません。実際、形容詞と名詞の説明は想像上の例の一つで、実際の処理は人間にはずっと解釈しづらいものになっているでしょう。 例えば文章の意味が文末の「!」や「?」に焼き付けられるのではないかという示唆もあります。

    • @user-st1lh8bg7f
      @user-st1lh8bg7f 17 днів тому

      投稿主も書いているように、人間は後ろ単語から前の単語に修飾してると考えるけど、transformerせよ他の機械学習モデルにせよ人間のように後ろから予測するようなことはしてません。その上で人間が見て自然に思えるような文章を出力してます。 人間の感覚に惑わされないように。

    • @user-zf8gs6ol2l
      @user-zf8gs6ol2l 17 днів тому

      ​@@3Blue1BrownJapan ​@user-st1lh8bg7f お二人共返信有り難うございます! 例えば23:20で、後のトークンから前のトークンにも線が伸びて干渉しているような演出がなされているので、後ろから前にも影響を及ぼすのかと勘違いしてしまいました 演出のことは気にしないことにします!

    • @user-st1lh8bg7f
      @user-st1lh8bg7f 17 днів тому

      @@user-zf8gs6ol2lあ、そこは予測と学習の違いですね。 予測して文字列を生成する際には上の説明で正しいのですが、学習段階ではすでに後ろに来る文字が分かっているので、文脈に応じて単語ベクトルを調節しています。 説明不足でした

    • @user-zf8gs6ol2l
      @user-zf8gs6ol2l 17 днів тому

      ​@@user-st1lh8bg7f すみません、よく分かりません…… maskingというのは予測をするために行う行為で、一方で23:20の演出は事前の学習段階を示している、ということなのでしょうか?

  • @user-xi9ol7yr2k
    @user-xi9ol7yr2k 17 днів тому

    2 ^4294967296は∞になります。 答え?知らねぇよそんなもん!

  • @KI-kr1mu
    @KI-kr1mu 17 днів тому

    このバリュー行列って無くてもアテンション機構としては成立しそうな気がしたけど、パラメータスペース作るために入れたら上手く行ったみたいなことなのかな

  • @hellohello-kl1cx
    @hellohello-kl1cx 17 днів тому

    レイヤーごとのattention計算を通して、徐々に各トークンの埋め込みが別トークンの情報を重み付きで吸収していく感じだよね バニラのtransformerの計算ではattention計算は入力トークン数の2乗オーダーになるからLinear attentionを始めとして別の計算方法だったり、GPUのメモリ割り当て効率化が行われているね

  • @user-bf6ot8ql2m
    @user-bf6ot8ql2m 17 днів тому

    動けばいいだろの精神でネットに転がっているコードいじって使ってたけど、やっぱりGPT関連はえぐいぐらいむずかしいわ。

  • @user-ld4je6vb5e
    @user-ld4je6vb5e 18 днів тому

    長い間コンテキストを共有してきた家族は単語に対する結びつきの解釈がすでにパラメータとして調整されているので、少ない会話でコミュニケーションが取れるってことか

  • @user-my7yz2ou4x
    @user-my7yz2ou4x 18 днів тому

    AttentionとTransformerはLLMの革命児だよなあ

  • @user-wu1dm7nt6z
    @user-wu1dm7nt6z 18 днів тому

    論文名“Attention is all you need“はかっこよすぎだろ

    • @caffe-nt
      @caffe-nt 17 днів тому

      "*** is all you need" っていうフレーズはこの後に発表される色々な論文で使われるくらい人気

    • @user-wu1dm7nt6z
      @user-wu1dm7nt6z 17 днів тому

      @@caffe-nt はえー

    • @user-mj9fk5hs3e
      @user-mj9fk5hs3e 17 днів тому

      ただし,学術論文ではタイトルだけで内容が分かるようなものが望ましいので,学者は「うーんこのタイトルでいいのか?」と思いがち.

    • @rorona1350
      @rorona1350 16 днів тому

      Googleの広告会社としてのアイデンティティを抑えきれなかった末路

    • @Arin177
      @Arin177 13 днів тому

      このタイトル知ってるかいないかでモグリかどうかは判別できる