自己教師あり学習(じこきょうしありがくしゅう、: self-supervised learningSSL)とは、ラベルのないデータを使用して、下流の学習タスクに有用な表現を得るための機械学習パラダイムとその手法である。SSL手法の最も顕著な特徴は、人間が注釈を付けたラベルを必要としないことにある。すなわち、ラベルが付いていないデータサンプルで構成されたデータセットを取り込むように設計されている。典型的なSSLパイプラインは、第一段階で教師信号(ラベルは自動的に生成される)を学習し、それを第二段階以降で何らかの教師あり学習タスクに利用する構成となっている。このような理由から、SSLは教師なし学習教師あり学習の中間的な形態として説明できる。

典型的なSSL手法は、人工ニューラルネットワークや、決定リスト英語版のような他のモデルに基づいている[1]。このモデルは2段階で学習する。まず、モデルのパラメータを初期化するのに有用な擬似ラベルを使用した補助的あるいはプレテキスト分類タスク(pretext classification task)に基づくタスク解決が行われる[2][3]。次に、教師あり学習または教師なし学習によって、実際のタスクが行われる[4][5][6]。他の補助タスクは、マスク化入力パターン(音声の無音一時停止や、部分的に黒塗りされた画像)からのパターン補完を含む。

自己教師あり学習は、近年有望な成果を上げており、音声処理で実用化され、Facebookなどの音声認識に使用されている[7]。SSLの主な魅力は、最終結果を向上させることではなく、より低品質のデータで学習が可能なことである。自己教師あり学習は、人間が物事の分類を学習する方法をより忠実に模倣する[8]

種類

編集

二値分類タスクの場合、トレーニングデータは正例と負例に分けることができる。正例とは、ターゲットと一致するものである。たとえば、鳥の識別を学習している場合、鳥が写っている写真が正例の学習データとなる。負例は、そうでないものをいう[9]

自己教師あり対照学習

編集

自己教師あり対照学習: contrastive self-supervised learning)は教師ラベルを用いない対照学習である[9]。正例を用意する代表的な方法に以下が挙げられる:

また負例を用意する代表的な方法に以下が挙げられる:

  • ミニバッチ内他サンプル
  • non-co-occurrence

自己教師あり非対照学習

編集

自己教師あり非対照学習(non-contrastive self-supervised learning、NCSSL)では、正例のみを使用する。直感に反して、NCSSLは自明解に到達するのではなく、有用な局所最小値に収束し、損失はゼロになる。二値分類の例では、NCSSLは通常、各例を正と分類するように学習する。効果的なNCSSLでは、ターゲット側に逆伝播しないオンライン側の追加の予測器を要する[9]

他の機械学習との比較

編集

入力から分類された出力を生成することを目的とする限り、SSLは教師あり学習法である。そうではあるが、ラベル付きの入力と出力の組を明示的に使用する必要はない。代わりにデータから相関関係、データに埋め込まれたメタデータ、または入力に存在するドメイン知識が暗黙的かつ自律的に抽出される。データから生成されたこれらの監視信号は、トレーニングに使用することができる[8]

SSLは、サンプルデータにラベルを必要としない点で、教師なし学習法と似ている。ただし、教師なし学習とは異なり、データに内在する構造から学習するものではない。

半教師あり学習法英語版(semi-supervised learning)は、教師あり学習と教師なし学習を組み合わせたもので、学習データのごく一部にラベルを付ける必要がある[3]

転移学習では、あるタスクのために開発されたモデルを、別のタスクで再利用する[10]

オートエンコーダのトレーニングは、出力パターンが入力パターンの最適な再構成になる必要があるため、本質的には自己教師ありのプロセスを構成する。しかし、現在の専門用語では、「自己教師あり(self-supervised)」という用語は、プレテキストタスク(pretext task)のトレーニング設定に基づく分類タスクに関連している。これは、完全に自己完結したオートエンコーダのトレーニングの場合とは異なり、そのようなプレテキストタスクを(人間が)設計することになる[11]

強化学習では、損失の組み合わせによる自己教師あり学習により、状態に関する最も重要な情報のみが圧縮された形で保持される抽象的な表現を形成することがある[12]

事例

編集

自己教師あり学習は、音声認識で特に適している。たとえば、Facebookは、音声認識のための自己教師ありアルゴリズムであるwav2vecを開発し、相互に構築し合う2つの深い畳み込みニューラルネットワークを使用している[7]

GoogleのBERTモデルは、検索クエリのコンテキストをよりよく理解するために使用されている[13]

OpenAIのGPTは、言語処理に使用できる自己回帰言語モデルである。テキストの翻訳や質問への回答などに使用することができる[14]

Bootstrap Your Own Latent(BYOL)はNCSSLであり、ImageNetや転位、半教師ありベンチマークで優れた結果を出した[15]

Yarowskyアルゴリズム英語版は、自然言語処理における自己教師あり学習の例である。ラベル付けされた少数の例から、多義語のどの語義がテキスト中の特定の部分で使用されているかを予測するように学習する。

FacebookDirectPredは、勾配更新による学習の代わりに、予測器の重みを直接設定するNCSSLである[9]

脚注

編集
  1. ^ Yarowsky, David (1995). “Unsupervised Word Sense Disambiguation Rivaling Supervised Methods”. Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics (Cambridge, MA: Association for Computational Linguistics): 189–196. doi:10.3115/981658.981684. https://aclanthology.org/P95-1026/ 1 November 2022閲覧。. 
  2. ^ Doersch, Carl; Zisserman, Andrew (October 2017). “Multi-task Self-Supervised Visual Learning”. 2017 IEEE International Conference on Computer Vision (ICCV) (IEEE): 2070–2079. arXiv:1708.07860. doi:10.1109/iccv.2017.226. ISBN 978-1-5386-1032-9. https://doi.org/10.1109/iccv.2017.226. 
  3. ^ a b Beyer, Lucas; Zhai, Xiaohua; Oliver, Avital; Kolesnikov, Alexander (October 2019). “S4L: Self-Supervised Semi-Supervised Learning”. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (IEEE): 1476–1485. arXiv:1905.03670. doi:10.1109/iccv.2019.00156. ISBN 978-1-7281-4803-8. https://doi.org/10.1109/iccv.2019.00156. 
  4. ^ Doersch, Carl; Gupta, Abhinav; Efros, Alexei A. (December 2015). “Unsupervised Visual Representation Learning by Context Prediction”. 2015 IEEE International Conference on Computer Vision (ICCV) (IEEE): 1422–1430. arXiv:1505.05192. doi:10.1109/iccv.2015.167. ISBN 978-1-4673-8391-2. https://doi.org/10.1109/iccv.2015.167. 
  5. ^ Zheng, Xin; Wang, Yong; Wang, Guoyou; Liu, Jianguo (April 2018). “Fast and robust segmentation of white blood cell images by self-supervised learning”. Micron 107: 55–71. doi:10.1016/j.micron.2018.01.010. ISSN 0968-4328. PMID 29425969. https://doi.org/10.1016/j.micron.2018.01.010. 
  6. ^ Gidaris, Spyros; Bursuc, Andrei; Komodakis, Nikos; Perez, Patrick Perez; Cord, Matthieu (October 2019). “Boosting Few-Shot Visual Learning With Self-Supervision”. 2019 IEEE/CVF International Conference on Computer Vision (ICCV) (IEEE): 8058–8067. arXiv:1906.05186. doi:10.1109/iccv.2019.00815. ISBN 978-1-7281-4803-8. https://doi.org/10.1109/iccv.2019.00815. 
  7. ^ a b Wav2vec: State-of-the-art speech recognition through self-supervision” (英語). ai.facebook.com. 2021年6月9日閲覧。
  8. ^ a b Bouchard, Louis (2020年11月25日). “What is Self-Supervised Learning? | Will machines ever be able to learn like humans?” (英語). Medium. 2021年6月9日閲覧。
  9. ^ a b c d Demystifying a key self-supervised learning technique: Non-contrastive learning” (英語). ai.facebook.com. 2021年10月5日閲覧。
  10. ^ Littwin, Etai; Wolf, Lior (June 2016). “The Multiverse Loss for Robust Transfer Learning”. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE): 3957–3966. arXiv:1511.09033. doi:10.1109/cvpr.2016.429. ISBN 978-1-4673-8851-1. https://doi.org/10.1109/cvpr.2016.429. 
  11. ^ Kramer, Mark A. (1991). “Nonlinear principal component analysis using autoassociative neural networks”. AIChE Journal 37 (2): 233–243. doi:10.1002/aic.690370209. https://www.researchgate.net/profile/Abir_Alobaid/post/To_learn_a_probability_density_function_by_using_neural_network_can_we_first_estimate_density_using_nonparametric_methods_then_train_the_network/attachment/59d6450279197b80779a031e/AS:451263696510979@1484601057779/download/NL+PCA+by+using+ANN.pdf. 
  12. ^ Francois-Lavet, Vincent; Bengio, Yoshua; Precup, Doina; Pineau, Joelle (2019). "Combined Reinforcement Learning via Abstract Representations". Proceedings of the AAAI Conference on Artificial Intelligence. arXiv:1809.04506
  13. ^ Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing” (英語). Google AI Blog. 2021年6月9日閲覧。
  14. ^ Wilcox, Ethan; Qian, Peng; Futrell, Richard; Kohita, Ryosuke; Levy, Roger; Ballesteros, Miguel (2020). “Structural Supervision Improves Few-Shot Learning and Syntactic Generalization in Neural Language Models”. Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Stroudsburg, PA, USA: Association for Computational Linguistics): 4640–4652. arXiv:2010.05725. doi:10.18653/v1/2020.emnlp-main.375. https://doi.org/10.18653/v1/2020.emnlp-main.375. 
  15. ^ Grill, Jean-Bastien; Strub, Florian; Altché, Florent; Tallec, Corentin; Richemond, Pierre H.; Buchatskaya, Elena; Doersch, Carl; Pires, Bernardo Avila; Guo, Zhaohan Daniel; Azar, Mohammad Gheshlaghi; Piot, Bilal (10 September 2020). "Bootstrap your own latent: A new approach to self-supervised Learning". arXiv:2006.07733 [cs.LG]。

外部リンク

編集