. .
セミナー・イベントTOPへ戻る

・BERTの基本的使い方と応用例、BERTの転移学習によるテキスト分類の実践講座!
・BERTを使ったテキスト分類の実装技術を修得し、転移学習によりテキスト分類の精度の高いシステムに応用しよう!
・自然言語処理に一つの転換点をもたらしたBERT手法を学ぶ特別講座!

*講義で利用するサンプルプログラムは配布いたします


BERTを利用した自然言語処理技術と転移学習によるテキスト分類の実践
<オンラインセミナー>

〜 BERTを利用した自然言語処理における学習とベクトル化、
転移学習によるテキスト分類の実践とそのポイント 〜

■開催日時:2020年12月02日(水) 10:30 ~ 17:30


■会場:オンラインセミナー
オンラインセミナーの詳細はこちら:

■受講料:一般(1名) : 49,500円(税込) 
     同時複数申し込みの場合(1名) : 44,000円(税込)

■主催:(株)日本テクノセンター


■受講対象者:
・システム、ソフト、データ解析部門の技術者の方
・BERTを利用した自然言語処理に興味がある方
・テキスト分類やテキストの採点、類似テキストの検索などに興味がある方
・自然言語処理が必要になった技術者の方
・言語処理まわりの課題を既にお持ちになっていて、処理手法の選択肢を広げたい方
・ニューラルネットワークを利用した自然言語処理を実践したい方

■予備知識:
・予備知識は特に必要ありませんが、パソコン上でテキストを形態素解析などしている経験が
 あると理解しやすい
・Pythonなどプログラミング言語になれている方が理解が早いと思います
・Linux環境に関する知識があると実践が楽になります

■修得知識:
・既に配付されている事前学習済みのBERTを使ってテキスト分類の課題に適用し、転移学習を
 実行させて分類する方法を習得できる

■講師の言葉:
 BERTを使ったテキスト分類を実装して転移学習によって分類が高い精度で行えることを
学べます。事例として小説の作者を分類する課題を対象にします(3人の著者を推定)。小説で
あるテキストデータをベクトル化するためにある単位に分割して、固有の番号を割り付けて
ベクトル化してからBERTに入力します。BERTは既に大規模なテキストデータを学習しており
配付されています。これに対して小説の分類学習データを与えて転移学習させることで小説を
分類するシステムを作成します。 

 講義ではテキストをどのように単位に区切るか、BERTから目的の問題を解くためにどのように
変形して利用するかをサンプルコードを元に動かしながら解説します。BERTは問題に応じて
調整することが重要です。講義では調整のポイントについて説明します。講義で利用する
プログラムは配付する予定です。ご自身で応用したいタスクへの参考になればと思います。


1.BERTを利用した自然言語処理における学習とベクトル化
  (1).言葉のベクトル化を利用した自然言語処理
    a.Chat Bot (質問応答) を作るとしたらどんな構成になるか
    b.ベクトル化に必要な言語ツール (形態素解析(複数の辞書)、Word Piece (MeCabなど)、
      Sentence Piece)
    c.言語をベクトルに変換する方法 (bag-of-words、one-hot vector、分散表現ベクトル
      (word2vec、fasttext))
    d.分散表現ベクトルによる柔軟な言葉の意味の表現
    e.BERTは文脈込みの分散表現ベクトル (fasttextより良い点、悪い点)
    f.配付されている日本語の大規模分散表現ベクトルおよび学習済みBERT
  (2).BERTの構造と期待できる機能 (BERTの良さ)
    a.BERTの構造 (TransformerのEncoder部分)
    b.Attentionを利用したQuery-Key-Valueによる文の特徴抽出
    c.言葉の前後位置を関数で埋め込むことで高速に学習
    d.文の単位で単語の意味を文脈付きで学習する事前学習
    e.事前学習による言語知識獲得と応用の可能性
  (3).BERTの基本的な使い方と応用例
    a.CLSを利用した文のベクトルに転移学習
    b.各単語のベクトルを利用した転移学習
    c.BERTを利用することで精度が向上した事例
    d.BERTを利用しても現段階ではあまり精度が向上しない事例
    e.BERTを利用するポイント(CLS以外の利用,転移学習での工夫等)
  (4).まとめと質疑

2.BERTの転移学習によるテキスト分類の実践
  (1).比較モデルとしてSVMによるテキスト分類
    a.環境構築 (Linux環境へのログイン)
    b.学習・テストデータセットの確認(小説文に対する著者推定)
    c.識別モデルと特徴量の設計
    d.形態素解析器を利用してテキストデータからSVMに入力するための特徴量ベクトルの
      作成 (pythonを利用)
    e.SVMによる学習とテストデータによる評価 (SVMの出力結果の読み方)
  (2). BERTによるテキスト分類1(Tensorflow+Kerasを利用予定)
    a.学習済みBERT (Kikutaモデル)の環境構築
    b.SentencePieceによるトークン化
    c.入力データのベクトル化 (SentencePiece)
    d.転移学習のネットワーク構造
    e.転移学習結果を利用したテストデータの識別 (コードの解説)
  (3). BERTによるテキスト分類2(Tensorflow+Kerasを利用を予定)
    a.学習済みBERT (東北大モデル)の環境構築
    b.MeCab Pieceによるトークン化
    c.入力データのベクトル化 (MeCab PieceのBertTokenizer)
    d.転移学習のネットワーク構造
    e.転移学習結果を利用したテストデータの識別 (コードの解説)
    f.BERTのチューニングポイント
  (4).BERTによるテキスト分類の質疑応答

Copyright (C) 2020 NTS Inc. All right reserved.