アメリカ GAFAM を中心とした企業で 大規模言語モデルを利用したチャットAI の開発が過熱してます。日本もサイバーエージェントやソフトバンク、rinna株式会社が LLM(Large Language Model) 開発を表明して公開してます。
その公開先は Hugging Face 社の Hub です。
Hugging Face Hub documentation
この会社は業界標準的な Transformers ライブラリ を開発して、公開してます。
Transformers ライブラリは、文章、画像、音声でのタスクを行う Transformer のオープンソースな Python パッケージである。PyTorch、TensorFlow、JAX ライブラリと互換性があり、BERT や GPT モデルのような著名なモデルの実装も含まれる。
以下の本がそのライブラリの利用を説明してます(オライリー・ジャパン日本語翻訳版有り)ちなみに ChatGPT(モデル:GPT-4)に翻訳させてます。分からない専門用語はその場で深掘り出来ます。
興味深い話題が満載。さっそく Git Hub で公開されている python の例題で第二章を試したのですが、Google Colab とか使っても、無償タイプだとメモリ不足になりました。
そこで、半導体不足で高騰してましたが、以前から欲しかった NVIDIA の グラフィックボードを購入しました。RTX 3060(12GB) 4万6千円で購入。補助電源ケーブルで8ピン・タイプが必要だったのですが、PCの電源が6ピンが2つ余っていたので、6+6=>8ピンのケーブルが有ったので、合わせて購入しました。今のグラフィックボードを抜いて、入れ替えます。特に問題なく入れ替え完了。
例題を試した所、問題なく実行出来そうなので安心しました。
◎本の各章は
第1章「Hello Transformers」では、トランスフォーマーを紹介し、そのコンテキストを説明します。また、Hugging Faceエコシステムについても紹介します。
• 第2章「テキスト分類」は、感情分析(一般的なテキスト分類問題)を対象とし、Trainer APIを紹介します。
• 第3章「トランスフォーマーの解剖学」は、トランスフォーマーのアーキテクチャをより深く探求し、次の章の準備をします。
• 第4章「多言語の固有エンティティ認識」は、複数の言語でテキストのエンティティを識別するタスク(トークン分類問題)に焦点を当てます。
• 第5章「テキスト生成」では、トランスフォーマーモデルがテキストを生成する能力を探り、デコーディング戦略とメトリクスを紹介します。
• 第6章「要約」は、テキストの要約という複雑なシーケンス間タスクを詳しく見て、このタスクで使用されるメトリクスを探ります。
• 第7章「質問応答」では、レビューベースの質問応答システムの構築に焦点を当て、Haystackを用いた検索を紹介します。
• 第8章「製品化でのトランスフォーマーの効率化」は、モデルのパフォーマンスに焦点を当てます。私たちは意図の検出(シーケンス分類問題の一種)のタスクを見て、知識蒸留、量子化、剪定などの技術を探求します。
• 第9章「ラベルが少ないからない場合の対処法」では、大量のラベル付きデータがない場合のモデルパフォーマンスの向上方法を探ります。GitHubの問題タグ付けシステムを構築し、ゼロショット分類やデータ拡張などの技術を探ります。
・第10章「トランスフォーマーのゼロからの訓練」では、Pythonのソースコードを自動補完するモデルをゼロから構築し訓練する方法を示します。データセットのストリーミングと大規模訓練を見て、自分たちのトークナイザーを構築します。
• 第11章「未来の方向性」では、トランスフォーマーが直面している課題と、この分野の研究が進む興奮する新たな方向性を探ります。