では、あなたの目標は AI 研究に取り組むことですか? しかし、どこからどのように始めればよいかわかりませんか?
2020年に私は、 オンラインで受講可能な無料のデータサイエンス、ML、AI MOOC トップ 20しかし、私は、多数のコースを受講することが最も効果的なアプローチではないことに気づきました。
終わりのないチュートリアルのサイクルから抜け出し、本当に専門知識を身に付けるには、実用的なアプリケーションに取り組み、アルゴリズムをゼロから開発し、研究論文を実装し、魅力的な AI プロジェクトに取り組んで現実世界の問題を解決する必要があります。
この作品は、 無料 この理念に沿ったカリキュラム。私はこれらのコースのいくつかを積極的に受講しているので、 連絡する の上 ツイッター または リンクトイン 私と一緒に学びたいなら!
また、抜け漏れを見つけた場合はコメントを残してください。
詳細に入る前に、カリキュラムに関して考慮すべき特定の洞察と学習プロセスに関するいくつかのガイダンスがあります。
トップダウンから始める
このカリキュラムはトップダウン方式を採用しています。 最初はコーディングに重点を置き、その後理論に焦点を当てる.
私は 必要に迫られて学ぶ対処すべき問題、考案すべき解決策、構築すべきプロトタイプがあるときはいつでも、私は重要な情報を徹底的に検索し、理解し、それに基づいて行動します。
例えば、私の野望は AIエンジニア 基礎レベルで LLM に精通していること。これには、トランスフォーマーを一からコーディングし、GPU 上で LLM を微調整する能力が含まれます。現在、知識のギャップによりこの能力が不足していますが、それを埋める決意をしています。
このカリキュラムは主にNLPに焦点を当てています。コンピュータービジョンや強化学習などの他のAIの専門分野に興味がある場合は、以下にコメントを残すか、直接私にメッセージを送ってください。 ツイッター または リンクトインいくつか推奨リソースをご紹介します。
大量のリンクをあなたに押し付ける前に、誰かが強調してほしかった 2つの重要な側面 学習の旅に出る前に知っておくべきでした。
パブリックドメインでの教育
知識の領域は広大であり、特に画期的な研究や概念が毎週のように生まれる AI の分野では、継続的な学習が不可欠です。
最も重大な間違いは、学習を私的な領域に限定することです。そうすることで、成長の機会が制限されます。単にタスクを完了するだけでは意味がありません。より価値があるのは、情報を吸収し、それを普及するための知識に変換し、その知識に基づいて革新的なソリューションやアイデアを思いつく方法です。
したがって、 公共の場で教育する.
これには次のようなことが含まれます。
- ブログとチュートリアルの作成
- ハッカソンに参加し、仲間と協力する
- Discordコミュニティで質問したり、質問に回答したりする
- 個人的な興味に基づくプロジェクトに着手する
- Twitterで新たな発見を共有する
さらにTwitterに関しては、
Twitterをツールとして活用する
Twitter は、効果的に、適切なユーザーに合わせて使用すれば、現代で最も価値のあるソーシャル プラットフォームであることが証明されます。
誰をフォローするか? 厳選された SuhailによるAIリスト.
Twitterの活用? ニアのガイドを参照してください 効果的なTwitterの実践.
Twitterで個人にアプローチしましょう。誠実に、簡潔に、そして明確にあなたの要望を伝えましょう。 コールドメールの作成 Sriram Krishnan によるこの方法はダイレクトメッセージにも適用されます。
ツイートの構成? 参照する ツイートの要素 による ジェイソンの開発者 講師数か月以内に14,000人のフォロワーを獲得しました。
この記事を読んでいる方は Twitterでフォローしてください!
私に連絡して 進行中のプロジェクトについて!興味深い取り組みでのコラボレーションは常に私の興味をそそります。
それでは詳細を見ていきましょう。
内容概要
- 数学の基礎
- 推奨ツール
∘ パイソン
∘ パイトーチ - 機械学習
∘ ゼロからアルゴリズムを作成する
∘ 競技会への参加
∘ サイドプロジェクトの実行
∘ プロジェクトの展開
∘ 補足資料 - ディープラーニング
∘ ファスト.ai
∘ より多くの競技会への参加
∘ 研究論文の実施
∘ コンピュータビジョンの探求
∘ NLPに飛び込む - 大規模言語モデル
∘ ニューラルネットワークを見る: ゼロからヒーローへ
∘ 無料のLLMブートキャンプに参加する
∘ LLM を使用したプロジェクトの作成
∘ ハッカソンに参加する
∘ 研究論文の探索
∘ トランスフォーマーをゼロから開発する
∘ おすすめのブログ
∘ ウマル・ジャミルの作品を鑑賞する
∘ オープンソースモデルの運用方法を学ぶ
∘ 迅速なエンジニアリング技術
∘ LLMの微調整
∘ RAGに関する研究 - 最新情報の入手
- 代替カリキュラムと参考リスト
数学の基礎
ダル·E
機械学習は、線形代数、微積分、確率と統計という 3 つの中核となる数学の柱に大きく依存しています。これらの各要素は、アルゴリズムの最適なパフォーマンスを促進する上で重要な役割を果たします。
- 線形代数: データ管理と操作のための数学的枠組みとして機能し、行列とベクトルはアルゴリズムの解釈と情報処理の主な媒体として機能します。
- 微積分: 機械学習における最適化の原動力として機能し、勾配と速度の変化を理解することでアルゴリズムが学習し改良することを可能にする。
- 確率と統計: 不確実性の中で意思決定を行うための基本原則を提供し、アルゴリズムが結果を予測し、確率モデルと分散モデルを通じてデータから学習できるようにします。
開発者の視点から機械学習のための数学に関する素晴らしいシリーズをご覧ください ここ Weights & Biases より。
線形代数に対するコード中心のアプローチを好む場合は、 計算線形代数 (ビデオシリーズ, ソースコード) を fast.ai の開発者が共有しました。
フォローする Python による応用機械学習のための線形代数入門 コースと並行して。
より伝統的なアプローチをご希望の場合は、 インペリアル・カレッジ・ロンドンでの講義 — 線形代数 & 多変数微積分.
3Blue1Brownを見る 線形代数の本質 そして 微積分の本質.
観察する 統計学の基礎 統計情報のためのStatQuest
追加リソース
- 本: 機械学習のための数学
- 紙: ディープラーニングに必要な行列計算
リソース
ダル·E
パイソン
初心者はここから始められます: 実践的なPythonプログラミング.
すでにPythonに精通している場合は、 高度な Python の習得
どちらも、Python Cookbook の作成者である David Beazley による優れたコースです。
探検する Python デザインパターン.
追加リソース
- 本: Fluent Python、第 2 版 (ソースコード)
- ポッドキャスト: リアルパイソン & Pythonについて話す
パイトーチ
時計 PyTorch チュートリアル による アラジン・パーソン
PyTorch Web サイトでは貴重なコンテンツが提供されています。
パズルに挑戦してみましょう
追加リソース
機械学習
ダル·E
参照 100ページのML 本。
ゼロから開発する
勉強しながら、アルゴリズムをゼロから実装します。
以下にリストされているリポジトリを確認してください
難しいタスクの場合は、このコースに従って PyTorch をゼロから構築します。
コンテストに参加する
競争シナリオで知識を適用します。
- 以下のようなプラットフォームでMLコンテストに参加する ビットグリット そして カグル; 詳細は この記事.
- レビュー 過去の受賞ソリューション 分析する
サイドプロジェクトに取り組む
探検する 機械学習を本番環境に導入する ヴィッキー・ボイキス
彼女はまた、建築の経験を記録した。 バイベラリーセマンティックブック検索エンジン。
データセットを入手し、モデルを開発する(例: アースアクセス NASA 地球データ用)。
ユーザインターフェースを構築する ストリームライト Twitterでシェアしましょう。
モデルをデプロイする
モデルを本番環境に導入します。実験を追跡します。モデルの監視方法を学びます。データとモデルのドリフトを直接体験します。
これらの貴重なリソースを探索する
- MLで作成
- DataTalksClub/mlops-zoomcamp: 無料の MLOps コース
- chiphuyen/機械学習システム設計
- 明らかに AI — ML システム設計: 300 のケーススタディ
- stas00/ml-engineering: 機械学習エンジニアリングオンラインブック
追加リソース
- PyTorch と Scikit-Learn による機械学習 (ソースコード)
- [1811.12808] 機械学習におけるモデル評価、モデル選択、アルゴリズム選択
- 機械学習インタビュー入門書 ·MLIB
ディープラーニング
トップダウンアプローチに興味がある方は、fast.ai から始めてください。
ファスト.ai
fast.aiをお楽しみいただけましたら、 フルスタックディープラーニング.
より詳細で従来的なコースについては、以下をご覧ください。 UNIGE 14×050 — ディープラーニング による フランソワ・フルレ.
後で理論を詳しく調べる必要がある場合、これらは優れたリソースになります。
- ディープラーニングに飛び込む (PyTorch、NumPy/MXNet、JAX、TensorFlow のコード サンプルが含まれています)
- ディープラーニング イアン・グッドフェロー、ヨシュア・ベンジオ、アーロン・クールヴィル
- ニューラルネットワークとディープラーニング
- ディープラーニングを理解する (実用的な ノートブック)
読む ディープラーニングの小冊子 Twitter をスクロールする代わりに、モバイルで。
ニューラル ネットワークが進化している間にこれらを読んでください。
より多くの競争に参加する
- PlantTraits2024 — FGVC11 |カグル (コンピュータビジョン)
研究論文の実施
探検する labml.ai 注釈付き PyTorch 論文実装
コード付きの論文は貴重なリソースとして役立ちます。 BERTの説明 彼らのプラットフォーム上で。
以下はディープラーニングの特定の分野に関する参考資料です。
コンピュータビジョン
多くの人が、 CS231n: コンピュータビジョンのためのディープラーニング もちろんです。大変ですが、頑張ればやりがいがあります。
強化学習
RL 愛好家にとって、以下のリソースは最適です。
- ディープラーニングでスピンアップ OpenAIより
- 🤗 深層強化学習コース — ハグフェイス
NLP
スタンフォード大学のもう一つの傑出したコースは、 CS 224N | ディープラーニングによる自然言語処理
Hugging Face について詳しく知る: ハギングフェイスNLPコース
これを調べる スーパーデューパーNLPレポ
有益な記事と内訳
- BERT リサーチ — エピソード 1 — 主要概念とソース · Chris McCormick
- イラスト付き Word2vec — Jay Alammar
- 図解 BERT、ELMo など (NLP が転移学習を解明した方法)
- LSTM ネットワークを理解する — colah のブログ
- PyTorch RNN をゼロから学ぶ — Jake Tae
追加リソース
大規模言語モデル
まずは[1時間講演] 大規模言語モデル入門 Andrej 著。
チェックアウト 5つの数式で表す大規模言語モデル、 による Alexander Rush — コーネル工科大学
ニューラルネットワーク: ゼロからヒーローへを観る
それは、バックプロパゲーションを基礎から解明し、コーディングすることから始まり、GPT をゼロから開発することで終わります。
ニューラル ネットワーク: ゼロからヒーローへ (Andrej Karpathy 著)
Andrej が最近新しいビデオを共有しました → GPTトークナイザーを構築しましょう
あなたも探検したいかもしれません 60 行の NumPy での GPT | Jay Mody このプロセス中に。
無料のLLMブートキャンプ
無料の LLMブートキャンプ Full Stack Deep Learning によってリリースされました。
このブートキャンプでは、プロンプトエンジニアリング、LLMOps、LLM 向け UX、1 時間以内に LLM アプリを起動するためのガイダンスについて説明します。
このブートキャンプを終えて、構築したいという意欲が湧いてきたので、
LLMで開発する
LLM を使用してアプリケーションを作成することに興味がありますか?
時計 大規模言語モデルを使用したアプリケーション開発
アンドリュー・ン
読む 実稼働用 LLM アプリケーションの構築 フイエン・チップ
同様に LLM ベースのシステムと製品を構築するためのパターン ユージン・ヤン
ご相談ください OpenAI クックブック 実用的なガイドです。
利用する Vercel AI テンプレート プロジェクトをスタートさせるために。
ハッカソンに参加する
ラボラボ 毎週新しい AI ハッカソンを開催します。 お気軽にお問い合わせください チームを組むことに興味があるなら!
理論的な側面をさらに深く掘り下げて、すべての機能を理解したい場合は、次の手順に従ってください。
論文を読む
素晴らしい記事by セバスチャン・ラシュカ の上 大規模言語モデルの理解必ず読むべき論文集を紹介します。
最近の出版物では、彼はまた別の記事をシェアし、 2024年1月にご検討いただく論文ミストラルモデルに焦点を当てます。
彼のサブスタックを探索する AIより先.
トランスフォーマーをゼロから作成します。
熟読する トランスフォーマーファミリー バージョン 2.0 | Lil'Log 簡潔な要約です。
希望する形式を選択し、最初からそれを設定します。
ドキュメンテーション
記事
- トランスフォーマーをゼロから作る - パート 1: 注意メカニズム (パート2) (コード)
- 大規模言語モデルの自己注意メカニズムをゼロから理解しコーディングする による セバスチャン・ラシュカ博士
- ゼロからのトランスフォーマー
ビジュアル
これで、トランスフォーマーをゼロから構築する準備が整いました。しかし、まだ続きがあります。
これらを見る スタンフォード CS25 — トランスフォーマー ユナイテッド ビデオ。
洞察力に富んだブログ投稿
- 狂気への勾配降下法 — ゼロから LLM を構築する
- イラスト付きトランスフォーマー — ジェイ・アラマー
- 注意とトランスフォーマーに関するいくつかの直感 ユージン・ヤン
- GPT の高速化 — KV キャッシュ | 無敵になる
- 自己注意を超えて: 小さな言語モデルが次のトークンを予測する方法
- ゼロから始めるラマ(または泣かずに論文を実装する方法) | ブライアン・キタノ
- LoRA の改善: 重み分解低ランク適応 (DoRA) をゼロから実装する
ウマル・ジャミル
ビュー彼は、付随するコードデモンストレーションを含む、論文に関する詳細なビデオ洞察を提供します。
- LoRA: 大規模言語モデルの低ランク適応 — 視覚的に説明 + ゼロからの PyTorch コード
- ミストラル / ミクストラルの説明: スライディング ウィンドウ アテンション、専門家のスパース混合、ローリング バッファー
- 必要なのは注意だけ (Transformer) — モデルの説明 (数学を含む)、推論、トレーニング
- LLaMA の説明: KV キャッシュ、回転位置埋め込み、RMS ノルム、グループ化クエリ アテンション、SwiGLU
- 検索拡張生成 (RAG) の説明: 埋め込み、文 BERT、ベクトル データベース (HNSW)
LLMに関連する追加リソースを以下に示しますが、これらは網羅的ではありません。 LLMシラバス LLM の詳細な概要については、こちらをご覧ください。
オープンソース モデルの実行をマスターする。
利用する ollama: Llama 2、Mistral、その他の大規模言語モデルをローカルで起動して実行します
PythonとJavaScriptのライブラリが最近リリースされました ここ
プロンプトエンジニアリングに取り組む
ChatGPT 開発者向けプロンプトエンジニアリング イセ・フルフォード(OpenAI)とアンドリュー・ン
他の 簡単な DeepLearning.ai で無料で受講できるコース。
微調整によるLLMの強化
参照 ハギングフェイス微調整ガイド.
役立つガイダンス: 微調整 - GenAI ガイドブック
発見する アホロートル.
この有益な記事から得られるメリット: 直接選好最適化による Mistral-7b モデルの微調整 | Maxime Labonne 著
ラグ
Anyscale による優れた作品: RAG ベースの LLM アプリケーションを本番環境向けに構築する
AI 教育リソース
その他のカリキュラム/リスト記事
私のリストは網羅的ではありませんが、より多くのリソースが必要な場合は、ここにいくつかの提案があります。
- openai/シラバス.md
- AI キヤノン | アンドリーセン・ホロウィッツ
- AI 学習キュレーション — LLM ユーティリティ
- AI マルチバースへの閾値 | Open DeepLearning
- louisfb01/start-llms: 2023 年に LLM スキルを開始して向上させるための完全ガイド
これがあなたの AI 遠征に役立つと信じています!