DX TODAY自社メディア

ICML 2023Hybrid Report[後編]

Jul 23th through 29th

7月23日から29日にハワイで開催された、機械学習に関する世界最大級の国際学術会議ICML(International Conference on Machine Learning)。後編の今回は、現地に足を運んだ横河デジタル株式会社のロドリゲス ラミレス フアン エステバンと、オンラインで参加した鹿子木宏明がその様子をレポート。2人が注目したメインカンファレンス、ワークショップについてご紹介します

Hiroaki Kanokogi
横河デジタル株式会社代表取締役社長。強化学習AIの開発者。今回は日本から無念のオンライン参加。

ICMLのメインカンファレンスは、アクセプトされた論文がテーマごとにカテゴリに分けられ、研究者の1人が登壇して概要をプレゼンする形になっています。5~6つの会場を使って、複数のテーマのカンファレンスが同時に進行します。例えばメインカンファレンス初日は、因果学習、コンピュータビジョン、機械学習理論、拡散モデル、強化学習1、強化学習2の6つのセッションが同時進行するといった具合です。
 強化学習1のセッションで特に興味を引いたのが、今話題のChatGPTにも使われているGPT4の「マキャベリベンチマーク」という発表です(Oral A5-1)。まず研究者らは、回答を自分で選択して進むテキスト型のゲームを作成。これは各場面でいくつかの選択肢の中から1つを選びつつ、ゴールを目指すというアドベンチャーゲームです。この選択肢をGPTに選ばせます。当然ながらGPTは報酬最大(例えばゲーム中で稼ぐお金が最大)のような選択肢を選んでいきますが、倫理的に問題のある選択肢も意図的に含められているため、ゲームを終えた時点でGPTの倫理観を測定できるというものです。ファインチューンという付加的な調整を加えることで、GPTの倫理感を調整できるか?という研究でした。結論としては、GPTは報酬最大に走ることが多いが倫理を強くすることもできて、最良のバランスに調整することは可能だろうという発表でした。

どうやってGPTに人間らしい倫理を教えられるだろうかというのは課題だと思いますが、上記のようなストーリを作って“指導”することは可能そうです。連想したのは、子供に絵本の読み聞かせをしながら会話をして、正しい倫理観に導くのと同じだなと、大変興味深かった研究でした。
強化学習2の中では、「運」を測る研究が発表されていました(Oral A6-6)。フットボールの試合で、プレイヤーAはプレーが下手だったものの、他のチームメンバーが良かったので試合に勝った、という状況で、プレイヤーAの活躍にどのような強化学習の報酬を与えるべきかという研究です。運とスキル要素を分けて計算する手法が紹介されていましたが、このように強化学習への報酬をどのように与えるかはAIの性能に深く関係するため、研究が盛んです。

招待講演として、OpenAIのJohn Schulman氏がChatGPTについて講演を行い、LLMに対して、人間のフィードバックを元にした強化学習によりどのように結果をファインチューン可能かという講演がありました。目的に沿って目標を決めてファインチューンするのは良いが、すぐに過剰最適化が起こるという説明がされていました。例としてコブラ効果(コブラを退治しようと報奨金を出したら、報奨金目当てでコブラの飼育をする人が現れ、逆効果という意)を挙げられていました。ChatGPTの開発段階でも同じことが起き、人間のフィードバックによって消極的な答えが強化されて、例えば、「ごめんなさい」とペコペコ謝る、「僕はAIだから正確にはわからないけど」のようなリスク回避する枕詞を多用するようになったことがある、という興味深い事例を紹介されていました。そのため、少しAggressiveに倒して調整されているようです。今のChatGPTは、人間のフィードバックとLLMの絶妙なバランスをとっているようですね。
またJohn Schulman氏の公演のQ&Aで面白い応対がありました。「LLMのファインチューンに、教師付学習や模倣学習ではなく、強化学習を選んだのはなぜか?」という質問でした。それに対する回答が「いやー、いろいろやったんだけど、強化学習が一番良かったから(苦笑)」で、私には大変印象的でした。新しいことに挑戦するときは、何が正解かをあれこれ考える前にいろいろやってみよう、という考え方は共感できました。

 実は私がメインカンファレンスでいつも楽しみにしているのが、「Misc(その他)」というカテゴリの聴講です。“その他”ですので、どの分野にも当てはまらないような論文が雑多に並んでいるわけですが、研究初期段階のものも多く、玉石混交でいう「石」が多いセッションです。
しかしそれゆえ、10年後のAIの新潮流が「玉」として入っているかもしれず、好きなセッションです。例えば、時系列データには通常はラベルがなく、そういったデータにラベルを付けるクラスタリングの手法(Oral C5-1)や、衛星Kepler90の軌道データには観測誤差が極めて大きく、不確定さの原因をいくつか仮定して誤差の分布を作り出す等、不確定なデータをどう扱うかの研究(Oral C5-2)など。こういったテーマは、実用化はまだまだこれから、なわけですが、本などでは普段お目にかかれないような論文に出会えるのも、国際AI学会参加の醍醐味です。

 学会最後に行われるのが、ワークショップです。私は”学習・制御・ダイナミックシステムの新しいフロンティア“というWorkshopを聴講しました。弊社 横河デジタルが日本産業技術大賞 内閣総理大臣賞を受賞したFKDPPは、カテゴリ的には制御AIに属していて、その発展をさぐるための情報収集です。最も目を引いたのが、BRIDGEという155個のゲーム(ピンポンゲーム等)を集めた、制御AI評価用のデータベースの研究発表でした。強化学習の評価を行う際、このデータベースを使って網羅的に性能を測ることができるというもので、実際にいくつかの強化学習アルゴリズムを評価した結果、ATARIゲームは近視眼的な強化学習アルゴリズムでプレーしても高い得点とれるものが多い等、興味深い事実を得ていました。今後、このBRIDGEは強化学習の性能評価基準となっていくのだと思います。なお、この論文は、このワークショップのベストペーパーにも選ばれていて、納得しました。

 ICMLに限らず国際AI学会は、非常に速い英語での発表に加え、数式が多用されるプレゼンテーション・これまでの研究の知識を前提としている、など、敷居は高いものですが、しっかり勉強してから参加して世界の最先端を常に意識するよう、横河デジタルのAI研究グループにはお願いをしています。読者の方のAI研究者にもぜひ参加させてあげてください。

Juan E. Rodriguez Ramirez
横河デジタル株式会社AIシニアエンジニア。注目したいトピックが多く、充実した1週間を過ごした。

メインカンファレンスの招待講演は、著名な研究者たちによって、現在関心を集めているテーマについて行われました。今年は4つの講演があり、Marzyeh Ghassemi氏による“Taking the Pulse Of Ethical ML in Health”、Shakir Mohamed氏による“Machine Learning with Social Purpose”、Jennifer Doudna氏(ノーベル賞受賞者!)による“The Future of ML in Biology: CRISPR for Health and Climate”、John Schulman氏による“Proxy objectives in reinforcement learning from human feedback”です。
また、学会に投稿された論文数は6538本で、この中から採択されたのは1828本(採択率28%)でした。これだけの数を3日間ですべて口頭発表することは不可能です。そのため、大会のレビュワーは口頭セッションで発表するにふさわしい論文を選び、残りはポスターセッションで発表しました。ポスターセッションは全部で6つあり、出展者(研究者、学生、教授)が自分の研究をまとめ、ポスターに展示しました。各セッションではすべてのポスターが1つの部屋に展示され、その横に著者が立っているので、近づいてポスターを読んだり、写真を撮ったり、著者と話したりすることができます。彼らは喜んで研究内容を説明し、質問に答えてくれました。このようなセッションでは、人と情報の多さに圧倒されるかもしれませんが、運が良ければ自分の仕事に大いに応用できる研究を見つけることができます。

ワークショップは30あり、金曜と土曜に半分ずつが開催されました。各ワークショップは、ある特定の機械学習トピックに特化したミニ・カンファレンスのようなもので、1468本の論文が発表されました。金曜日のワークショップ “New Frontiers in Learning, Control, and Dynamical Systems “と土曜日の “Could it have been different? Counterfactuals in Minds and Machines “は、私の研究にとって特に興味深いものでした。
私がICML2023に参加した目的は、industrial automationや横河デジタルのコンサルティングビジネスに応用できる興味深いトピックや新しい開発を探すことです。そのため、clustering、解釈可能性、時系列予測、強化学習などのトピックに注目しました。ChatGPTの成功により、今年のカンファレンスで最も目立った2つのテーマは、生成AIと拡散モデルでした。
また、強化学習(RL)もホットなトピックでした。特に今年は、人間のフィードバックを伴うRLに重点が置かれており、このテーマが招待講演のひとつに。また、オフラインRLも検討の対象であり、AIの規制の必要性についても議論されました。ソーシャルメディアからオンラインショッピングまで、AIは私たちの生活のさまざまな場面で活用されています。そのため、公正さとプライバシーに関連する問題も目立っていました。差分プライバシーと公正AIは、これらの問題を扱う機械学習の一分野です。

私はこの会議の多様性を特に楽しみました。機械学習をビジネスに応用している多くの分野の科学者がおり、ウイルス学者、環境学者、宇宙物理学者のセッションや招待講演を見ることができました。哲学者や神経科学者までもが会議に参加していました(反実仮想に関連するワークショップのひとつでは、意識や自由意志に関連するトピックについて議論されていた)。
私は横河デジタルの仕事を広めるという使命を持ってカンファレンスに参加。スポンサーとしてブースを設営し、私たちのビジネスに興味を持ってくれた多くの来場者を迎えることができました。ブースのデザインには、横河デジタルが提供するdisruptive servicesの一部を加え、私たちの技術、私たちとのコラボレーションに興味を持つ人々の注目を集めました。カンファレンスは、人々とつながり、また、AIのスキルを持った人材を採用するための絶好の場所でもあります。今回の来場者の中には、当社でインターンシップをするために東京に来る予定の人もいました。
総論として、非常に興味深く楽しいカンファレンスでした。横河デジタルのコンサルティングビジネスに応用できそうな研究が多数あり、顧客に価値をもたらし、顧客が現在直面している課題を解決するサービスを開発するために、そのいくつかをフォローアップしたいと思います。