Connect with us

Unite.AI

拡張現実

December 11, 2024
By Haziqa Sajid

AIアート：その役割と未来について知っておくべきすべて

アルベルト・アインシュタインの有名な言葉には、「創造性は、知性が楽しんでいることだ。」とある。しかし、知性が人間だけではなくなったときに何が起こるのか?すると、それは人工知能（AI）になる。 AIアートが波紋を広げている理由と、話題になっている理由を知るために、読み続けてください。以下の記事では、AIのアートにおける役割、提供する機会、提起する課題などについて説明します。AIアートと創造性の交差点AIは、創造性を高め、プロセスを自動化し、ユニークな作品を生成することで、アートの世界を変えました。人間とマシンの創造性の境界を曖昧にし、新しい可能性を生み出しています。しかし、いくつかの疑問が残ります： AIは本当に創造的か、それとも人間の仕事を模倣しているだけか? アートに対する私たちの理解をどのように変えるのか? AIは単なる模倣者か、創造的な天才か? 意見は異なります。批評家の中には、AIは既存のものを単に模倣しているに過ぎないと主張する人もいます。一方、AIは人間の想像力を拡張する強力な創造ツールであると見なす人もいます。MidJourneyの創設者デビッド・ホルツは、「私たちはこのテクノロジーを想像力のエンジンと見なしています。」AIアートの応用AIアートの応用例は以下の通りです：ジェネレーティブAIジェネレーティブAIは、機械の助けを借りてアートを作る新しい方法です。アーティストがAIに具体的な指示を与え、AIがそれに基づいてユニークなアート作品を生成します。これには、抽象的な絵画からデジタル彫刻まで、様々な作品が含まれます。ジェネレーティブAIアートの背後にあるツールとテクノロジージェネレーティブ・アダバーサリアル・ネットワーク（GANs）は、AIアートの背後にある重要なテクノロジーです。GANsは、2つのニューラルネットワークを使用します。一方のネットワーク「ジェネレーター」は画像を生成し、もう一方のネットワーク「ディスクリミネーター」は生成された画像がリアルかどうかをチェックします。このやり取りのプロセスにより、ジェネレーターは出力を改良し、時間の経過とともによりリアルな画像を生成します。AIアートが注目されるアーティストのMemo AktenとMike Tykaは、DeepDreamアルゴリズムを使用してアートを作成しました。2016年にサンフランシスコのギャラリーで発表されました。これは、AI生成アートが初めて一般の展示会で紹介された例のひとつです。大きな転機は2018年に訪れました。パリを拠点とするグループObviousによって作成されたAI生成アート作品「Edmond Belamyの肖像」が、クリスティーズのオークションで売却されました。これは、広く知られるようになった最初のAIアートの売却と見なされています。スタイル・トランスファースタイル・トランスファーは、AIを使用して、一方の画像のスタイルをもう一方の画像の内容と組み合わせます。つまり、シンプルな写真をヴァン・ゴッホやピカソなどの有名アーティストのスタイルでアート作品に変えることができます。PrismaやDeepArtなどのアプリは、スタイル画像のパターン、色、テクスチャを分析し、それを選択した写真に適用します。アーティスティック・プロセスの強化Adobe Senseiなどのツールは、色の修正、オブジェクトの除去、画像のリサイズを支援します。アーティストは、創造性に集中できる時間が増え、繰り返しのタスクに時間を費やす必要がなくなりました。AIは、人間が想像したり制作したりするのが難しいユニークなパターン、音楽、視覚効果を生成することもできます。AIは、現代のミューズと言えるでしょう。アーティストに実験し、箱の外で考えさせるインスピレーションを与えてくれるのです。パーソナライズド・デザインAIは、ユーザーごとにデザインをカスタマイズします。ユーザーの行動、好み、人口統計に基づいてインターフェイスを調整します。予測デザインAIは、将来どのようなデザイン・トレンドや顧客ニーズが現れるかを予測することもできます。データを分析して、どのような要素が将来にわたって重要になるかを予測します。予測デザインにより、今日制作されるものが明日も依然として関連性があることを保証します。AIアートとデザインの利点AIアートとデザインの利点は以下の通りです：創造性の向上： AIはアーティストの創造的なパートナーとなり、新しい可能性を提供します。新しいデザイン・アイデアをインスピレーションし、色彩スキームを提案し、リアルな3Dモデルでコンセプトを実現することもできます。効率性と生産性： AIは時間のかかるタスクを自動化し、アーティストは概念を洗練し、新しいアイデアを探求する時間を得ることができます。アクセシビリティ： AIは、高度な創造ツールを誰でも利用できるようにします。正式なトレーニングを受けていない個人でも、プロフェッショナルな作品を制作できます。イノベーション： AIツールは、さまざまなメディアやテクニックを組み合わせて新しいアート形式を生み出すことができます。AIとバイオなどの学際的なコラボレーションも促進します。アート、倫理、AI：誰が筆を執るのかAI生成アートの台頭は、倫理と哲学的な疑問を引き起こしています。アートの所有権最大の疑問のひとつは所有権です。AIがアート作品を生成した場合、誰がその作品を所有するのでしょうか。現在の法的枠組みは、これらの複雑さに対処するのに苦労しており、創造者やイノベーターは未知の領域を航海しています。創造性の源AIアートは、独創性について疑問を提起します。AIアートを単なる別のメディアと見なす人もいれば、人間のアートの独自の、個人的な、感情的なタッチが失われるのではないかと心配する人もいます。プライバシーと偏見プライバシーと偏見は大きな懸念事項です。AIシステムは、許可なく個人データや著作権で保護された素材を使用することがあります。これはプライバシーの侵害となり、偏った、ステレオタイプなアートを生み出す可能性があります。テクノロジーは人間のアーティストを置き換えるかAI生成アートが進化するにつれ、イラストレーター、デザイナー、そしてファインアーティストも含め、多くのアーティストの仕事が危険にさらされる可能性があります。企業は、人間の労力よりも安価で迅速なAIソリューションを選択するかもしれません。どう進むべきかAIのトレーニングに関する明確なガイドライン、芸術家への公正な補償、人間の創造性の無代替の価値を保存するというコミットメントが必要です。このアプローチにより、AIが人間の芸術性と競合するのではなく、補完することができます。AI駆動アートとデザインの課題AIはアートとデザインの世界を変えつつありますが、まだいくつかの課題があります。テクノロジーの制約： AIは、感情や個人的な意図を再現するのに苦労しています。スタイルやパターンを模倣することはできますが、人間の要素を欠いています。過度な依存のリスク：強力なAIツールにより、アーティストが独自性よりも易しさを優先する可能性があります。機械への過度な依存は、人間の創造性の独特のタッチを欠いた、一般的なアートを生み出す可能性があります。環境への懸念：大規模なAIモデルをトレーニングするには大量のエネルギーが必要であり、環境への懸念を引き起こします。伝統的なアーティストからの抵抗：...
September 30, 2024
By Alex McFarland

ARの突破：ミニチュア化されたディスプレイが主流のARグラスへの道を開く

拡張現実（AR）技術は、デジタル情報を物理的な世界とシームレスに統合することを約束して、長年にわたって想像力を掻き立ててきました。コンピューター生成された画像を現実世界の景色の上に重ねることで、ARは私たちが環境とやり取りする方法を劇的に変える可能性があります。ゲーム体験の向上から手術室での外科医への支援まで、ARの応用は限りなく広がります。しかし、AR技術は、幅広い採用を達成する上で重大な障害に直面しています。現在のARシステムは、しばしば大きなヘッドセットやゴーグルに依存しており、日常使用の実用性が制限されています。これらのデバイスは、操作が不便で、視野の制限や画像の品質が低いため、不便です。また、これらのシステムの電力要件と熱発生は、長時間の使用にも追加の課題をもたらします。別の重要な制限は、画像の品質や視野を損なうことなくARディスプレイをミニチュア化することの難しさでした。消費者は、よりスリムで目立たないARデバイスを求めているため、業界は、光学部品を小型化しながら性能を維持するという複雑な課題に直面しています。コンパクトARディスプレイへの探求AR技術におけるミニチュア化への取り組みは、美観や便利性だけの問題ではありません。コンパクトなARシステムは、スマートフォンがやったように、私たちの日常生活にシームレスに統合される可能性があります。通常の眼鏡にAR機能を搭載し、リアルタイム情報、ナビゲーション支援、または専門ツールを提供することを想像してみてください。これらの機能は、目立たないハードウェアを必要とせずに提供されます。しかし、ARシステムを小型化することは、多数の技術的な課題をもたらします。従来のARディスプレイは、4つのレンズシステムを使用して、ユーザーの視野に画像を投影します。光学部品のサイズを小さくすると、画像の品質が低下し、視野が狭くなります。このサイズと性能のトレードオフは、主流のARグラスの開発における大きな障害でした。さらに、ARシステムが小さくなるにつれて、熱排出と電力効率の問題が重要になります。高品質のディスプレイとコンパクトなフォームファクターの制約のバランスをとるには、ハードウェアとソフトウェアの設計に革新的なアプローチが必要です。ミニチュア化の探求には、ユーザーの快適性と社会的受容性に関する課題も含まれます。ARグラスは、長時間の着用に耐えるだけの軽量性と目立たなさが必要であり、同時に、公共の場で着用しても目立たない程度のスタイル性も必要です。これらの障害にもかかわらず、コンパクトなARディスプレイの潜在的な利点は、引き続きこの分野の研究と開発を推進しています。さまざまな業界での生産性の向上から、個人のコミュニケーションとエンターテインメントの革命まで、シームレスに統合されたAR技術の約束は、イノベーターとテクノロジー愛好家にとって引き続き魅力的な目標であり続けています。新しいハイブリッドアプローチこの分野では、研究者たちは、新しいアプローチをARディスプレイ技術に開発しました。これは、複数の光学技術を1つの高解像度システムに組み合わせたものです。この新しいハイブリッド設計は、メタサーフェス、屈折レンズ、microLEDスクリーンを統合して、コンパクトなARディスプレイを作成します。このディスプレイは、標準的な眼鏡に収まる可能性があります。メタサーフェスは、特定のパターンでエッチングされた超薄膜であり、microLEDスクリーンから発せられる光の初期の形成と焦点を提供するメカニズムとして機能します。この光は、合成ポリマーで作られた屈折レンズを通過し、画像をさらに改良して、収差を減らし、鮮明さを高めます。このシステムが際立つのは、ハードウェアコンポーネントだけではなく、革新的なコンピューターアルゴリズムの使用です。これらのアルゴリズムは、光がmicroLEDを出る前に、光学システムの小さな不完備を識別して修正する上で重要な役割を果たします。この事前処理ステップにより、最終的な画像品質が大幅に向上し、ミニチュア化されたARディスプレイの可能性の限界が拡大します。プロトタイプの性能とテスト彼らの革新をテストするために、研究チームは、プロトタイプの眼鏡にハイブリッドARディスプレイを統合しました。結果は印象的で、システムは30度の視野で2％未満の歪みを達成しました。このレベルのパフォーマンスは、より大きな4レンズシステムを使用する現在の商用ARプラットフォームと比較できます。特に注目すべきデモンストレーションの1つでは、チームは新しいシステムを使用してレッサーパンダの画像を投影しました。コンピューター事前処理アルゴリズムを適用した後、再投影された画像は、元の画像と74.3％の構造的類似性を示しました。これは、修正されていない投影よりも4％の改善でした。これらの結果は、新しいハイブリッドアプローチが、より大きなARシステムのパフォーマンスに匹敵するか、さらには上回る可能性があることを示唆しています。すべてが、毎日の着用に適したフォームファクターに収まるという点でです。応用と将来の展望ARについて議論する際に、ゲームやエンターテインメントがしばしば主導権を握りますが、この技術の潜在的な応用は、はるかに広範囲に及んでいます。よりコンパクトで効率的なARディスプレイが利用可能になれば、医療や輸送などの分野で革命的な影響が見られる可能性があります。例えば、手術では、ARは外科医の視野に直接三次元の解剖学的視覚化を提供できます。これにより、複雑な手術の精度が向上し、結果が改善される可能性があります。自動車業界では、ARは運転体験を変革する可能性があります。ナビゲーション情報を表示したり、潜在的な危険を強調したり、自動運転システムに重要なデータを提供したりするウィンドシールドを想像してみてください。すべてが、運転手の視界を妨げることなく行われます。今後、研究者は、フルカラー表示をサポートするシステムの開発を目指しています。これにより、AR技術の潜在的な応用が大幅に拡大します。ただし、主流の採用への道のりには、さらなるミニチュア化、電力効率の改善、広範なAR使用に関連する潜在的な社会的およびプライバシーに関する懸念に対処する必要があります。結論ARディスプレイ技術のこのブレークスルーは、実用的で毎日のARグラスの現実化に向けた重要なステップを表しています。革新的な光学技術と巧妙な計算アプローチを組み合わせることで、研究者は、高品質のARディスプレイを、通常の眼鏡に収まるフォームファクターで作成することが可能であることを実証しました。この技術が進化を続けるにつれて、私たちは、新しい時代の入り口に立っています。ここでは、デジタル情報が私たちの物理的な世界とシームレスに統合されます。私たちが働き、学び、環境とやり取りする方法が変化する可能性があり、広範なAR技術の影響は深遠です。まだ克服しなければならない障害があるものの、この研究は、ARが単なる新奇性ではなく、私たちの日常生活の一部となる未来への魅力的な一瞥を提供しています。開発が続けば、近い将来、私たちは、新しいレンズを通して世界を見ているかもしれません。そこでは、デジタルと物理の領域のギャップが、まだ始まったばかりの想像力によって橋渡しされます。
September 13, 2024
By Dr. Tehseen Zia

生成可能AIブループリント：建築の未来を再定義する

建築の未来は、従来のブループリントや設計ツールに限られなくなった。生成可能AIは、空間を概念化し、構築する方法を再定義し、新しいツールを提供して複雑な設計を簡素化し、革新的な可能性を探索し、持続可能性を最適化している。生成可能AI駆動のブループリントが設計プロセスに統合されるにつれ、建築の未来は、私たちがまだ理解し始めている段階で進化している。この記事では、生成可能AIが建築設計の未来をどのように静かに形作っているかを詳しく見ていく。設計プロセスの合理化建築を設計することは、構造的完全性、エネルギー効率、美観のバランスを求める複雑なプロセスであり、時間と慎重な考慮を必要とする。生成可能AIは、このプロセスを簡素化することで、建築家やデザイナーが時間のかかるタスクの負担を軽減する。特定のパラメータに基づいて複数の設計オプションを迅速に生成することができる——これは、人間のデザイナーが達成するには長い時間が必要である。この効率性により、設計の評価がより徹底的に行えるようになり、持続可能性や構造的完全性などの要素を考慮することができる。Autodeskの生成可能設計、Grasshopper for Rhino、Houdiniなどのツールが、生成可能AIを使用した設計の可能性を探索するために開発されている。Text-to-CAD（Computer-Aided Designの略）は、生成可能AIの新しい分野であり、テキストプロンプトを3Dモデルに変換することを扱う。特定の幾何学的形状を記述的な単語とリンクすることで、これらのAIシステムはさまざまな形状やスタイルを生成し、ダウンロード可能なCADモデルを生成する。GoogleのDreamFusion、OpenAIのPoint-E、NvidiaのMagic3D、AutodeskのCLIP-Forgeなどの革新的なツールを使用して、生成可能AIは、建築設計をさまざまな業界で加速させ、建築家やデザイナーに複雑なタスクの簡素化を提供している。創造性の強化生成可能AIは、設計プロセスを合理化するだけでなく、人間の創造性を大幅に強化している。Zaha Hadid Architectsのような先駆的な企業は、構造物の視覚化にこのテクノロジーを使用し、さまざまな持続可能性や美観のオプションを迅速に評価できるようにしている。生成可能AIは、迅速に多数の設計バリエーションを生成し、建築家がプロジェクトの最良のアイデアを見つけ、洗練するのを支援する。さらに、生成可能AIを標準のCADツールに統合することで、建築家はルーティンなタスクを自動化し、コンプライアンスレポートの作成やスケジュール管理を行うことができる。これにより、彼らの貴重な時間をより複雑で創造的な作業に集中できるようになり、生産性と革新性が向上する。生成可能AIの潜在能力は、建築家やデザイナーにとって創造性を高める源となり、創造性の境界を押し広げるインスピレーションとなっている。デジタルツインと予測モデリング生成可能AIの特徴的な機能の1つは、デジタルツイン——物理構造の仮想モデル——を生成する能力である。デジタルツインは、環境ストレスや構造負荷などのさまざまな条件下での構造物の動作をシミュレートする。デジタルツインを詳細なストレステストに通すことで、設計段階の早期に潜在的な問題を検出して解決することができる。これにより、予期せぬ問題のリスクを最小限に抑え、建設中または建設後の高額な改修の可能性を大幅に減らすことができる。課題を予測し、事前に解決することで、より情報に基づいた意思決定とスムーズなプロジェクト実行が可能になる。持続可能性とエネルギー効率持続可能性への焦点が高まるにつれ、生成可能AIは建築物のパフォーマンスを向上させる上で重要な役割を果たしている。エネルギー効率と環境考慮を設計プロセスに統合することで、AIは、建築家やエンジニアが環境への影響を低減する材料や設計を選択するのを支援する。生成可能AIは、エネルギー効率の高いシステムやエコフレンドリーな材料を推奨し、廃棄物やリソースの消費を削減する。設計段階の早期に持続可能性を考慮することで、建物はより環境に優しく、コスト効率の高いものになる。生成可能AIが進化するにつれ、持続可能な建設への影響はさらに大きくなるため、より責任ある慣行や効率的な設計が実現する。課題と将来の方向生成可能AIは建築や土木工学に興奮する可能性を提供するが、課題ももたらす。テクノロジーは設計プロセスを簡素化し、加速させることができるが、管理が難しい複雑さの層も追加する。AIによって生成された設計がクライアントのニーズ、安全基準、実用的な要件と一致することを保証するには、継続的な監視が必要である。企業は、独自の設計哲学に合わせたカスタムAIシステムを開発するか、詳細度や特異性のレベルが異なる、汎用的なオフザシェルフソリューションに頼るかを決定しなければならない。AIが設計でより多くの責任を負うにつれ、特に知的財産や責任について、明確な倫理ガイドラインの必要性が高まる。这些課題に対処することは、AIを建築分野で責任を持って使用するために不可欠である。将来を見据えて、生成可能AIは建築や土木工学のブループリントを再定義する可能性を持っているが、既存の慣行に慎重に統合する必要がある。AIアルゴリズムの進歩により、生成可能AIは洗練された精密な設計を生み出すことができ、創造性を高めながら機能性を維持する。ただし、データ処理の複雑さを管理し、業界標準を確立するための慎重な計画が必要である。明確な規制や倫理的枠組みも、知的財産や責任に関する懸念に対処するために不可欠である。这些課題に対処することで、業界は生成可能AIの全潜在力を責任を持って利用し、建築や土木工学設計の実用的および倫理的な基準を維持することができる。結論生成可能AIは、建築のブループリントを再定義し、複雑な設計を簡素化し、創造性を高め、持続可能性を優先するツールを提供する。AIは、空間を概念化し、構築する方法を変え、設計プロセスの合理化からデジタルツインの作成、エネルギー効率の向上までを網羅する。ただし、その採用は、複雑さの管理、倫理的な慣行の確保、AIによって生成された設計をクライアントのニーズと一致させるなどの課題ももたらす。テクノロジーが進化するにつれ、建築の未来に対する大きな期待があるが、責任を持ってその全潜在力を利用するには、慎重な統合と明確なガイドラインが不可欠である。troduces課題、such as管理する複雑さ、倫理的な慣行を確保する、andクライアントのニーズと一致させるAIによって生成された設計。As technology evolves, it holds great promise for the future of architecture, but thoughtful integration and explicit guidelines...
June 6, 2023
By Alex McFarland

AppleのVision Proの発表: オーグメンテッド・リアリティにおける革命的な一歩

Appleは、最新の革新的な製品であるVision Proを発表し、オーグメンテッド・リアリティ（AR）とバーチャル・リアリティ（VR）の分野に大胆に参入しました。Vision Proについては、発表以来多くの話題があり、そのARとVRの景観を変える可能性についての期待が高まっています。この記事では、デバイスの詳細、独自の機能、およびテクノロジーの将来について論じます。Vision Proの紹介AppleのVision Proは、ユーザーに並外れたARとVRの体験を提供するように設計されており、Appleの評価されたデザイン哲学であるソフトウェアとハードウェアのシームレスな統合を活用しています。AppleはAR/VR分野に最初に参入した企業ではありませんでしたが、確実に大胆なエントリーを果たしました。スリックなデザインで快適性を損なわず、ARとVRの可能性を拡大する多数の機能を備えたVision Proは、Appleの革新への取り組みの証です。 Vision Proはスタンドアロン・デバイスであり、コンピューターまたはコンソールに接続する必要はありません。これは大きな利点であり、ユーザーは仮想空間を自由に移動して探索できます。また、ヘッドセットは調整可能なストラップとクッションで設計されており、快適性を損なわずに長時間使用できます。没入、対話、革新Vision Proの核心は、シームレスなAR/VR体験を提供するための強力な機能セットです。デバイスは高解像度のRetinaディスプレイを備え、ARとVRモードをシームレスに切り替えることができます。VRモードでは、スクリーンは2つの異なる画像を各目に表示することで3D体験を提供し、深度感覚を再現します。 Vision Proには、ユーザーの動きと周囲の環境を追跡するためのセンサーも含まれています。デバイスの超広角カメラは、より広い視野角を提供し、より没入感のあるVR体験に貢献します。同様に、ヘッドセットのLIDARスキャナーは、ユーザーの物理的な環境をリアルタイムで理解し、適応します。Vision Proの独自の機能は、Appleの先進的なAIテクノロジーの応用であり、独自のAシリーズチップを使用して複雑な計算を実行します。これにより、Vision Proはユーザーのジェスチャーを理解し、仮想環境内での対話を強化できます。さらに、デバイスにはAppleのボイスアシスタントであるSiriが搭載されており、ボイスコマンドによるナビゲーションとコマンドが可能です。しかし、もしかしたら最も注目すべき機能はVision Proの「パススルー・モード」です。このモードでは、Vision Proのカメラが現実世界の景色をキャプチャし、ヘッドセットの内側に表示します。ユーザーは仮想世界と対話しながら、物理的な周囲環境も認識できます。現実と想像の架け橋Vision Proは、ユーザーが仮想オブジェクトと現実世界のように対話できるようにします。仮想の風景を探索したり、インタラクティブなゲームに参加したり、3Dモデリングやデザインなどのプロフェッショナルなアプリケーションに参加したり、Vision Proは無限の可能性を提供します。デバイスの空間オーディオ機能は、この没入感のある体験をさらに強化します。方向性オーディオ技術を使用して、仮想環境内の特定の位置からの音をシミュレートし、VR体験にリアルさを追加します。さらに、AppleはVision Proが新しいRealityOSをサポートすることを確認しました。このオペレーティングシステムは、ARとVRデバイス専用に開発されており、開発者がより没入感のあるインタラクティブなアプリケーションを作成できるようにします。Apple Vision Proの購入方法高く評価されているApple Vision Proは、発表されましたが、すぐに店頭に並ぶことはありません。Appleは、来年初頭の発売を予定しており、世界中のテクノロジー愛好家の間で期待の高まりを引き起こしています。ただし、Vision Proに込められた画期的なテクノロジーは、高価な価格帯になることを意味します。...
March 6, 2023
By Ari Grobman

ARグラスの未来はAIによって実現される

人工知能の進歩は、主流の会話を支配しています。AIの応用は限りなく思いつくものの、それが私たちの世界と私たちがそれと関わるやり方を変えることは驚くことではありません。多くの他の業界と同様に、それは特に拡張現実に当てはまります。AIモデルは、特にモバイルデバイスアプリで、没入型のAR体験を構築するために既に使用されています。拡張現実と人工知能の分野は、実世界とデジタル世界をより徹底的に融合させる、直感的でユニークな体験を作成するために共同で作業しています。AIとAR開発の次のフロンティアは、没入型エンゲージメントの可能性を拡大するために、消費者向けARグラスに高度なAI機能を実装することです。生成的なAIは、3Dワールドの作成を加速し、着用者が自分の現実を作成するための限りない可能性を生み出す生成的なAIには、アルゴリズム、言語モデル、物理世界とやり取りするために必要な計算を実行するために使用可能な処理能力の向上が含まれます。現在、ARグラスにおける3Dモデルには制限があります。これは、基本的に手動で行われているためです。ただし、生成的なAIはこれらを非常に迅速に、また自動的に作成します。 ARグラスにおける生成的なAIは、3Dモデルをより迅速に構築するのに役立ち、ARの全潜在能力を解放します。このデジタルワールドの作成は、物理世界を重ねるために、より迅速に、より完全に、また没入感があり、手動での労力が必要なくなるでしょう。生成的なAIは、ユーザー体験と物理空間とのやり取りを変えるでしょう。生成的なAIを搭載したARグラスを着用することで、着用者は文字通り、想像力を現実世界に重ねることができます。コードを書く必要なく、着用者は音声認識を使用して、ARグラスを通じて、正確にどのようにしたいのかを「画像」と「3Dオブジェクト」を話すことができます。彼らは「部屋の中を泳いでいるイルカを想像して」と言うことができ、それが彼らの目の前に現れます。この没入感の機会は、エンターテイメント、仕事、さらに先のためにほぼ無限です。生成的なAIを使用するARグラスは、より没入感があり、よりパーソナライズされたゲーム体験を生み出すことで、ゲームの世界も変えるでしょう。たとえば、ChatGPTを使用すると、よりリアルなキャラクターを作成し、新しいクエストやゲームワールドを追加することが容易になります。また、プレイヤーの行動を分析し、リアルタイムでゲームをより簡単またはより挑戦的にすることで、ゲーム体験を改善し、自動的に体験をカスタマイズすることもできます。AIを使用した音声と書き文字の翻訳は言語の壁を減らす自動音声認識（ASR）は、音声認識のための画像処理を使用するアルゴリズム（音声認識にテキストを抽出する）に依存するニューラルネットワークオーディオビジュアル音声認識を使用します。これは、外国でのメニューなどの書き文字を、リアルタイムにあなたの母国語に翻訳することができます。これをARグラスで適用すると、誰かが別の言語で話している間、ARグラスの枠内であなたの母国語のリアルタイム字幕を提供できます。これは、現地語でコミュニケーションを試みる観光客やビジネスマンの挫折感を除去し、よりコミュニケーションが豊かで協力的な世界を生み出します。テキスト認識と翻訳は、AI光学文字認識（OCR）テクニックとテキストからテキストへの翻訳エンジンであるDeepLを組み合わせます。Stable DiffusionのようなAIエンジンは、コミュニケーションを補うアニメーションまたはその他の視覚的な補助を提供することでコミュニケーションを強化することもできます。これは、ユーザーの関与を深めます。AIを使用するARグラスは、ユーザーが目の前にいるプレゼンテーションやパネルで何を言っているかに関連する画像またはビデオをリアルタイムで表示できます。Googleは最近、この機能を備えたARグラスの開発を発表しました。これはまた、聴覚障害者のコミュニティが、唇を読んだり目を見たりする必要なく、日常会話に参加できるようにします。音声が着用者の目の前に表示されるキャプションに即座に変換されるからです。AIは、ヘルスケア、教育、そして多くの他の分野でその存在を感じさせています。すぐに、人気のあるサイエンスフィクションのように、人々を拡張現実または仮想現実の環境に運び、AIが部屋や話者の位置を迅速にマッピングして、どの場所にいても双方のコミュニケーションをよりスムーズに、より手軽にします。AIは、ARグラスが実世界のオブジェクトを簡単に検出してラベル付けするのを支援し、没入感を深める畳み込みニューラルネットワーク（CNN）アルゴリズムは、現在、モバイルデバイスでシーン内のオブジェクトの位置と範囲を推定するために使用されています。オブジェクトを検出した後、ARソフトウェアはオブジェクトにテキストを重ねたり、物理世界に別のオブジェクトを生成したり、2つの間で相互作用を作成したりすることができます。現実世界に重ねられたオブジェクトには、指導、ナビゲーション、食事と栄養、そしてその他多くのアプリケーションがあります。AI機能を備えたARグラスを着用すると、たとえば、ユーザーはどの都市の通りを歩いても、都市とそのランドマークについてリアルタイムで学習できます。ARグラスは、ユーザーのフレームを通じて、都市とそのランドマークを識別してラベル付けし、情報を提供できます。オブジェクト認識技術が改善されると、どの食品や食事のサイズについても、カロリー、タンパク質、脂肪、コレステロールなどの栄養データが利用可能になります。一方で、製品のシンプルなQRコードは、ユーザーに栄養の詳細を表示します。単なるオブジェクト検出以外に、人を検出するための顔認識ソフトウェアも、すでに普及しています。顔認識は、航空業界で飛行機の乗客の身分を確認するために使用されており、ボーディングプロセスを迅速化し、セキュリティ層を追加しています。ARグラスで顔認識を使用すると、着用者に認識の力を与えることができます。たとえば、近い将来、ARグラスを使用して、ソーシャルメディアで他の人と出会い、彼らの背景情報を瞬時に受け取ることができ、友達になるかつながるかを決めることができるでしょう。AIを使用するARグラスは、私たちの生活を変えています。また、その視覚的表現と機能は、継続的に改善されていきます。私たちがますます接続された世界で、タスクを簡素化し、数年前では不可能と思われた壁を打ち破っています。人工知能の進歩は非常に速いため、次の10年でAIは、前の50年よりも多くの進歩を遂げるでしょう。政府、ビジネス、または個人の環境に関係なく、人工知能はすぐにARグラスと融合して、物理的およびデジタルの環境を統合するでしょう。
January 16, 2023
By Haziqa Sajid

医療における拡張現実の応用

人工知能やコンピュータビジョンなどの技術は、よりアクセスしやすくなり、使いやすくなっています。これらの技術の潜在能力は、ほぼすべての業界で先進的な機能ベースの技術を提供するための採用を促進しています。そうした技術の一つは、拡張現実 (AR) であり、デジタル情報をユーザーの環境とリアルタイムで統合します。拡張現実は、主にエンターテインメントやゲーム業界と関連付けられていますが、医療分野でも著しい進歩を遂げています。特に、放射線科のような専門分野において、拡張現実が革命をもたらす可能性は大きいです。このブログでは、医療におけるARの応用とその影響について探ります。医療における拡張現実の影響医療ミスの研究によると、年間約150万人が医療ミスによる非致死的傷害を負っています。医療ミスを減らし、患者ケアと安全性を向上させるために適用される技術として、ARは、視覚化を介して医師が患者にアクセスし、救急隊員が治療指示を支援し、緊急医療サービス (EMS) を使用して患者さんの現在の状態を直接診断することを目的としています。AR技術は、医療のトレーニングと教育にシミュレーションを創出し、学生がリアルタイムで練習できるようにすることで影響を与えます。実践的なスキルに重点を置いています。また、患者ごとに特定の情報を医療専門家に提供し、患者ケアチームのメンバー間のコミュニケーションを改善します。さらに、ARは、ビデオテレヘルス機能を使用して遠隔地の医療専門家とのリアルタイムコミュニケーションを容易にし、医療がリソースを効率的に割り当てることを可能にすることでコストを削減するのに役立ちます。医療における拡張現実の6つの応用拡張現実は、医療専門家が患者を診断、治療、教育する方法を革命的に変えています。ここでは、ARが違いをもたらしている医療における6つのAR応用例を紹介します。医療トレーニング AR技術を使用した医療トレーニングは、今日の医療では珍しくありません。医学生がケースベースのシミュレーションをインタラクティブに実践することを可能にします。ARツールは、安全なデジタル環境で学習者がスキルを身に付けるのを支援します。ARベースの医療トレーニングを使用すると、学生は自分のペースで練習し、手順を繰り返し、最新の手術技術にリアルタイムでアクセスできます。例えば、Touch Surgeryは、手術シミュレーションを使用して手術を練習できるARベースのスタートアップです。手術用AR対応アシスタンス外科医は、遠隔地の外科専門家、医師、または医療機器/技術の専門家からリアルタイムの手術中の指示を受けることができます。これは、手術が複雑で、外科医が手術中に追加の技術的専門知識を得ることができる場合に特に役立ちます。医療専門家は、X線やCTスキャンの画像を患者さんの体に表示するためにAR対応ヘッドセットを使用します。これにより、リアルタイムに患者さんのX線画像を得ることができます。病院内ARナビゲーション医療施設は多くの建物やフロアで構成されており、ナビゲーションが複雑で時間がかかることがあります。ARベースの屋内ナビゲーションは、患者さんと医療スタッフが建物をナビゲートし、部屋や機器を素早く見つけることを支援します。ARナビゲーションは、AR技術を使用して、ユーザーのデバイス (タブレットやスマートフォンなど) のカメラで見える実世界の環境の上に方向を表示します。薬剤発見 AR技術は、複雑な遺伝子データを評価できるように、薬剤発見におけるデータ視覚化に適用され、科学者や医療専門家が使用します。ARは、製薬会社での薬剤発見やさまざまな疾患の研究開発プロセスに役立ちます。さらに、技術は、遠隔地で働く他の科学者と情報を共有するために使用され、サンプルのセキュリティとデータ統合を強化して、世界的な医療協力を促進します。AR技術は3Dビューを提供できるため、薬剤が体内でどのように作用するかを3Dで観察できます。また、ラボテクは、実験を追跡するためにARを使用する特殊な機器を使用します。静脈視覚化今日、医師や看護師は、患者さんの静脈を検出するための携帯式ARデバイスを使用しています。デバイスは、赤外線レーザーを使用して静脈を検出し、画像を患者さんの皮膚に表示して、医療専門家が支援します。例えば、AccuVeinは、静脈視覚化デバイスです。静脈検出プロセスに役立ち、静脈注射の精度を向上させます。このデバイスは、血液抽出、美容手術など、さまざまな手順で使用できます。介入放射線介入放射線は、疾患を診断および治療するために、X線フルオロスコピー、磁気共鳴画像法など、医療用画像技術を使用する医療分野です。ARは、CT画像を密な3D構造マップに変換し、医療用画像技術を促進するのに役立ちます。ARを使用すると、医療専門家は、手術放射線プロセス中に3D空間で医療画像を表示またはアクセスできます。これにより、強化されたガイダンスが得られます。医療における拡張現実の未来医療における拡張現実の台頭、たとえば手術シミュレーション、診断、画像診断、患者ケア管理は、世界的なAR市場の販売機会を促進しています。ARと他の技術の統合がさらに進み、よりパーソナライズされた患者ケアが期待できます。また、5Gネットワークの拡大により、クラウドベースの拡張現実をサポートし、ARアプリケーションに高速なデータ転送と低遅延を提供することができます。Unite.AIや人工知能、機械学習に関する業界のトレンドについてさらに詳しく知りたい場合は、unite.aiの記事を読むことができます。
October 19, 2022
By Alex McFarland

新しいゲーム技術により、VRでにおいを感じることができる

ストックホルム大学とマルメ大学の共同研究により、仮想現実（VR）環境でにおいを感じることができる新技術が開発されました。この新しい機械は、におい計と呼ばれ、3Dプリンターで印刷できます。この研究は、マリアナとマーカス・ヴァレンバーグ財団によって資金提供され、International Journal of Human — Computer Studiesに掲載されました。ジョナス・オロフソンは、ストックホルム大学の心理学教授であり、研究プロジェクトのリーダーです。「新しい技術的可能性により、ゲーム開発においてにおいがより重要な役割を果たすことができることを希望しています」とオロフソンは述べています。におい機械の開発コンピュータゲームは従来、見えるもの（スクリーン上の動く画像など）に焦点を当ててきたのですが、それ以外の感覚にはあまり焦点を当てていませんでした。しかし、これは変わりつつあります。研究グループは、ゲームコンピュータによって制御されるにおい機械を開発しました。参加者は仮想のワインセラーの中で動き、さまざまなワインのグラスを持ち上げながら、そのにおいを当てます。におい機械は、VRシステムのコントローラーに接続されています。プレイヤーがグラスを持ち上げると、においが放出されます。サイモン・ニーデンタールは、マルメ大学のインタラクションおよびゲーム研究者です。「受動的なにおいからより能動的なにおいへと移行する可能性は、プレイヤーの動きや判断に基づいた、新しいにおいベースのゲームメカニクスの開発の道を開きます」とニーデンタールは述べています。におい計の構造におい計には4つのバルブがあり、それぞれがチャンネルに接続されています。中央には、チューブに空気を吸い込むファンがあります。コンピュータにより、プレイヤーが4つのチャンネルを制御でき、それぞれの度合いによってさまざまなにおいの混合物が提供されます。においのブレンドは、実際のワインの複雑さを模倣しており、ゲームには複雑さに基づいたさまざまなレベルの難易度があります。「通常のコンピュータゲームと同様に、プレイヤーが上達するとゲームがより難しくなります。においゲームも、すでに敏感な鼻を持つプレイヤーに挑戦できます。これは、におい機械がワインテイスターまたはパフューマーを訓練するために使用できることを意味します」とオロフソンは述べています。チームは、機械のコード、ブループリント、説明書、および仮想の味見ゲームのコードをすべてオンラインで公開しました。研究グループは、今後におい付きのコンピュータゲームがより幅広い応用分野に拡大することを希望しています。「例えば、COVID-19の後においを失った人やその他の理由でにおいを失った人にとって、新技術はにおいを取り戻すためのゲームベースのトレーニングの機会を提供できます」とオロフソンは述べています。「私は、図面やコードが「オープンソース」として公開されていることで、ゲーム会社が新しい技術を使用したにおいトレーニング用の新しい商用製品の開発を開始する機会が得られることを希望しています」と彼は続けています。サイモン・ニーデンタールは、技術のオープンソース側面が、ゲーム開発におけるアクセシビリティ、再現性、結果の比較を促進するのに役立つと述べています。また、研究と設計のコミュニティの確立にも役立ちます。「しかし、それはまた、機器のコストが大幅に削減されることを意味し、より多くの人にとって利用可能になります。私たちにとって、それは重要です」とニーデンタールは述べています。「私たちは、オープンサイエンスを信じています。つまり、研究結果は一般に公開され、他の研究者が私たちの結果を再現できるべきであるということです。私たちの研究の助けにより、他の人はにおい機械を構築し、ゲームにおけるにおいの新しい使用方法を探索できます」とオロフソンは述べています。
July 15, 2022
By Alex McFarland

研究顯示電子遊戲玩家的大腦活動增強

最近由佐治亞州立大學的研究團隊進行的一項研究表明，經常玩電子遊戲的人在感覺運動決策技能和某些大腦區域的活動方面比非玩家更強。研究人員在新研究中使用了功能性磁共振成像（FMRI），並表示這可能表明電子遊戲是感覺決策訓練的一種有用的工具。電子遊戲玩家Mukesh Dhamala 是佐治亞州立大學物理和天文學系以及神經科學研究所的領導研究員和副教授。“電子遊戲由我們的年輕人中的絕大多數玩了超過三個小時，每周，但對決策能力和大腦的有益影響尚不清楚，” Dhamala 說。“我們的工作對此提供了一些答案，” Dhamala 繼續說。“電子遊戲可以有效地用於訓練 – 例如，決策效率訓練和治療干預 – 一旦相關的大腦網絡被識別。”訓練人類大腦Tim Jordan 是研究的第一作者，他分享了一個個人故事，講述了如何使用電子遊戲來訓練人類大腦。Jordan 小時候有一隻眼睛視力不好，在5歲時，他參加了一項研究，研究人員要求他遮住好眼，玩電子遊戲來加強另一隻眼睛的視力。Jordan 相信電子遊戲幫助他從一隻眼睛幾乎失明到具有強大的視覺處理能力，這使他最終能夠參加體育活動。Jordan 現在是加州大學洛杉磯分校的博士後研究員。新的研究項目涉及47名大學生，28名被歸類為經常玩電子遊戲的人，19名被歸類為非玩家。參與者躺在FMRI機器內，機器上有一個鏡子，可以讓他們看到一個提示，然後是一個移動的點的顯示。他們被要求按下右手或左手的按鈕來指示點的移動方向，或者如果沒有檢測到任何方向的運動，就不按按鈕。結果顯示，電子遊戲玩家在檢測這種運動方面更快、更準確，對於結果的大腦掃描分析發現，電子遊戲玩家在某些大腦區域的活動增強。“這些結果表明，電子遊戲玩家可能會增強感覺、感知和映射到行動的子過程，以提高決策能力，”作者寫道。“這些發現開始闡明電子遊戲如何改變大腦以提高任務性能及其對增加任務特定活動的潛在影響。”研究還發現，速度和準確性的反應之間沒有折衷。“這種缺乏速度-準確性的折衷將表明電子遊戲是一種良好的認知訓練候選者，關於決策，”作者結論道。
July 14, 2022
By Zac Amos

AIがメタバースを実現する方法

メタバースは現在最も重要な台頭しているテクノロジーの1つです。実際、メタバースは仮想世界でそんなに大きな波紋を起こしているので、ソーシャルメディアの大手Facebookは公式名称をMetaに変更して、新しい宇宙の重要性を反映しました。AIは、メタバースの包摂性とアクセシビリティにおいて重要な役割を果たす可能性があり、より機能的でユーザーフレンドリーなものにするでしょう。しかし、これらのテクノロジーは、インターネットと一般的なビジネスをどのように変えるでしょうか。メタバースとは何かメタバースは、実世界の要素をシミュレートする仮想宇宙のすべてです。以下のテクノロジーを使用します: 人工知能仮想現実拡張現実 3Dアニメーションブロックチェーンメタバースは、Web3の拡張です。現在のインターネットの仕組みを書き直したものです。メタバースとWeb3はブロックチェーン技術に依存しており、情報の保存と所有の仕組みを変えます。支持者は、これにより新しい経済と、権力が人々に返される製品が生まれると主張しています。メタバースの層メタバースには、7つの層があります: 体験発見クリエイター経済空間コンピューティング分散化人間インターフェースインフラストラクチャ AIはメタバースとどのように連携していますか?AIにより、コンピューターは独立して決定を下すことができます。主にマシンラーニングを通じてです。AIは、ビジネスと製品の観点からメタバースの機能をサポートし、また包摂性とアクセシビリティの観点からもサポートします。メタバースとAIがどのように相互作用するかを見てみましょう。デジタルペルソナAIは、顔認識ソフトウェアやその他のテクノロジーを使用して、ユーザーにとって正確でリアルなアバターを作成します。AIはまた、ユーザーのマナー、顔の表情、非言語的な合図を処理して、より正確なユーザーエクスペリエンスを作成できます。デジタルヒューマンとNPCメタバースのユーザーにとってリアルなアバターを作成することに加えて、AIは、ビデオゲームでよく見られるノンプレーヤーキャラクター (NPC) と呼ばれるリアルなデジタルヒューマンを生成するのに役立ちます。NPCは、メタバースでユーザーとリアルな人と同じようにやり取りします。多言語アクセシビリティAIにより、メタバースは言語をより効果的に処理できるようになります。AIテクノロジーは、自然言語を認識してマシン言語形式に変換し、結果を自然言語に戻します。したがって、世界中のユーザーがメタバースとやり取りできます。自然言語処理 (NLP) により、メタバースのアバターは自然に聞こえる言語を使用できます。問題の解決メタバースは、InstagramやFacebookなどのAIからアルゴリズムを採用して問題を解決します。既存のAIを活用することで、仮想世界はより賢くなり、問題が少なくなるため、より楽しい体験になります。教育とトレーニング将来、メタバースは教育のための貴重なツールになる可能性があります。仕事での新しいポジションのトレーニングやその他の場所でのトレーニングなどです。メタバースのAIは、ユーザーが現実世界の結果に直面するリスクなく、リアルな仮想環境で学ぶ機会を提供し、教師に仮想アシスタントを提供します。メタバースでの教育の良い例は、安全にスカイダイビングを学ぶことです。ビジネスにおけるAIとメタバースブロックチェーンテクノロジーとAIはビジネスとユーザーがメタバース内で製品を作成、販売、購入できるようにし、ビジネスを永遠に変えるかもしれないです。以下は、それがどのように機能するかの一例です:AIOpsAIパワードオペレーションにより、ビジネスはITインフラストラクチャを処理できます。メタバースでは、ダウンタイムを予測し、問題が発生したときにそれを特定できます。AIOpsは、メタバースとともに成長するのに十分なスケーラビリティを備え、常に実行される必要があるため、実装するのが非常に難しいです。AIボットメタバースのAIチャットボットは、マーケティング、カスタマーサービス、販売を支援できます。また、メタバースの製品またはサービスについての情報も提供できます。デジタルツインデジタルツインは、基本的にメタバース内の物理オブジェクトの表現です。企業は、メタバース内に自分自身のデジタルツインバージョンを作成できます。そうすると、将来の問題を予測し、現実世界で企業が直面する問題を解決するのに役立ちます。デジタルアセットユーザーと企業は、メタバース内でアセットを保存および交換できます。メタバースの商品と交換するために、エクスチェンジトレード商品 (ETP) という暗号通貨を使用します。AIとメタバースのリスクメタバース、特にビジネスにとってのメリットがあるにもかかわらず、まだ大きなリスクがあります。以下がそれらの一例です: AIの所有権と、誰がそれから利益を得るかを決定すること。デジタルフォルテューンなどの詐欺などの形で横行する可能性のある詐欺に対する透明性の課題。メタバースにおけるAIテクノロジーの法的使用を決定すること。人工知能を使用する際の長年の倫理的な問題。 TL;DRブルームバーグは報告しているように、メタバースは8000億ドルの市場になる可能性があります。メタバースの支持者は、メタバースはユーザーが自分のデータとアセットを管理する権限を持つ分散型の世界を提供するだろうと主張しています。AIは、仮想世界の機能を強化し、ユーザーの体験を向上させるためにメタバースで使用できます。しかし、AIとメタバースには、特にそれらを使用する企業にとってリスクがあります。
March 16, 2022
By Alex McFarland

シミュレートされた目線の動きがメタバースのトレーニングを支援する

デューク大学のコンピューター技術者は、人間が世界を見るように仮想の目がシミュレートできるように開発しました。仮想の目は、仮想現実と拡張現実プログラムのトレーニングに使用できるほど正確です。メタバースでアプリケーションを作成しようとしている開発者にとって、非常に有益であることが証明されます。結果は、5月4日から6日までに、情報処理センサーネットワーク国際会議（PSN）で発表される予定です。新しい仮想の目は、EyeSynと呼ばれています。アルゴリズムを目のように動作させるためのトレーニングマリア・ゴルラトヴァは、デューク大学のノーテル・ネットワークス電気電子工学助教授です。「目だけを見て、人が漫画本を読んでいるか、高度な文学を読んでいるかを検出することに興味がある場合、それができます」とゴルラトヴァは述べました。「しかし、そのようなアルゴリズムをトレーニングするには、数百人の人々が数時間にわたってヘッドセットを着用したデータが必要です。私たちは、プライバシーに関する懸念を軽減し、またメタバースのゲームに参加するためのリソースを持っていない小規模企業にも門戸を開けるようなソフトウェアを開発したいと考えました」とゴルラトヴァは続けました。人間の目は、退屈しているか、興奮しているか、集中している場所、あるタスクの専門家であるかどうかなど、多くのことを行うことができます。「あなたが視覚を優先する場所は、あなた自身について多くのことを語ります」とゴルラトヴァは述べました。「それは、性的および人種的偏見、他人に知られたくない興味、自分自身でも気づいていない情報などを無意識的に明らかにすることができます」。目線の動きのデータは、メタバースでプラットフォームやソフトウェアを構築する企業にとって非常に有用です。開発者は、エンゲージメントの反応に応じてコンテンツをカスタマイズしたり、周辺視野の解像度を低減したりして、計算処理能力を節約できます。コンピューター科学者のチームは、元ポストドクターのGuohao Lanと現在のPh.D.学生のTim Scargillを含み、人間の平均的な反応を模倣する仮想の目を作成するために、さまざまな刺激音に対するものを開発しました。そうするために、彼らは、人間が世界を見て、仮想の情報を処理する方法を探る認知科学の文献を調べました。ランは現在、オランダのデルフト工科大学の助教授です。「EyeSynに多くの異なる入力を与え、十分に実行すると、（機械学習）分類器を新しいプログラムにトレーニングするのに十分な合成目線の動きのデータセットを作成できます」とゴルラトヴァは述べました。システムのテスト研究者は、公開されているデータを使用して、合成目線の精度をテストしました。目線は、最初にアンソニー・ファウチ博士が記者会見でメディアに話しかける動画を分析するために使用されました。チームは、それを実際の視聴者の目線の動きのデータと比較しました。彼らはまた、合成目線が見ているアートの仮想データセットを、実際の視聴者が見ているアートのデータセットと比較しました。結果は、EyeSynが実際の視線信号の特徴的なパターンを近似し、人間の目が反応するさまざまな方法をシミュレートできることを示しました。ゴルラトヴァは、これらの結果は、EyeSynがメタバースの新しいプラットフォームやソフトウェアのトレーニングに使用できる基準であることを示唆していることを示しています。「合成データだけは完璧ではありませんが、良い出発点です」とゴルラトヴァは述べました。「小規模企業は、人間の被験者を使用して実際のデータセットを構築するための時間とお金を費やすのではなく、それを使用できます。さらに、アルゴリズムのパーソナライゼーションはローカルシステムで実行できるため、人々は自分の目線の動きのデータが大規模なデータベースの一部になることを心配する必要はありません」。
November 21, 2021
By Alex McFarland

新しいテクノロジーにより、タッチスクリーンを通じて物体を「感じる」ことができるようになる

テキサスA&M大学の研究者チームは、タッチスクリーンを通じて物体を「感じる」ことができるような高度なタッチスクリーンテクノロジーの開発を進めています。この新しいテクノロジーは、単にタッチを感知して反応するだけでなく、指がデバイスとどのように相互作用するかをより詳細に定義することで、タッチスクリーンの可能性を拡大します。このチームは、テキサスA&M大学の機械工学科の教授であるCynthia Hipwell博士が率いています。この研究は、先月、Advanced Materialsというジャーナルに掲載されました。新しいタイプの人間と機械のインターフェースチームの目標は、タッチデバイスがよりインタラクティブなタッチベースの体験を提供できるような人間と機械のインターフェースを開発することです。彼らは、物理的な物体の感覚を模倣するテクノロジーを開発することでこれを達成しています。Hipwellによると、より没入感のあるバーチャルリアリティ（VR）プラットフォームや、自動車のダッシュボードのようなタクティルディスプレイインターフェースなど、多くの潜在的な応用があります。また、ユーザーがデバイスを通じて購入する前に実際に素材の質感を感じることができるようなバーチャルショッピング体験も可能になります。「これにより、スクリーン上で実際にテクスチャー、ボタン、スライド、ノブを感じることができるようになります」とHipwellは述べています。「インタラクティブなタッチスクリーンベースのディスプレイに使用できますが、聖杯の一つは確実にオンラインショッピングにタッチを導入することです。そうすれば、ユーザーはオンラインショッピング中に実際に生地や他の製品のテクスチャーを感じることができるようになります」ハプティックテクノロジーの洗練Hipwellは、現在のタッチスクリーンテクノロジーの「タッチ」機能は、実際にはスクリーンのためにあるより多く、ユーザーのためにあるのではないと述べています。しかし、ハプティックテクノロジーの出現と洗練により、ユーザーとデバイスの関係はより相互的なものになりました。タッチを感覚入力として追加することで、バーチャル環境を豊かにし、現在オーディオとビジュアルによって行われているコミュニケーションを容易にすることができます。「バーチャル体験を考える際、それらは現在主にオーディオとビジュアルです。オーディオとビジュアルの過負荷に陥ることがあります」とHipwellは述べています。「人間と機械のインターフェースにタッチを導入することで、多くの機能を追加し、よりリアルな体験を提供し、過負荷を軽減することができます。ハプティック効果を使用して、ユーザーの注意を引くことで、何かを見つけやすくしたり、より低い認知負荷で行うことができます」チームは、ユーザーと環境条件によって変化する、非常に複雑なインターフェースに取り組んでいます。「電気湿度効果（電界によって生じる力）、静電気効果、指の特性の変化、デバイスの物性と表面幾何学、接触力学、流体の運動、電荷輸送 —— すべてのインターフェースで起こっていることを理解して、デバイスをより信頼性が高く、高性能なものにするための設計を行っている」とHipwellは述べています。「最終的には、私たちの目標は、最大のハプティック効果と、ユーザーと環境の変化に対する最小の感度を持つデバイスを作成できる予測モデルを作成することです」Hipwellは、これらの機能が次の数年以内に一般的なデバイスに実装されることを信じています。「初期の要素は、間違いなく5年以内に実現するでしょう」とHipwellは述べています。「その後は、テクノロジーを成熟させ、どれだけ高度でリアルで普及するかを見ていくことになります」
October 22, 2021
By Martin Anderson

本当のフォーカシングシステムを備えた‘安価’な拡張現実

Institute of Electrical and Electronics Engineers (IEEE)の研究者は、特殊な眼鏡を使用して投影された3Dイメージを、実物のようにフォーカスインとフォーカスアウトさせる方法を開発しました。この方法は、低コストの投影型拡張現実インストールの真実性を高め、制御された環境での投影システムの実用的な使用のための重要な認識的障壁を克服します。システムは、視聴者の眼鏡に組み込まれた電気焦点調整可能レンズ（ETL）を使用し、投影システムと通信して、視聴者が見る投影映像のぼけ度を自動的に変更します。論文では、マルチフォーカルステレオ投影マッピングと題して、ユーザーがオブジェクトに焦点を当てる方法と統合されていない分野に新しいレベルの使いやすさを提供します。このシステムは、vergence–accommodation conflict (VAC)の問題を克服することを約束しており、これは、オブジェクトの認識距離とその論理的な焦点距離が一致しないシンドロームであり、オブジェクトが実際の位置でぼけていないように浮いているように見えます。AR環境、たとえばMicrosoftのHoloLensでは、foveated renderingを使用して、処理能力を集中させ、視聴者がどこを見てフォーカスしているかによって、詳細と焦点をレンダリングします。しかし、HoloLensのようなウェアラブルARシステムには、実際に3Dイメージを視聴者に提供するために、より大きなオンボードハードウェア負荷が必要です。投影型拡張現実の利点一方、ETL対応の眼鏡は、焦点情報をリモートのCGパイプラインに追加の変数として送信するだけで済みます。これは、焦点情報がウェアラブルARデバイス（たとえば、焦点情報 > リモートプロセッサに送信 > レンダリング > 視聴者に送信）で行われるラウンドトリップよりも、投影画像の焦点をより迅速に変更できます。さらに、遅延を改善しますが、これ自体がARシステムでの視聴者の向き不良の潜在的な原因です。実質的に、foveated renderingは、ユーザーに真実の焦点体験を提供するのと同じくらい、利用可能なリソースの制限に合わせて使用されています。HoloLensスタイルのシステムでは、大規模な領域の重ね合わせたイメージは実現が難しく、レンダリングの「レターボックス」と不安定なエッジが定期的な苦情となっています。論文では、ステレオ投影マッピング（PM）が、重い身体装着型装置に依存するより現代的なARの実装よりも、いくつかの既知の利点を持っていることを観察しています。著者は以下のように述べています：まず、プロジェクターの数を環境全体をカバーするために増やすことで、視野角（FOV）を可能な限り広くすることができます。二つ目は、通常、活性シャッター眼鏡はHMDよりもはるかに軽く、物理的な負担が少ないためです。三つ目は、複数のユーザーが、視点が十分に近い場合、同じAR体験を共有できます。これらの利点により、研究者は、博物館ガイド、建築計画、製品設計、医療トレーニング、形状変更インターフェイス、およびテレビ会議などの幅広いアプリケーションにステレオ投影マッピングが適していることを発見しました。Microsoft Researchによって2012年に実装されたものの1つは、以下のとおりです：https://www.youtube.com/watch?v=EaCjTog0u40IEEEの研究者は、新しい焦点入力システムが、多焦点平面を制御することでVACを最初に解決したものであり、また、特化した投影機器の必要性なく、汎用的かつ広く適用可能な方法でこの問題を解決した最初のシステムであると主張しています。研究者によって開発された焦点中心のレンダリングパイプラインは、レンダリングプロセスの最初から視聴者のETL眼鏡からの焦点情報を受け取り、基礎となるコンピューターがレンダリングしてからぼけるのではなく、焦点情報に基づいてぼけ度を変更します。実装によっては、これによりさらに処理リソースが節約され、視聴者の焦点が仮想要素を移動するときに遅延が改善される可能性があります。この技術は、平面、非平面（曲がったまたは複雑な幾何学、たとえば医療用X線画像を重ねるためのダミー）、および移動する表面などのさまざまな投影表面で動作することが報告されています。このような投影システムでは、ダークな環境（博物館の環境など）が必要であり、ETLシステムは視聴者の利用可能な視野角を減らしますが、研究者は、ETL機器のアパーチャーサイズの増加により、この制限は時間の経過とともに緩和されるだろうと主張しています。著者はまた、システムが高速度プロジェクターを必要とすることを指摘していますが、実装には、市販のオフザシェルフプロジェクターを使用しました。https://www.youtube.com/watch?v=I8DGTQnxm38 *インライン引用をハイパーリンクに変換しました。
October 2, 2021
By Alex McFarland

研究者がVRが子供と大人を異なって影響することを発見

エコール・ポリテクニーク・フェデラール・ド・ローザンヌ（ローザンヌ連邦理工大学）の研究者は、バーチャル・リアリティ（VR）が子供と大人を異なって影響することを発見した。この新しい研究は、子供と大人に対してこの分野で行われた研究が非常に少ないことを考えると、非常に重要である。VRに関する興味深い観察2016年、ローザンヌ連邦理工大学の卒業生であるJennifer Miehlbradtは、興味深い観察を行った。Miehlbradtは、ユーザーが自分の胴体を動かして、バーチャルな風景の中の障害物を回避するようにした。「大人たちは、単純な胴体の動きでバーチャルな障害物を通過することに問題なかったが、子供たちはどうしてもできないことが分かった」とMiehlbradtは言った。「そのとき、Silvestroは私を彼の事務所に呼んだ」当時、Miehlbradtは、Silvestro Micera、Bertarelli Foundation Chair in Translation Neuroengineeringの指導を受けていた。2人は、VR胴体実験にはもっと深い意味があることを認識し、それは子供の神経系の発達について何かを示唆している可能性があることを認識した。子供に対するVRヘッドセットの影響に関する研究は、まだ行われていなかった。このことを念頭に置いて、チームはイタリア工科大学と共同で、数年間にわたってこの研究を行うことにした。研究には、6歳から10歳までの80人の子供が参加し、結果は先月、Scientific Reportsに掲載された。「この研究は、技術が運動制御を理解するための潜在能力を確認するものである」とMiceraは言う。大人たちは、自転車に乗るのと同様に、頭の動きを胴体から簡単に切り離すことができる。このプロセスには、内耳からの視覚や、体の動き、位置、作用を感知するための複雑な感覚入力の統合が必要である。子供たちの場合、胴体と頭の動きの調整がまだ発達途上にあるため、すぐに大人たちと異なった特徴が見られる。この研究の興味深い発見の1つは、25年間上半身の調整の発達を説明するために使用されてきた発達モデルに反することである。このモデルは、頭胴系の解離への一方向的な移行を予測し、8歳で姿勢制御が成熟することを示唆している。 Miehlbradtは現在、ローザンヌ大学（UNIL）でポスドクを終えている。「モデルによると、1歳で歩き始めることから6〜7歳まで、子供たちは上半身を一つの固体として制御し、胴体、頭、腕の間に剛体的なリンクがある。6〜7歳を過ぎると、子供たちは徐々にすべての関節を独立して制御することを学び、しかし、難しい状況では剛体的な戦略に頼る」とMiehlbradtは続けた。「しかし、代わりに、私たちは、バーチャルシステムを使用して体の動きで制御する場合、年齢の若い子供たちは頭と胴体を別々に動かそうとするが、大人たちは剛体的な戦略を使用することを発見した」実験の結果チームが行った実験では、子供たちにVRヘッドセットと動きセンサーを装着させ、2つのゲームをプレイさせた。両方の実験で、子供たちは頭を使った制御能力が大人たちと似ていたが、胴体を使った制御能力では大人たちに追いつくことができなかった。子供たちは、バーチャルな風景の中で、さまざまな方向に表示された線と頭と胴体を合わせるよう求められた。同時に、合わせた誤差と頭胴体の調整が測定された。実験では、子供たちは頭の制御を比較的簡単にマスターすることができたが、胴体をバーチャルな線に合わせるよう求められたとき、最も年齢の若い子供たちは動きを過大評価し、頭を動かして補償しようとした。 2つ目のゲームでは、子供たちはバーチャルな世界で飛行シミュレーションに参加するよう求められた。子供たちは、飛行中の鳥の背に座り、飛行中のコインを集めるように求められた。子供たちは再び、頭を使った制御が簡単であった。科学者によると、これはすべて、頭の制御がVR環境では視覚入力と望ましい方向が一致しているため簡単であることを示唆している。胴体の制御の場合、視覚を実際の制御から切り離す必要があり、頭胴体の調整が必要である。年齢の若い子供たちは、視覚入力に頼ることが多く、VR環境は子供の脳を簡単に圧倒することができる。「結果は、没入型VRが子供たちのデフォルトの調整戦略を混乱させ、視覚、位置覚、前庭入力を視覚のために再配置することを示している」とMiehlbradtは説明する。「VRは、レジャーや治療の応用、リハビリテーション、神経リハビリテーション、または恐怖症や恐怖的な状況の治療などの分野で人気を博している。様々なシナリオを作成し、面白い要素をもたらすことができるため、この技術は子供たちにとって特に魅力的であり、没入型VRが子供たちのデフォルトの調整戦略を混乱させる可能性があることを認識する必要がある」とMiehlbradtは言う。
September 27, 2021
By Martin Anderson

TikTok開発者が顔消去技術を開発、拡張現実アプリケーション向け

ByteDance、TikTokを運営する中国の多国籍インターネット企業は、新しい手法を開発し、動画内の顔消去を実現し、アイデンティティ歪曲やその他の奇妙な効果を拡張現実アプリケーションで実現できるようになりました。同社は、この技術がすでに商用モバイル製品に統合されていると主張していますが、どの製品に統合されたかについては言及していません。動画内の顔が「ゼロ化」されると、目を見張るような歪みや、他のアイデンティティを重ねることが可能になります。ByteDanceの研究者による新しい論文に示されている例では、さまざまなコミカル（そして確実にグロテスクな）構成で「消去された」機能を復元する可能性が示されています。8月末、TikTokがTikTok Effect Studio（現在クローズドベータ）を立ち上げたことが明らかになりました。これは、TikTokコンテンツストリーム用のARエフェクトを作成するためのプラットフォームです。実質的に、同社は、FacebookのAR StudioやSnap ARなどの開発者コミュニティに追いついています。AppleのAR R&Dコミュニティも、近いうちに新しいハードウェアによって活性化される予定です。空白の表情論文では、FaceEraser: Removing Facial Parts for Augmented Realityというタイトルが付けられており、既存のインペイント/インフィルアルゴリズム（例：NVIDIAのSPADE）は、画像の完了や部分的な隠蔽ではなく、この特殊な「ブランク」手順に重点を置いているため、既存のデータセット資料は当然ながら希少です。顔が「ゼロ化」されると、目を見張るような歪みや、他のアイデンティティを重ねることが可能になります。ByteDanceの研究者による新しい論文に示されている例では、さまざまなコミカル（そして確実にグロテスクな）構成で「消去された」機能を復元する可能性が示されています。「ブランク」顔のモデルをトレーニングするには、研究者は、メガネをかけた画像や、髪が額を隠す画像を除外しました。髪の生え際と眉毛の間の領域は、通常、中央の顔の特徴を「貼り付け」するための最大のピクセルグループを提供するからです。256×256ピクセルの画像が得られ、これはニューラルネットワークの潜在的な空間に入力できるサイズです。後でアルゴリズムによるアップスケーリングによって、AR空間で必要な解像度が回復されます。アーキテクチャネットワークは、エッジ完了、ピクセルクローン、精査ネットワークの3つの内部ネットワークで構成されています。エッジ完了ネットワークは、EdgeConnect（上記参照）や2つの最も人気のあるディープフェイクアプリケーションで使用されているエンコーダー-デコーダーのアーキテクチャを使用しています。エンコーダーは画像コンテンツを2回ダウンサンプリングし、デコーダーは元の画像の寸法を回復します。ピクセルクローンは、修正されたエンコーダー-デコーダー方式を使用し、精査層はU-Netアーキテクチャを使用しています。これは、もともとバイオメディカルイメージングのために開発された技術で、画像合成の研究プロジェクトでよく使用されています。トレーニングワークフロー中に、変換の精度を評価し、必要に応じて繰り返し試行を繰り返す必要があります。そのため、PatchGANに基づく2つのディスクリミネーターを使用し、それぞれが70×70ピクセルのパッチの現実性を評価し、画像全体の現実性の値を無視します。トレーニングとデータエッジ完了ネットワークは最初に独立してトレーニングされ、他の2つのネットワークは、エッジ完了トレーニングの結果として得られた重みに基づいてトレーニングされます。この重みは、プロセス中に固定され、凍結されます。論文では、最終的な特徴の歪みの例が中央の目的であることを明示的に述べていませんが、システムの堅牢性をテストするために、さまざまなコミカルなエフェクト（そして確実にグロテスクなエフェクト）を実装しています。トレーニングされたモデルは、2017年のCelebA-HQやVoxCeleb、FFHQの未見の顔、または提示された他の未知の顔に対して推論を実行できます。256×256の画像は、Adamオプティマイザを実装したPyTorchで、Tesla V100 GPU上で「2000,000エポック」でネットワークにバッチサイズ8でトレーニングされました。顔ベースの画像合成の研究では、システムは、髪、周辺部、メガネ、ひげなどの障害や隠蔽によって引き起こされる偶発的な故障に対処する必要があります。報告書は以下のように結論付けられています：「私たちのアプローチは商業化されており、制限のないユーザー入力に対して製品でうまく機能しています。」
March 15, 2021
By Daniel Nelson

研究者が開発したAIパワーのリアルタイム3Dホログラムをスマートフォンで生成

スマートフォンは、MITの研究者によって開発されたAIモデルのおかげで、写真のようにリアルな3Dホログラムを生成できるようになるかもしれない。MITチームによって開発されたAIシステムは、入力画像のシリーズからホログラムを生成するための最良の方法を決定する。MITの研究者は最近、写真のようにリアルな3Dホログラムを生成できるAIモデルを設計した。この技術は、VRとARヘッドセットに応用できる可能性があり、ホログラムは дажеスマートフォンによって生成できる。伝統的な3DとVRディスプレイは、深さのイリュージョンを生み出すだけであり、目に負担を与え、頭痛を引き起こすことがある。一方、ホログラフィックディスプレイは、目に負担を与えずに人々によって見ることができる。ホログラフィックメディアの生成における大きな障害は、実際にホログラムを生成するために必要なデータの処理である。すべてのホログラムは、ホログラムの「深さ」を生み出すために大量のデータで構成されているため、ホログラムを生成するには大量の計算能力が必要である。ホログラフィック技術をより実用的にするために、MITチームは深層畳み込みニューラルネットワークをこの問題に適用し、入力画像に基づいてホログラムを迅速に生成できるネットワークを作成した。ホログラムを生成するための従来のアプローチは、ホログラムの多くのチャンクを生成し、物理シミュレーションを使用してチャンクをオブジェクトまたは画像の完全な表現に結合するものである。これは、ホログラムを生成するための従来のアプローチと異なる。伝統的な方法では、画像をスライスに分割し、ルックアップテーブルを使用してホログラムのチャンクを結合する。ルックアップテーブルは、ホログラムのチャンクの境界を示す。ホログラフィックチャンクの境界をルックアップテーブルで定義するプロセスは、時間がかかり、処理能力を大量に消費する。IEEE Spectrumによると、MITチームはホログラムを生成するための別の方法を設計した。深層学習ネットワークの力を利用して、画像をスライスに分割し、ホログラムに再コンパイルできるチャンクを生成できる。新しいテクニックは、畳み込みニューラルネットワークが画像を分析し、画像を離散的なチャンクに分割する能力を利用する。画像を分析し、チャンクに分割するこの新しい方法は、システムが実行する必要がある操作の総数を大幅に削減する。AIパワーのホログラフィックジェネレーターを設計するために、研究チームは、約4000のコンピューター生成画像で構成されるデータベースを構築し、それぞれの画像に対応する3Dホログラムを割り当てた。畳み込みニューラルネットワークは、このデータセットでトレーニングされ、各画像がそのホログラムにどのように結びついているか、ホログラムを生成するための最良の方法を学習した。AIシステムが未見のデータと深さ情報を提供されると、新しいホログラムをそのデータから生成できる。深さ情報は、LiDARセンサーまたはマルチカメラディスプレイを使用して提供され、コンピューター生成画像としてレンダリングされる。新しいiPhoneにはこれらのコンポーネントが含まれているため、適切なディスプレイに接続するとホログラムを生成できる可能性がある。新しいAI駆動のホログラムシステムは、従来の方法よりもはるかに少ないメモリを必要とする。システムは、約620キロバイトのメモリを使用して、1秒あたり60フレームのフルカラーで1920 x 1080の解像度の3Dホログラムを生成できる。研究者は、iPhone 11でシステムを実行し、約1秒あたり1つのホログラムを生成できた。Google Edge TPUでは、システムは1秒あたり2つのホログラムをレンダリングできた。これは、システムがスマートフォン、ARデバイス、VRデバイスに適応できることを示唆している。システムは、ボリュメトリック3Dプリンティングまたはホログラフィック顕微鏡の設計にも応用できる。将来的には、技術の改善により、アイトラッキングハードウェアとソフトウェアが導入され、ユーザーが特定の場所を見ているときにホログラムが動的に解像度をスケールできるようになる。

More Posts

Page 1 of 212