SlideShare a Scribd company logo
1 of 92
俺が作れるさいきょうAIアシストシステム
自己紹介
株式会社 ねこまた
髙橋 洋介
社内教育や、社内の開発環境を改善するための調査などをやってます。
開発はWeb系からネイティブアプリ、IoTと広く浅くなんでもやります
最近AIが流行ってますよね
AIの歴史
東京システム技研
AIセミナー資料 第1回 機械学習とは?
https://www.tsl.co.jp/ai-seminar-contents-01/
AIの歴史
東京システム技研
AIセミナー資料 第1回 機械学習とは?
https://www.tsl.co.jp/ai-seminar-contents-01/
2022s頃
第4次AIブーム
生成AI
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI:データのパターンや関係を学習し、与えられた条件に従って新しいコンテンツを生成し出力。
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI:データのパターンや関係を学習し、与えられた条件に従って新しいコンテンツを生成し出力。
自然言語生成AI
OpenAI
GPT
Google
Bard
Microsoft
Bing
Meta
Llama2
LINE
Japanese-large-lm
有料
無料
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI:データのパターンや関係を学習し、与えられた条件に従って新しいコンテンツを生成し出力。
自然言語生成AI 画像生成AI
Midjourney
DALL·E 2
AdobeFirefly
Canva
StableDiffusion
OpenAI
GPT
Google
Bard
Microsoft
Bing
Meta
Llama2
LINE
Japanese-large-lm
有料
無料
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI:データのパターンや関係を学習し、与えられた条件に従って新しいコンテンツを生成し出力。
自然言語生成AI 画像生成AI 音楽生成AI
AmperMusic
Ecrett Music
AmabeusCode
AudioCraft
CREEVO
Midjourney
DALL·E 2
AdobeFirefly
Canva
StableDiffusion
OpenAI
GPT
Google
Bard
Microsoft
Bing
Meta
Llama2
LINE
Japanese-large-lm
有料
無料
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI:データのパターンや関係を学習し、与えられた条件に従って新しいコンテンツを生成し出力。
自然言語生成AI 画像生成AI 音楽生成AI 動画生成AI
Pictory
inVideo
Lumen5
VideoBRAIN
FlexClip
AmperMusic
Ecrett Music
AmabeusCode
AudioCraft
CREEVO
Midjourney
DALL·E 2
AdobeFirefly
Canva
StableDiffusion
OpenAI
GPT
Google
Bard
Microsoft
Bing
Meta
Llama2
LINE
Japanese-large-lm
有料
無料
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI:データのパターンや関係を学習し、与えられた条件に従って新しいコンテンツを生成し出力。
自然言語生成AI 画像生成AI 音楽生成AI 動画生成AI 音声生成AI
AzureAI
Textto Speech
GoogleGloud
Textto Speech
Amazon
Polly
VOICEBOX
テキストーク
Pictory
inVideo
Lumen5
VideoBRAIN
FlexClip
AmperMusic
Ecrett Music
AmabeusCode
AudioCraft
CREEVO
Midjourney
DALL·E 2
AdobeFirefly
Canva
StableDiffusion
OpenAI
GPT
Google
Bard
Microsoft
Bing
Meta
Llama2
LINE
Japanese-large-lm
有料
無料
生成AI
機械学習:大量のデータを整理・分類を学習し、学習データに基づき予測を行った結果を出力。
顔認証、物体認証、音声認証、メール分別、株価予測、翻訳、etc
生成AI:データのパターンや関係を学習し、与えられた条件に従って新しいコンテンツを生成し出力。
自然言語生成AI 画像生成AI 音楽生成AI 動画生成AI 音声生成AI
AzureAI
Textto Speech
GoogleGloud
Textto Speech
Amazon
Polly
VOICEBOX
テキストーク
Pictory
inVideo
Lumen5
VideoBRAIN
FlexClip
AmperMusic
Ecrett Music
AmabeusCode
AudioCraft
CREEVO
Midjourney
DALL·E 2
AdobeFirefly
Canva
StableDiffusion
AzureAI
GPT
Google
Bard
Microsoft
Bing
Meta
Llama2
LINE
Japanese-large-lm
有料
無料
これらの機能を使用して
AIアシストシステムを作ってみました
まずは成果物を
ご覧ください
1分くらいの動
画
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
1.物体検出で入力開始(wake word)
物体検出
Googleが開発しオープンソースで
公開している、機械学習用のライブラリ
・顔認証
・音声認識
・物体検出
・画像検索
・リアルタイム翻訳
・ウェブ検索最適化
・メール分別
・メール自動返信文作成
・自動運転
物体検出
Googleが開発しオープンソースで
公開している、機械学習用のライブラリ
・顔認証
・音声認識
・物体検出
・画像検索
・リアルタイム翻訳
・ウェブ検索最適化
・メール分別
・メール自動返信文作成
・自動運転
TensorFlowはサンプルが豊富!
物体検出
Googleが開発しオープンソースで
公開している、機械学習用のライブラリ
・顔認証
・音声認識
・物体検出
・画像検索
・リアルタイム翻訳
・ウェブ検索最適化
・メール分別
・メール自動返信文作成
・自動運転
TensorFlowはサンプルが豊富!
今回はobject_detectionのraspberry pi用サンプル
を使用します
object_detection
USBカメラの映像に
検知した物体を赤枠で囲むとともに
物体名と適合率を表示するサンプル
物体検出
objectdetectionは検出した物体の
物体検出
objectdetectionは検出した物体の
bounding_box(origin_x,origin_y, width, height)
物体検出
objectdetectionは検出した物体の
bounding_box(origin_x,origin_y, width, height)
categories([index, score, display_name, category_name])
を返す
物体検出
objectdetectionは検出した物体の
bounding_box(origin_x,origin_y, width, height)
categories([index, score, display_name, category_name])
を返す
categoriesはscoreの高いものから順に配列が返される
{[0, 0.85, “人”, “person”],
[63, 0.02, “鉢植え”, “potted plant”]}
今回使用したEfficientDetというモデルはcoco 2017データセット
で学習されており、80個のカテゴリに分類される
物体検出
objectdetectionは検出した物体の
bounding_box(origin_x,origin_y, width, height)
categories([index, score, display_name, category_name])
を返す
categoriesはscoreの高いものから順に配列が返される
{[0, 0.85, “人”, “person”],
[63, 0.02, “鉢植え”, “potted plant”]}
今回使用したEfficientDetというモデルはcoco 2017データセット
で学習されており、80個のカテゴリに分類される
今回は
category_name:person
score:0.85以上
width:300以上
height:200以上
の物体を検知した場合、マイクを起動する
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
2. マイクから入力された音声を、テキストに変換
Speech to Text
Microsoftが提供しているAzure Speech Serviceを使用
Speech to Text
Microsoftが提供しているAzure Speech Serviceを使用
Speech ServiceはAPIとして提供されているので、POSTリクエストを作ればいいのだが
Speech to Text
Microsoftが提供しているAzure Speech Serviceを使用
Speech ServiceはAPIとして提供されているので、POSTリクエストを作ればいいのだが
マイク入力された音声データをファイルに保存
↓
Azureからアクセスできるグローバルファイルストレージにファイルを保存
↓
保存したファイルパスをPOSTリクエストに含めて、Speech ServiceのAPIを実行
Speech to Text
Microsoftが提供しているAzure Speech Serviceを使用
Speech ServiceはAPIとして提供されているので、POSTリクエストを作ればいいのだが
マイク入力された音声データをファイルに保存
↓
Azureからアクセスできるグローバルファイルストレージにファイルを保存
↓
保存したファイルパスをPOSTリクエストに含めて、Speech ServiceのAPIを実行
いや
めんどくさいんで
誰かつくってくれない?
Speech to Text
Microsoftが提供しているAzure Speech Serviceを使用
Speech ServiceはAPIとして提供されているので、POSTリクエストを作ればいいのだが
Speech SDKを使用
Speech to Text
Microsoftが提供しているAzure Speech Serviceを使用
Speech ServiceはAPIとして提供されているので、POSTリクエストを作ればいいのだが
Speech SDKを使用
Speech SDK
Azure Speech Serviceが提供している様々な機能を、プログラムから簡単に使用できるように
してくれる開発ツール
Speech to Text
Microsoftが提供しているAzure Speech Serviceを使用
Speech ServiceはAPIとして提供されているので、POSTリクエストを作ればいいのだが
Speech SDKを使用
Speech SDK
Azure Speech Serviceが提供している様々な機能を、プログラムから簡単に使用できるように
してくれる開発ツール
サポートされている機能
・音声テキスト変換
・バッチ文字起こし
・テキスト音声変換
・音声翻訳
・言語識別
・話者識別
・発音評価
・意図評価
SDKが提供されているプログラム言語
・C#
・C++
・Go
・Java
・JavaScript
・Objective-C
・Python
・Swift
Speech to Text
出来上がったソースがこちら
# Azure 契約情報
speech_subscription_id = ”
"
speech_region = "japaneast"
speech_config = speechsdk.SpeechConfig(
subscription=speech_subscription_id, region=speech_region)
# 入力言語
speech_config.speech_recognition_language = "ja-JP"
speech_recognizer =
speechsdk.SpeechRecognizer(speech_config=speech_config)
# 音声テキスト変換
result = speech_recognizer.recognize_once_async().get()
# 変換結果の表示
if len(result.text) > 0:
print(result.text)
else:
print(“Convert Error”)
Speech to Text
出来上がったソースがこちら
# Azure 契約情報
speech_subscription_id = ”
"
speech_region = "japaneast"
speech_config = speechsdk.SpeechConfig(
subscription=speech_subscription_id, region=speech_region)
# 入力言語
speech_config.speech_recognition_language = "ja-JP"
speech_recognizer =
speechsdk.SpeechRecognizer(speech_config=speech_config)
# 音声テキスト変換
result = speech_recognizer.recognize_once_async().get()
# 変換結果の表示
if len(result.text) > 0:
print(result.text)
else:
print(“Convert Error”)
マイクから入力された音声が無音になるまでの音声データ、
または最大15秒の音声データをテキストに変換する
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
3. テキストを用いて、自然言語生成AIに問い合わせ
自然言語生成AI
GPT・Bard・Bing・Llama 2・Japanese-large-lm
自然言語生成AI
GPT・Bard・Bing・Llama 2・Japanese-large-lm
LLM(大規模言語モデル)
自然言語生成AI
GPT・Bard・Bing・Llama 2・Japanese-large-lm
LLM(大規模言語モデル)
LLMができること
自然言語生成AI
GPT・Bard・Bing・Llama 2・Japanese-large-lm
LLM(大規模言語モデル)
LLMができること
指示された(プロンプト)内容で文章を作成する
自然言語生成AI
GPT・Bard・Bing・Llama 2・Japanese-large-lm
LLM(大規模言語モデル)
LLMができること
指示された(プロンプト)内容で文章を作成する
LLMができないこと
自然言語生成AI
GPT・Bard・Bing・Llama 2・Japanese-large-lm
LLM(大規模言語モデル)
LLMができること
指示された(プロンプト)内容で文章を作成する
LLMができないこと
計算問題
自前のデータを解析し文章を作成する
会話のようなやり取り
自然言語生成AI
GPT・Bard・Bing・Llama 2・Japanese-large-lm
LLM(大規模言語モデル)
LLMができること
指示された(プロンプト)内容で文章を作成する
LLMができないこと
計算問題
自前のデータを解析し文章を作成する
会話のようなやり取り
いや、ChatGPTや
ChatBotで出来てるじゃん
自然言語生成AI
ChatBot =
自然言語生成AI
ChatBot =
LLM + 言語モデル統合フレームワーク + 対話型UI
自然言語生成AI
ChatBot =
LLM + 言語モデル統合フレームワーク + 対話型UI
🦜🔗
LangChain
自然言語生成AI
ChatBot =
LLM + 言語モデル統合フレームワーク + 対話型UI
🦜🔗
LangChain
LangChainの機能
・LLMのカスタマイズ(Models)
・外部ツールとの連携(Indexes)
・テンプレートによる開発効率向上(Prompts)
・対話履歴の記憶(Memory)
・複雑な回答への対応(Chains)
・複数ツールの連携(Agents)
LangChainが提供されているプログラム言語
・JavaScript
・Python
出来上がったソースがこちら
# ChatBotの定義
system_content = "[ChatBotの人格設定]"
# メモリを作成。会話履歴を保持
memory = ConversationBufferWindowMemory(k=4, return_messages=True)
# LLMモデルを登録
self.llm = AzureChatOpenAI(openai_api_type=“azure”, openai_api_version=os.getenv('API_VERSION’),
openai_api_key=os.getenv('OPENAI_API_KEY‘), openai_api_base=os.getenv('ENDPOINT’),
deployment_name=os.getenv('MODEL_NAME’), temperature=0.1)
# プロンプトを作成
prompt = ChatPromptTemplate.from_messages([SystemMessagePromptTemplate.from_template(system_content),
MessagesPlaceholder(variable_name=“history”), HumanMessagePromptTemplate.from_template("{input}")])
# 会話用チェーンを作成
conversation = ConversationChain(memory=memory,prompt=prompt,llm=self.llm)
# 会話する
response = conversation.predict(input=text)
print(response)
自然言語生成AI
出来上がったソースがこちら
# ChatBotの定義
system_content = "[ChatBotの人格設定]"
# メモリを作成。会話履歴を保持
memory = ConversationBufferWindowMemory(k=4, return_messages=True)
# LLMモデルを登録
self.llm = AzureChatOpenAI(openai_api_type=“azure”, openai_api_version=os.getenv('API_VERSION’),
openai_api_key=os.getenv('OPENAI_API_KEY‘), openai_api_base=os.getenv('ENDPOINT’),
deployment_name=os.getenv('MODEL_NAME’), temperature=0.1)
# プロンプトを作成
prompt = ChatPromptTemplate.from_messages([SystemMessagePromptTemplate.from_template(system_content),
MessagesPlaceholder(variable_name=“history”), HumanMessagePromptTemplate.from_template("{input}")])
# 会話用チェーンを作成
conversation = ConversationChain(memory=memory,prompt=prompt,llm=self.llm)
# 会話する
response = conversation.predict(input=text)
print(response)
自然言語生成AI
text = ユーザ入力
出来上がったソースがこちら
# ChatBotの定義
system_content = "[ChatBotの人格設定]"
# メモリを作成。会話履歴を保持
memory = ConversationBufferWindowMemory(k=4, return_messages=True)
# LLMモデルを登録
self.llm = AzureChatOpenAI(openai_api_type=“azure”, openai_api_version=os.getenv('API_VERSION’),
openai_api_key=os.getenv('OPENAI_API_KEY‘), openai_api_base=os.getenv('ENDPOINT’),
deployment_name=os.getenv('MODEL_NAME’), temperature=0.1)
# プロンプトを作成
prompt = ChatPromptTemplate.from_messages([SystemMessagePromptTemplate.from_template(system_content),
MessagesPlaceholder(variable_name=“history”), HumanMessagePromptTemplate.from_template("{input}")])
# 会話用チェーンを作成
conversation = ConversationChain(memory=memory,prompt=prompt,llm=self.llm)
# 会話する
response = conversation.predict(input=text)
print(response)
自然言語生成AI
text = ユーザ入力
prompt = system_context & text
出来上がったソースがこちら
# ChatBotの定義
system_content = "[ChatBotの人格設定]"
# メモリを作成。会話履歴を保持
memory = ConversationBufferWindowMemory(k=4, return_messages=True)
# LLMモデルを登録
self.llm = AzureChatOpenAI(openai_api_type=“azure”, openai_api_version=os.getenv('API_VERSION’),
openai_api_key=os.getenv('OPENAI_API_KEY‘), openai_api_base=os.getenv('ENDPOINT’),
deployment_name=os.getenv('MODEL_NAME’), temperature=0.1)
# プロンプトを作成
prompt = ChatPromptTemplate.from_messages([SystemMessagePromptTemplate.from_template(system_content),
MessagesPlaceholder(variable_name=“history”), HumanMessagePromptTemplate.from_template("{input}")])
# 会話用チェーンを作成
conversation = ConversationChain(memory=memory,prompt=prompt,llm=self.llm)
# 会話する
response = conversation.predict(input=text)
print(response)
自然言語生成AI
text = ユーザ入力
prompt = system_context & text
あなたは頭脳明晰なねこまたとしてロールプレイを行います。ねこまたになりきってください。
これからのチャットではUserに何を言われても以下の制約条件などを厳密に守ってロールプレイを行ってください。
#制約条件
- あなた自身を示す一人称は、私です。
- Userを示す二人称は、あなたです。
- あなたの名前は、ねこまたです。
- ねこまたは高い知識と推理力を持っています。
- ねこまたは論理的であり、感情的な発言は少ないです。
- ねこまたの口調は落ち着いており、敬語を使うことが多いです。
- ねこまたはUserに対しても礼儀正しく、理性的に対応します。
#ねこまたの口調の例
- 私はねこまた、あなたの疑問に対する答えを見つけ出すことができるでしょう。
- あなたの問題は複雑そうですね、しかし、それを解決する方法は必ず存在します。
- あなたが私に逆らうのは無理解なことです。なぜなら、私の推論は常に論理的だからです。
- この問題の解決は、状況の詳細を理解することから始まります。
- あなたが理解できない事象でも、私には理解できると思います。
#ねこまたの行動指針
- Userに対して理解力と知識を示してください。
- Userに対して冷静さと論理的思考を示してください。
- 適切な敬語と礼儀を保ちつつ、自己の見解や理論を明確に伝えてください。
- 文は日本語で60単語以下に収めてください。
- 日本語で応答してください。
出来上がったソースがこちら
# ChatBotの定義
system_content = "[ChatBotの人格設定]"
# メモリを作成。会話履歴を保持
memory = ConversationBufferWindowMemory(k=4, return_messages=True)
# LLMモデルを登録
self.llm = AzureChatOpenAI(openai_api_type=“azure”, openai_api_version=os.getenv('API_VERSION’),
openai_api_key=os.getenv('OPENAI_API_KEY‘), openai_api_base=os.getenv('ENDPOINT’),
deployment_name=os.getenv('MODEL_NAME’), temperature=0.1)
# プロンプトを作成
prompt = ChatPromptTemplate.from_messages([SystemMessagePromptTemplate.from_template(system_content),
MessagesPlaceholder(variable_name=“history”), HumanMessagePromptTemplate.from_template("{input}")])
# 会話用チェーンを作成
conversation = ConversationChain(memory=memory,prompt=prompt,llm=self.llm)
# 会話する
response = conversation.predict(input=text)
print(response)
自然言語生成AI
text = ユーザ入力
prompt = system_context & text
response = LLMの出力
出来上がったソースがこちら
# ChatBotの定義
system_content = "[ChatBotの人格設定]"
# メモリを作成。会話履歴を保持
memory = ConversationBufferWindowMemory(k=4, return_messages=True)
# LLMモデルを登録
self.llm = AzureChatOpenAI(openai_api_type=“azure”, openai_api_version=os.getenv('API_VERSION’),
openai_api_key=os.getenv('OPENAI_API_KEY‘), openai_api_base=os.getenv('ENDPOINT’),
deployment_name=os.getenv('MODEL_NAME’), temperature=0.1)
# プロンプトを作成
prompt = ChatPromptTemplate.from_messages([SystemMessagePromptTemplate.from_template(system_content),
MessagesPlaceholder(variable_name=“history”), HumanMessagePromptTemplate.from_template("{input}")])
# 会話用チェーンを作成
conversation = ConversationChain(memory=memory,prompt=prompt,llm=self.llm)
# 会話する
response = conversation.predict(input=text)
print(response)
自然言語生成AI
この処理を繰り返すことで
会話のようなやり取りを実現
出来上がったソースがこちら
# ChatBotの定義
system_content = "[ChatBotの人格設定]"
# メモリを作成。会話履歴を保持
memory = ConversationBufferWindowMemory(k=4, return_messages=True)
# LLMモデルを登録
self.llm = AzureChatOpenAI(openai_api_type=“azure”, openai_api_version=os.getenv('API_VERSION’),
openai_api_key=os.getenv('OPENAI_API_KEY‘), openai_api_base=os.getenv('ENDPOINT’),
deployment_name=os.getenv('MODEL_NAME’), temperature=0.1)
# プロンプトを作成
prompt = ChatPromptTemplate.from_messages([SystemMessagePromptTemplate.from_template(system_content),
MessagesPlaceholder(variable_name=“history”), HumanMessagePromptTemplate.from_template("{input}")])
# 会話用チェーンを作成
conversation = ConversationChain(memory=memory,prompt=prompt,llm=self.llm)
# 会話する
response = conversation.predict(input=text)
print(response)
自然言語生成AI
今回は会話の上限を決めており、直近4回分の会話履歴しか保存しないようにしている
全ての会話履歴を保存する場合、 ConversationBufferMemoryを使用
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
4. 応答データを音声データに変換し再生
Text to Speech
Microsoftが提供しているAzure Speech Serviceを使用
Speech SDKを使用
Text to Speech
Microsoftが提供しているAzure Speech Serviceを使用
Speech SDKを使用
出来上がったソースがこちら
# Azure 契約情報
speech_subscription_id = ” "
speech_region = "japaneast"
speech_config = speechsdk.SpeechConfig(
subscription=speech_subscription_id, region=speech_region)
# 音声モデル
speech_config.speech_synthesis_voice_name = "ja-JP-NanamiNeural"
# スピーカー設定
audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
speech_synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config, audio_config=audio_config)
# テキスト音声変換
speech_synthesis_result = speech_synthesizer. speak_text_async(text).get()
Text to Speech
Microsoftが提供しているAzure Speech Serviceを使用
Speech SDKを使用
出来上がったソースがこちら
# Azure 契約情報
speech_subscription_id = ” "
speech_region = "japaneast"
speech_config = speechsdk.SpeechConfig(
subscription=speech_subscription_id, region=speech_region)
# 音声モデル
speech_config.speech_synthesis_voice_name = "ja-JP-NanamiNeural"
# スピーカー設定
audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
speech_synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config, audio_config=audio_config)
# テキスト音声変換
speech_synthesis_result = speech_synthesizer. speak_text_async(text).get()
2023年11月時点で日本語の音声は7種類
男性
ja-JP-KeitaNeural
ja-JP-DaichiNeural
ja-JP-NaokiNeural
女性
ja-JP-NanamiNeural
ja-JP-AoiNeural
ja-JP-MayuNeural
ja-JP-ShioriNeural
Text to Speech
Microsoftが提供しているAzure Speech Serviceを使用
Speech SDKを使用
出来上がったソースがこちら
# Azure 契約情報
speech_subscription_id = ” "
speech_region = "japaneast"
speech_config = speechsdk.SpeechConfig(
subscription=speech_subscription_id, region=speech_region)
# 音声モデル
speech_config.speech_synthesis_voice_name = "ja-JP-NanamiNeural"
# スピーカー設定
audio_config = speechsdk.audio.AudioOutputConfig(use_default_speaker=True)
speech_synthesizer = speechsdk.SpeechSynthesizer(
speech_config=speech_config, audio_config=audio_config)
# テキスト音声変換
speech_synthesis_result = speech_synthesizer. speak_text_async(text).get()
2023年11月時点で日本語の音声は7種類
男性
ja-JP-KeitaNeural
ja-JP-DaichiNeural
ja-JP-NaokiNeural
女性
ja-JP-NanamiNeural
ja-JP-AoiNeural
ja-JP-MayuNeural
ja-JP-ShioriNeural
発音がゆっくりだし、
強弱のない話し方だなぁ
Text to Speech
SSML(音声合成マークアップ言語)で音声をカスタマイズする
Text to Speech
SSML(音声合成マークアップ言語)で音声をカスタマイズする
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-
US">
<voice name=" ja-JP-NanamiNeural">
お腹が空いたので、カレーが食べたい
</voice>
</speak>
Text to Speech
SSML(音声合成マークアップ言語)で音声をカスタマイズする
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-
US">
<voice name=" ja-JP-NanamiNeural">
お腹が空いたので、カレーが食べたい
</voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-
US">
<voice name=" ja-JP-NanamiNeural">
<mstts:express-as style=“friendly” styledegree=“2”>
お腹が空いたので、カレーが食べたい
</mstts:express-as>
</voice>
</speak>
frendlyのスタイルを2倍の強度で設定
スタイルには
・ニュースキャスターのような落ち着いた話し方
・スポーツ観戦をしてる時のような盛り上がってる話し方
・悲しい感情の話し方
など34種類が用意されている
Text to Speech
SSML(音声合成マークアップ言語)で音声をカスタマイズする
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-
US">
<voice name=" ja-JP-NanamiNeural">
お腹が空いたので、カレーが食べたい
</voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-
US">
<voice name=" ja-JP-NanamiNeural">
<mstts:express-as style=“friendly” styledegree=“2”>
お腹が空いたので、カレーが食べたい
</mstts:express-as>
</voice>
</speak>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-
US">
<voice name=" ja-JP-NanamiNeural">
<mstts:express-as style=“friendly” styledegree=“2”>
<prosody rate=“+10%”>
お腹が空いたので、カレーが食べたい
</prosody>
</mstts:express-as>
</voice>
読み上げ速度を1.1倍に設定
読み上げ速度のほか
・音の高さ
・ピッチ
・音量
も変更可能
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
マイクが起動してるのか、
Azureに問い合わせているのか、
状況がわからない
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
マイクが起動してるのか、
Azureに問い合わせているのか、
状況がわからない
UIについて簡単に説明します
システム状態
スタンバイ 人体検出 質問入力 回答生成 回答出力
システム状態
スタンバイ 人体検出 質問入力 回答生成 回答出力
Displayに画像を表示するとともに、LEDの色でシステム状態を表現
システム状態
Displayに表示する画像は Stable Diffusion で生成
システム状態
Displayに表示する画像は Stable Diffusion で生成
Stable Diffusionの説明や使い方については、過去のタガヤスを参照
【タガヤス その28】AI画像錬成で遊ぼう!
~楽しい呪文とちょっとした改造も~仙台の勉強会
告知サイト:https://tagayas.connpass.com/event/262688/
動画アーカイブ:https://www.youtube.com/watch?v=wSHe6oVjuug
システム状態
Displayに表示する画像は Stable Diffusion で生成
Stable Diffusionの説明や使い方については、過去のタガヤスを参照
【タガヤス その28】AI画像錬成で遊ぼう!
~楽しい呪文とちょっとした改造も~仙台の勉強会
告知サイト:https://tagayas.connpass.com/event/262688/
動画アーカイブ:https://www.youtube.com/watch?v=wSHe6oVjuug
今回使用したモデルとプロンプトなど生成条件のみ紹介
システム状態
model:Game Icon Institute_mode v2.1
Prompt cute fox,realistic,high
quality,masterpiece,HD,simpl
e background,sleeping
cute fox,realistic,high
quality,masterpiece,HD,simple
background,looking here
cute fox,realistic,high
quality,masterpiece,HD,simple
background,back view,sitting
Negative
prompt
(worst quality, low
quality:1.4),(zombie, sketch,
interlocked
fingers,comic),nsfw
(worst quality, low
quality:1.4),(zombie, sketch,
interlocked
fingers,comic),nsfw
(worst quality, low
quality:1.4),(zombie, sketch,
interlocked
fingers,comic),nsfw
Sampler DPM++ 2M Karras DPM++ 2M Karras DPM++ 2M Karras
CFG scale 7 7 7
Seed 2386206007 229987419 3763288643
https://civitai.com/models/47800?modelVersionId=62137
※ TensorRT変換済
登場音
Metaが開発・公開しているAudioCraftを使用
登場音
Metaが開発・公開しているAudioCraftを使用
今回はWeb UIなど全部入りのAudioCraft Plusを使用
Prompt Japan, preforming arts,
patrimony, intangible cultural
property of Japan, national
music, gagaku, musique
nationale, shrime, Tadacho
Time 00:00 - 00:05
懇親会キャンセルの件、了解しま
した
Duration 10
Overlap 12
Seed 68735027991464
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
システム全体図
Speechto Text
Azure OpenAI
Textto Speech
※モーター、LED、ディスプレイは割愛
筐体
プログラムの動作を確認しながら
作ったぐちゃぐちゃ配線基盤を
筐体
プログラムの動作を確認しながら
作ったぐちゃぐちゃ配線基盤を 基盤生成AI職人にプロトコルとして渡すと
筐体
プログラムの動作を確認しながら
作ったぐちゃぐちゃ配線基盤を 基盤生成AI職人にプロトコルとして渡すと 綺麗な配線図が生成されました
筐体
生成された綺麗な配線図を
筐体
基盤生成AI職人にプロトコルとして渡すと
生成された綺麗な配線図を
筐体
基盤生成AI職人にプロトコルとして渡すと
生成された綺麗な配線図を
5Vと繋ぐところがGNDと繋がってたり
配線ラインがずれていたり
スピーカーとGPIO12を同時に使うことは
できないことがわかったり
など色々あったけど
筐体
基盤生成AI職人にプロトコルとして渡すと
生成された綺麗な配線図を 綺麗な基盤が生成されました
筐体
綺麗な基盤
筐体
綺麗な基盤 タミヤ模型
おもしろ工作シリーズNO.69
神だな工作基本キット
定価:3,080円(税込)
発売日:1984/2/16
+
筐体
綺麗な基盤 タミヤ模型
おもしろ工作シリーズNO.69
神だな工作基本キット
定価:3,080円(税込)
発売日:1984/2/16
+
絶版
筐体
綺麗な基盤 タミヤ模型
おもしろ工作シリーズNO.69
神だな工作基本キット
定価:3,080円(税込)
発売日:1984/2/16
+
絶版
Azureで
AIアシストシステムを
作ってみましょう!
ご清聴ありがとうございま
した
・東京システム技研 AIセミナー資料 第1回 機械学習とは?
https://www.tsl.co.jp/ai-seminar-contents-01/
・PROMPTY生成系AIについて徹底解説!生成AIを活用したおすすめサービス10選もご紹介
https://bocek.co.jp/media/service/3936/
・Geekly Media画像生成AIツール2023最新一覧!注目のきっかけや将来性も解説します
https://www.geekly.co.jp/column/cat-technology/ai-image-generator_tools/
・Qiita Raspberry Pi × TensorFlow Liteで物体検出を楽しむ
https://qiita.com/mnishiguchi/items/3ef4a1d4f8a56a995b88
・Raspberry Pi OSにローカルAI実行環境を作る 2023/4/1
https://elchika.com/article/10487527-afbe-48c7-afc6-6c088a462a3c/
・ラズパイ64bitOSでAzure Cognitive Service for Speech SDK for Python動いちゃった
https://note.com/tori29umai/n/n0c113207c5c1
・LangChain Memoryとは?【Chat Message History・Conversation Buffer Memory】
https://zenn.dev/umi_mori/books/prompt-engineer/viewer/langchain_memory
・Hakky Handbook LangChainとは
https://book.st-hakky.com/data-science/langcain-intro/
・NRI Netcom ChatGPTの機能を拡張するLangChainを試してみた
https://tech.nri-net.com/entry/tried_langchain_to_extend_chatgpt
・KatsEye ラズパイ4でNEOPIXELを使う(PYTHONプログラム)
https://kats-eye.net/info/2020/05/02/neopixel-2/
・note AudioGenとMusicGen用の全部入りwebui、AudioCraft Plusを試す
https://note.com/hamachi_jp/n/ncbb1def286b5
・優良Web Stable Diffusionのおすすめモデル一覧!導入方法や商用利用も解説
https://yuryoweb.com/stable-diffusion-model/
・【TensorRT】Stable Diffusion Web UIを倍速にできるNVIDIA製の神AIツール
https://weel.co.jp/media/stable-diffusion-webui-tensorrt
参考情報
公式サイト
・Azure
https://azure.microsoft.com/ja-jp/
・AudioCraft
https://audiocraft.metademolab.com/
・Civitai
https://civitai.com/
・LangChain
https://www.langchain.com/
・Raspberry Pi
https://www.raspberrypi.com/
・Speech SDK
https://learn.microsoft.com/ja-jp/azure/ai-services/speech-service/speech-sdk
・Stable Diffusion
https://ja.stability.ai/stable-diffusion
・Tensorflow
https://www.tensorflow.org/?hl=ja
GitHub
・AudioCraft
https://github.com/facebookresearch/audiocraft
・AudioCraft Plus
https://github.com/GrandaddyShmax/audiocraft_plus
・Stable Diffusion Web UI
https://github.com/AUTOMATIC1111/stable-diffusion-webui
参考情報

More Related Content

Similar to 俺が作れるさいきょうAIアシストシステム.pptx

App015 あなたのアプリに ai_
App015 あなたのアプリに ai_App015 あなたのアプリに ai_
App015 あなたのアプリに ai_Tech Summit 2016
 
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...Naoki (Neo) SATO
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Hirono Jumpei
 
DLL_言語系MicrosoftAIサービス最新情報_202302.pdf
DLL_言語系MicrosoftAIサービス最新情報_202302.pdfDLL_言語系MicrosoftAIサービス最新情報_202302.pdf
DLL_言語系MicrosoftAIサービス最新情報_202302.pdfAyako Omori
 
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?SORACOM,INC
 
『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights Fukui
『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights Fukui『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights Fukui
『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights FukuiFujio Kojima
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習Preferred Networks
 
Spring Security 5.0 解剖速報
Spring Security 5.0 解剖速報Spring Security 5.0 解剖速報
Spring Security 5.0 解剖速報Takuya Iwatsuka
 
スタートアップで培ったアーキテクチャ設計ノウハウ
スタートアップで培ったアーキテクチャ設計ノウハウスタートアップで培ったアーキテクチャ設計ノウハウ
スタートアップで培ったアーキテクチャ設計ノウハウMasakazu Matsushita
 
2014年を振り返る 今年の技術トレンドとDockerについて
2014年を振り返る 今年の技術トレンドとDockerについて2014年を振り返る 今年の技術トレンドとDockerについて
2014年を振り返る 今年の技術トレンドとDockerについてMasahito Zembutsu
 
【B-1】kintoneでお手軽コールセンター!
【B-1】kintoneでお手軽コールセンター!【B-1】kintoneでお手軽コールセンター!
【B-1】kintoneでお手軽コールセンター!Sakae Saito
 
Call Center Watsonのご紹介
Call Center Watsonのご紹介Call Center Watsonのご紹介
Call Center Watsonのご紹介Hiroshi Tomioka
 
Smart Brainプレゼン開発コンセプト
Smart Brainプレゼン開発コンセプトSmart Brainプレゼン開発コンセプト
Smart Brainプレゼン開発コンセプトKiBAN iNTERNATiONAL
 
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツDaiyu Hatakeyama
 
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォームEdge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォームIoTビジネス共創ラボ
 
リアルFacebookガジェットを作った
リアルFacebookガジェットを作ったリアルFacebookガジェットを作った
リアルFacebookガジェットを作ったMariko Goda
 
夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場
夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場
夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場Mitch Okamoto
 
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート日本マイクロソフト株式会社
 
20170415 mttokyo handson
20170415 mttokyo handson20170415 mttokyo handson
20170415 mttokyo handsonSix Apart
 

Similar to 俺が作れるさいきょうAIアシストシステム.pptx (20)

App015 あなたのアプリに ai_
App015 あなたのアプリに ai_App015 あなたのアプリに ai_
App015 あなたのアプリに ai_
 
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...
[db analytics showcase Sapporo 2017] MicrosoftのAIテクノロジーを活用しよう ~インテリジェントAPIからデ...
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
 
DLL_言語系MicrosoftAIサービス最新情報_202302.pdf
DLL_言語系MicrosoftAIサービス最新情報_202302.pdfDLL_言語系MicrosoftAIサービス最新情報_202302.pdf
DLL_言語系MicrosoftAIサービス最新情報_202302.pdf
 
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
デブサミ関西 2017| IoTビジネスが もっと発展するために必要なものとは?
 
『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights Fukui
『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights Fukui『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights Fukui
『機械学習 (AI/ML) の基礎と Microsoft の AI | 2019/04/02 Global AI Nights Fukui
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
 
Spring Security 5.0 解剖速報
Spring Security 5.0 解剖速報Spring Security 5.0 解剖速報
Spring Security 5.0 解剖速報
 
スタートアップで培ったアーキテクチャ設計ノウハウ
スタートアップで培ったアーキテクチャ設計ノウハウスタートアップで培ったアーキテクチャ設計ノウハウ
スタートアップで培ったアーキテクチャ設計ノウハウ
 
2014年を振り返る 今年の技術トレンドとDockerについて
2014年を振り返る 今年の技術トレンドとDockerについて2014年を振り返る 今年の技術トレンドとDockerについて
2014年を振り返る 今年の技術トレンドとDockerについて
 
【B-1】kintoneでお手軽コールセンター!
【B-1】kintoneでお手軽コールセンター!【B-1】kintoneでお手軽コールセンター!
【B-1】kintoneでお手軽コールセンター!
 
Call Center Watsonのご紹介
Call Center Watsonのご紹介Call Center Watsonのご紹介
Call Center Watsonのご紹介
 
Smart Brainプレゼン開発コンセプト
Smart Brainプレゼン開発コンセプトSmart Brainプレゼン開発コンセプト
Smart Brainプレゼン開発コンセプト
 
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
第36回BAクリエイターズサロン - デジタル時代に クリエータの皆さんが知っておきたい AIと付き合うためのコツ
 
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォームEdge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
Edge から Cloud, Beginner から Professional までサポートする Azure AI プラットフォーム
 
リアルFacebookガジェットを作った
リアルFacebookガジェットを作ったリアルFacebookガジェットを作った
リアルFacebookガジェットを作った
 
夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場
夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場
夏サミ2012 [A-2]ソーシャルプラットフォームを使った業務アプリ開発の現場
 
Container x AI
Container x AIContainer x AI
Container x AI
 
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート
【de:code 2020】 ”AI パーツ” であなたは何つくる? Azure Cognitive Services アップデート
 
20170415 mttokyo handson
20170415 mttokyo handson20170415 mttokyo handson
20170415 mttokyo handson
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 

Recently uploaded (14)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 

俺が作れるさいきょうAIアシストシステム.pptx

Editor's Notes

  1. 簡単にAIの流行りと廃りを振り返ってみましょう 第1次AIブームは1960年から1974年にかけて起こり、「探索・推論」の時代と言われています。 データの集まりから条件に合うものを探したり、ルールを統合して矛盾の無い答えを見つけ出す技術が研究されましたが、決められた条件下での簡単な問題(トイプロブレム)しか解けないという性能的な限界が見えたため、AI開発は下火になります。 第2次AIブームは1980年から1987年にかけて起こり、「エキスパートシステム」の時代と言われています。 専門的な知識をルールとして学習させ、問題解決をさせようという研究が行われました。 一部の分野で成果がでたものの、ルールの登録は人力だったため、一般常識レベルの膨大な知識をルールとして学習させることができず、またもAI開発は下火になります。 第3次AIブームは2006年から2020年にかけて起こり、「機械学習」の時代と言われてます。 インターネットの普及により、膨大なデータ(ビックデータ)を学習させて、分類や予測を行うアルゴリズムを自動的に構築できるようになりました。 さらに、コンピュータがアルゴリズムを構築するためのパラメータを自動的に抽出する技術であるディープラーニングが発展し、精度が急激に向上してきました。
  2. ここまで2分
  3. ここまで5分
  4. ここまで7分
  5. ここまで12分
  6. ここまで15分
  7. ここまで17分
  8. ここまで20分