研究者詳細 - 越仲孝文

所属以外の情報はresearchmapへの登録情報を転載しています。

写真a

コシナカ　タカフミ

越仲孝文

Takafumi Koshinaka

所属

データサイエンス研究科データサイエンス専攻教授
データサイエンス学部学部長
データサイエンス学部データサイエンス学科

ホームページ

https://sites.google.com/view/koshinak-lab/

プロフィール

平3京大・工・航空卒，平5同大大学院工学研究科修士課程了，平25東工大大学院情報理工学研究科博士課程了，博士(工学)．平5 NEC入社，平18同社主任研究員，平25同社主幹研究員．平29人工知能学会理事，令1京大大学院情報学研究科非常勤講師．令2より横浜市立大学データサイエンス学部教授．パターン認識，信号処理，機械学習の研究に興味をもつ．

外部リンク

学位

博士（工学）（ 2013年3月東京工業大学）

研究キーワード

信号処理
人工知能
パターン認識
機械学習
深層学習
自然言語処理
音声認識

研究分野

情報通信 / 知能ロボティクス
情報通信 / 知覚情報処理
情報通信 / 知能情報学

学歴

東京工業大学大学院情報理工学研究科計算工学専攻

2009年10月 - 2013年3月

　詳細を見る

国名：日本国

researchmap
京都大学大学院工学研究科航空工学専攻

1991年4月 - 1993年3月

　詳細を見る

国名：日本国

researchmap
京都大学工学部航空工学科

1987年4月 - 1991年3月

　詳細を見る

国名：日本国

researchmap
石川県立金沢泉丘高等学校

1984年4月 - 1987年3月

　詳細を見る

researchmap

経歴

横浜市立大学データサイエンス学部学部長

2026年4月 - 現在

　詳細を見る

国名：日本国

researchmap
横浜市立大学データサイエンス学部副学部長

2025年4月 - 2026年3月

　詳細を見る

researchmap
横浜市立大学データサイエンス学部教授

2020年9月 - 現在

　詳細を見る

国名：日本国

researchmap
法政大学大学院情報科学研究科非常勤講師

2019年4月 - 2025年3月

　詳細を見る

researchmap
日本電気株式会社バイオメトリクス研究所主幹研究員

2018年3月 - 2020年8月

　詳細を見る

国名：日本国

researchmap
日本電気株式会社データサイエンス研究所主幹研究員

2016年4月 - 2018年3月

　詳細を見る

国名：日本国

researchmap
日本電気株式会社情報・メディアプロセッシング研究所主幹研究員

2015年4月 - 2018年3月

　詳細を見る

国名：日本国

researchmap
日本電気株式会社情報・メディアプロセッシング研究所主任研究員

2010年4月 - 2013年3月

　詳細を見る

国名：日本国

researchmap
日本電気株式会社共通基盤ソフトウェア研究所主任研究員

2007年4月 - 2010年3月

　詳細を見る

国名：日本国

researchmap
日本電気株式会社メディア情報研究所主任研究員

2006年4月 - 2007年3月

　詳細を見る

国名：日本国

researchmap

▼全件表示

所属学協会

言語処理学会

2021年2月 - 現在

　詳細を見る

researchmap
人工知能学会

2017年10月 - 現在

　詳細を見る

researchmap
IEEE

2013年3月 - 現在

　詳細を見る

researchmap
日本音響学会

2004年12月 - 現在

　詳細を見る

researchmap
電子情報通信学会

1993年6月 - 現在

　詳細を見る

researchmap

委員歴

ISO/IEC JTC1/SC29 WG1 国内小委員会委員

2021年5月 - 現在

　詳細を見る

団体区分：学協会

researchmap
IEEE BigData2022 Organizing Committee Local Arrangement Co-chair

2020年12月 - 2022年12月

　詳細を見る

団体区分：学協会

researchmap
The Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA 2021) Sponsorship Co-chair

2019年12月 - 2021年12月

　詳細を見る

団体区分：学協会

researchmap
人工知能学会代議員

2019年6月 - 現在

　詳細を見る

団体区分：学協会

researchmap
The Speaker and Language Recognition Workshop (Odyssey 2020) General Co-chair

2018年6月 - 2020年11月

　詳細を見る

団体区分：学協会

researchmap
人工知能学会理事

2017年6月 - 2019年6月

　詳細を見る

団体区分：学協会

researchmap
Industrial Membership Committee, Asia-Pacific Signal and Information Processing Association (APSIPA) Committee Member

2016年6月 - 2018年6月

　詳細を見る

団体区分：学協会

researchmap
電子情報通信学会音声研究専門委員会研究専門委員

2013年5月 - 2017年4月

　詳細を見る

団体区分：学協会

researchmap

▼全件表示

論文

テキスト独立話者照合システムの言語依存性～コントロールされた条件下での評価～

中村倫子, 後藤晃, 斉藤裕子, 松浦廣樹, 越仲孝文

信学技報 125 ( 371 ) 496 - 501 2026年3月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

researchmap
「生きづらさ」を抱える人々のチャット相談へのLLMの適用可能性

山本彩弥加, 菊地雅信, 越仲孝文

人工知能学会全国大会論文集(Web) 39th 2025年5月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

J-GLOBAL

researchmap
ディープフェイク動画検出に向けた敵対的データ拡張の検討

藤本琉汰, 越仲孝文

人工知能学会全国大会論文集(Web) 39th 2025年5月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

J-GLOBAL

researchmap
HYB-VITON: A Hybrid Approach to Virtual Try-On Combining Explicit and Implicit Warping 査読

Kosuke Takemoto, Koshinaka Takafumi

ICASSP 2025 - 2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 1 - 5 2025年4月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp49660.2025.10889558

researchmap
法科学分野への応用を想定したテキスト独立話者照合の精度評価

小澤茂樹, 後藤晃, 斉藤裕子, 松浦廣樹, 越仲孝文

信学技報 124 ( 391 ) 34 - 39 2025年3月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

researchmap
検索エンジンを指向したLLMのアラインメント

益子怜, 木村賢, 越仲孝文

言語処理学会第31回年次大会 2025年3月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

researchmap
Reading is Believing: Revisiting Language Bottleneck Models for Image Classification 査読

Honori Udo, Takafumi Koshinaka

2024 IEEE International Conference on Image Processing (ICIP) 943 - 949 2024年10月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icip51287.2024.10648091

DOI： 10.60864/n50t-ax16

researchmap
テキストプロンプトによるデザイン変更が可能な試着画像生成

武本孝輔, 越仲孝文

2024年度人工知能学会全国大会(JSAI2024) 2024年5月

　詳細を見る

担当区分：最終著者,　責任著者掲載種別：研究論文（研究会，シンポジウム資料等）

DOI： 10.11517/pjsai.JSAI2024.0_2C1GS702

researchmap
LLM生成コンテンツのSEO観点での品質評価

益子怜, 木村賢, 越仲孝文

言語処理学会年次大会発表論文集(Web) 30th 2024年

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語掲載種別：研究論文（研究会，シンポジウム資料等）

J-GLOBAL

researchmap
画像キャプショニングは画像そのものよりも多くを語る

有働帆乃璃, 越仲孝文

人工知能学会全国大会論文集(Web) 37th 2023年6月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語

J-GLOBAL

researchmap
Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition 査読

Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

IEEE Transactions on Information Forensics and Security 18 3936 - 3947 2023年6月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Institute of Electrical and Electronics Engineers (IEEE)

DOI： 10.1109/tifs.2023.3287733

researchmap
感情付与を用いた低評価レビューに対する応答生成

益子怜, 越仲孝文

人工知能学会全国大会論文集(Web) 37th 2023年6月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語

J-GLOBAL

researchmap
ECサイトのレビューテキストからのレーティング予測と購買者評価の分析

小林義幸, 越仲孝文

人工知能学会全国大会論文集(Web) 36th 2022年6月

　詳細を見る

担当区分：最終著者,　責任著者記述言語：日本語

DOI： 10.11517/pjsai.JSAI2022.0_1P5GS602

J-GLOBAL

researchmap
Task-aware Warping Factors in Mask-based Speech Enhancement 査読

Qiongqiong Wang, Kong Aik Lee, Takafumi Koshinaka, Koji Okabe, Hitoshi Yamamoto

European Signal Processing Conference (EUSIPCO 2021) 2021年8月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Xi-Vector Embedding for Speaker Recognition 査読

Kong Aik Lee, Qiongqiong Wang, Takafumi Koshinaka

IEEE Signal Processing Letters 28 1385 - 1389 2021年7月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Institute of Electrical and Electronics Engineers ({IEEE})

DOI： 10.1109/LSP.2021.3091932

researchmap
Using Multi-Resolution Feature Maps with Convolutional Neural Networks for Anti-Spoofing in ASV 査読

Qiongqiong Wang, Kong Aik Lee, Takafumi Koshinaka

Odyssey 2020 The Speaker and Language Recognition Workshop 2020年5月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/odyssey.2020-20

researchmap
A Generalized Framework for Domain Adaptation of PLDA in Speaker Recognition 査読

Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2020年5月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp40776.2020.9054113

researchmap
NEC-TT System for Mixed-Bandwidth and Multi-Domain Speaker Recognition. 査読

Kong Aik Lee, Hitoshi Yamamoto, Koji Okabe, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Koichi Shinoda

Computer Speech and Language 61 101033 - 101033 2020年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

DOI： 10.1016/j.csl.2019.101033

researchmap
Study on comparison of individuality of ear canal shape

Riki Kimura, Shohei Yano, Rui Fujitsuka, Naoki Wakui, Takayuki Arakawa, Takafumi Koshinaka

148th Audio Engineering Society International Convention 2020年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：Audio Engineering Society

Scopus

researchmap
NEC-TT speaker verification system for SRE'19 CTS challenge

Kong Aik Lee, Koji Okabe, Hitoshi Yamamoto, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Keisuke Ishikawa, Koichi Shinoda

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2020- 2227 - 2231 2020年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：International Speech Communication Association

DOI： 10.21437/Interspeech.2020-1132

Scopus

researchmap
The NEC-TT 2018 Speaker Verification System 査読

Kong Aik Lee, Hitoshi Yamamoto, Koji Okabe, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Koichi Shinoda

Interspeech 2019 2019年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2019-1517

researchmap
Speaker Augmentation and Bandwidth Extension for Deep Speaker Embedding 査読

Hitoshi Yamamoto, Kong Aik Lee, Koji Okabe, Takafumi Koshinaka

Interspeech 2019 2019年9月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2019-1508

researchmap
Unleashing the Unused Potential of i-Vectors Enabled by GPU Acceleration 査読

Ville Vestman, Kong Aik Lee, Tomi H. Kinnunen, Takafumi Koshinaka

Interspeech 2019 2019年9月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2019-1955

researchmap
The CORAL+ Algorithm for Unsupervised Domain Adaptation of PLDA 査読

Kong Aik Lee, Qiongqiong Wang, Takafumi Koshinaka

ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2019年5月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp.2019.8682852

researchmap
Feature selection and its evaluation in binaural ear acoustic authentication

Masaki Yasuhara, Shohei Yano, Takayuki Arakawa, Takafumi Koshinaka

AES 146th International Convention 2019年

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：Audio Engineering Society

Scopus

researchmap
Attention Mechanism in Speaker Recognition: What Does it Learn in Deep Speaker Embedding? 査読

Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Hitoshi Yamamoto, Takafumi Koshinaka

2018 IEEE Spoken Language Technology Workshop (SLT) 2018年12月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/slt.2018.8639586

researchmap
Ear Acoustic Biometrics Using Inaudible Signals and Its Application to Continuous User Authentication 査読

Shivangi Mahto, Takayuki Arakawa, Takafumi Koshinaka

2018 26th European Signal Processing Conference (EUSIPCO) 2018年9月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.23919/eusipco.2018.8553015

researchmap
Attentive Statistics Pooling for Deep Speaker Embedding 査読

Koji Okabe, Takafumi Koshinaka, Koichi Shinoda

Interspeech 2018 2018年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2018-993

researchmap
DNN Based Speaker Embedding Using Content Information for Text-Dependent Speaker Verification 査読

Subhadeep Dey, Takafumi Koshinaka, Petr Motlicek, Srikanth Madikeri

2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018年4月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp.2018.8461389

researchmap
Robust i-vector extraction tightly coupled with voice activity detection using deep neural networks 査読

Hitoshi Yamamoto, Koji Okabe, Takafumi Koshinaka

2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2017年12月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/apsipa.2017.8282114

researchmap
i-Vector Transformation Using a Novel Discriminative Denoising Autoencoder for Noise-Robust Speaker Recognition 査読

Shivangi Mahto, Hitoshi Yamamoto, Takafumi Koshinaka

Interspeech 2017 2017年8月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2017-731

researchmap
Unsupervised Discriminative Training of PLDA for Domain Adaptation in Speaker Verification 査読

Qiongqiong Wang, Takafumi Koshinaka

Interspeech 2017 2017年8月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2017-727

researchmap
誤差の周波数拡散と加算平均処理による耳音紋認証の精度向上査読

矢野昌平, 荒川隆行, 越仲孝文, 今岡仁, 入澤英毅

信学論A J100-A ( 4 ) 161 - 168 2017年4月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）

researchmap
Fast and accurate personal authentication using ear acoustics 査読

Takayuki Arakawa, Takafumi Koshinaka, Shohei Yano, Hideki Irisawa, Ryoji Miyahara, Hitoshi Imaoka

2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA) 2016年12月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/apsipa.2016.7820886

researchmap
Domain adaptation using maximum likelihood linear transformation for PLDA-based speaker verification 査読

Qiongqiong Wang, Hitoshi Yamamoto, Takafumi Koshinaka

2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2016年3月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp.2016.7472651

researchmap
Denoising autoencoder-based speaker feature restoration for utterances of short duration 査読

Hitoshi Yamamoto, Takafumi Koshinaka

Interspeech 2015 2015年9月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2017-731

researchmap
Speech/acoustic analysis technology - Its application in support of public solutions

Takafumi Koshinaka, Osamu Hoshuyama, Yoshifumi Onishi, Ryosuke Isotani, Masahiro Tani

NEC Technical Journal 9 ( 1 ) 82 - 85 2015年1月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：NEC Mediaproducts

Scopus

researchmap
Anomaly detection of motors with feature emphasis using only normal sounds 査読

Yumi Ono, Yoshifumi Onishi, Takafumi Koshinaka, Soichiro Takata, Osamu Hoshuyama

2013 IEEE International Conference on Acoustics, Speech and Signal Processing 2013年5月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp.2013.6638167

researchmap
音声ドキュメント検索のためのインデクシング技術の研究査読

越仲孝文

東京工業大学 ( 甲第9187号 ) 2013年3月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：学位論文（博士）

researchmap
A noise-robust speech recognition method composed of weak noise suppression and weak Vector Taylor Series Adaptation 査読

Shuji Komeiji, Takayuki Arakawa, Takafumi Koshinaka

2012 IEEE Spoken Language Technology Workshop (SLT) 2012年12月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/slt.2012.6424205

researchmap
Online Speaker Clustering Using Incremental Learning of an Ergodic Hidden Markov Model 査読

KOSHINAKA Takafumi, NAGATOMO Kentaro, SHINODA Koichi

IEICE transactions on information and systems E95.D ( 10 ) 2469 - 2478 2012年10月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：The Institute of Electronics, Information and Communication Engineers

A novel online speaker clustering method based on a generative model is proposed. It employs an incremental variant of variational Bayesian learning and provides probabilistic (non-deterministic) decisions for each input utterance, on the basis of the history of preceding utterances. It can be expected to be robust against errors in cluster estimation and the classification of utterances, and hence to be applicable to many real-time applications. Experimental results show that it produces 50% fewer classification errors than does a conventional online method. They also show that it is possible to reduce the number of speech recognition errors by combining the method with unsupervised speaker adaptation.

DOI： 10.1587/transinf.e95.d.2469

CiNii Books

researchmap
音声認識におけるモデル間スケーリング係数の自動推定査読

大西祥史, 江森正, 越仲孝文, 篠田浩一

信学論D J95-D ( 5 ) 1276 - 1285 2012年5月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：一般社団法人電子情報通信学会

音声認識における確率モデル間のスケーリング係数を効率的に推定する枠組みを提案する.音声認識システムは音響モデル,言語モデルなどの複数のモデルで構成される.モデルごとの出力値の乗算を行う際に,出力確率値の各々を異なる指数(スケーリング係数)でべき乗した上で行うと性能が向上することが経験的に知られている.従来,このスケーリング係数は,その値を変化させて対象の音声データを認識する処理を繰り返し,認識率が高くなる点を選択するという,アドホックな方法で最適化されてきた.本論文では,このスケーリング係数を,対数線形モデルの重みパラメータとみなし,最小単語誤り基準を用いて推定する方法を提案する.提案手法では計算量を低減するために単語ラティスを導入するが,それにより生じる推定値の初期値への依存性を軽減するために,単語ラティス生成とこう配法を用いた係数推定とを交互に繰り返し行う.日本語話し言葉コーパスを用いて評価を行い,提案手法が,最も単語正解精度が高くなるスケーリング係数を初期値に依存せず推定することを確認した.

CiNii Books

researchmap
Committee-Based Active Learning for Speech Recognition 査読

HAMANAKA Yuzo, SHINODA Koichi, TSUTAOKA Takuya, FURUI Sadaoki, EMORI Tadashi, KOSHINAKA Takafumi

IEICE transactions on information and systems E94-D ( 10 ) 2015 - 2023 2011年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：The Institute of Electronics, Information and Communication Engineers

We propose a committee-based method of active learning for large vocabulary continuous speech recognition. Multiple recognizers are trained in this approach, and the recognition results obtained from these are used for selecting utterances. Those utterances whose recognition results differ the most among recognizers are selected and transcribed. Progressive alignment and voting entropy are used to measure the degree of disagreement among recognizers on the recognition result. Our method was evaluated by using 191-hour speech data in the Corpus of Spontaneous Japanese. It proved to be significantly better than random selection. It only required 63h of data to achieve a word accuracy of 74%, while standard training (i.e., random selection) required 103h of data. It also proved to be significantly better than conventional uncertainty sampling using word posterior probabilities.

DOI： 10.1587/transinf.e94.d.2015

CiNii Books

researchmap
Speech modeling based on committee-based active learning 査読

HAMANAKA Y.

Proc. ICASSP, Dallas, 2010 2010年3月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

DOI： 10.1109/icassp.2010.5495650

researchmap
Online speaker clustering using incremental learning of an ergodic hidden Markov model 査読

Takafumi Koshinaka, Kentaro Nagatomo, Koichi Shinoda

2009 IEEE International Conference on Acoustics, Speech and Signal Processing 2009年4月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp.2009.4960528

researchmap
Open-vocabulary spoken-document retrieval based on query expansion using related web documents 査読

Makoto Terao, Takafumi Koshinaka, Shinichi Ando, Ryosuke Isotani, Akitoshi Okumura

Interspeech 2008 2008年9月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：ISCA

DOI： 10.21437/interspeech.2017-727

researchmap
HMM-based text segmentation using variational Bayes learning and its application to audio-visual indexing

Takafumi Koshinaka, Akitoshi Okumura, Ryosuke Isotani

Electronics and Communications in Japan (Part II: Electronics) 90 ( 12 ) 1 - 11 2007年12月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Wiley

DOI： 10.1002/ecjb.20421

researchmap
HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用査読

越仲孝文, 奥村明俊, 磯谷亮輔

信学論D J89-D ( 9 ) 2113 - 2122 2006年9月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：一般社団法人電子情報通信学会

近年の大語彙連続音声認識技術の発展により,テキスト処理に基づく情報抽出技術を音声認識結果に適用する試みが多く見られるようになってきている.本論文では,教師なしのテキストセグメンテーション方式を提案する.テキストの生成モデルとしてleft-to-right型隠れマルコフモデル(HMM)を仮定するとき,テキストセグメンテーションは,入力テキストを用いたモデルパラメータ推定とモデル選択の問題として定式化できる.変分ベイズ(VB)法に基づくテキスト分割アルゴリズムを導出し,ベイズ的アプローチがテキストのようなスパースなデータ系列を扱う上で有効に働くことを,ニュース番組の分割実験を通して示す.更に,提案法が調整を必要とする内部パラメータを含まないことから,従来法よりも高い分割精度を安定して達成できることを示す.

CiNii Books

researchmap
An HMM-based Text Segmentation Method Using Variational Bayes Approach and Its Application to LVCSR for Broadcast News 査読

Takafumi Koshinaka, Ken-ichi Iso, Akitoshi Okumura

Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. 2005年3月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：IEEE

DOI： 10.1109/icassp.2005.1415156

researchmap
A Stochastic Model for Handwritten Word Recognition Using Context Dependency Between Character Patterns 査読

Takafumi Koshinaka, Daisuke Nishiwaki, Keiji Yamada

The 6th International Conference on Document Analysis and Recognition (ICDAR 2001) 2001年9月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

researchmap
Pressure waves in a separated gas-liquid layer in a horizontal duct with a step 査読

Takafumi Koshinaka, Shigeki Morioka

Fluid Dynamics Research 12 ( 6 ) 323 - 333 1993年12月

　詳細を見る

担当区分：筆頭著者記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：IOP Publishing

DOI： 10.1016/0169-5983(93)90034-8

researchmap

▼全件表示

MISC

Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification

Honori Udo, Takafumi Koshinaka

2024年6月

　詳細を見る

We revisit language bottleneck models as an approach to ensuring the
explainability of deep learning models for image classification. Because of
inevitable information loss incurred in the step of converting images into
language, the accuracy of language bottleneck models is considered to be
inferior to that of standard black-box models. Recent image captioners based on
large-scale foundation models of Vision and Language, however, have the ability
to accurately describe images in verbal detail to a degree that was previously
believed to not be realistically possible. In a task of disaster image
classification, we experimentally show that a language bottleneck model that
combines a modern image captioner with a pre-trained language model can achieve
image classification accuracy that exceeds that of black-box models. We also
demonstrate that a language bottleneck model and a black-box model may be
thought to extract different features from images and that fusing the two can
create a synergistic effect, resulting in even higher classification accuracy.

arXiv

researchmap

その他リンク： http://arxiv.org/pdf/2406.15816v1
Generalized domain adaptation framework for parametric back-end in speaker recognition

Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

2023年5月

　詳細を見る

State-of-the-art speaker recognition systems comprise a speaker embedding
front-end followed by a probabilistic linear discriminant analysis (PLDA)
back-end. The effectiveness of these components relies on the availability of a
large amount of labeled training data. In practice, it is common for domains
(e.g., language, channel, demographic) in which a system is deployed to differ
from that in which a system has been trained. To close the resulting gap,
domain adaptation is often essential for PLDA models. Among two of its variants
are Heavy-tailed PLDA (HT-PLDA) and Gaussian PLDA (G-PLDA). Though the former
better fits real feature spaces than does the latter, its popularity has been
severely limited by its computational complexity and, especially, by the
difficulty, it presents in domain adaptation, which results from its
non-Gaussian property. Various domain adaptation methods have been proposed for
G-PLDA. This paper proposes a generalized framework for domain adaptation that
can be applied to both of the above variants of PLDA for speaker recognition.
It not only includes several existing supervised and unsupervised domain
adaptation methods but also makes possible more flexible usage of available
data in different domains. In particular, we introduce here two new techniques:
(1) correlation-alignment in the model level, and (2) covariance
regularization. To the best of our knowledge, this is the first proposed
application of such techniques for domain adaptation w.r.t. HT-PLDA. The
efficacy of the proposed techniques has been experimentally validated on NIST
2016, 2018, and 2019 Speaker Recognition Evaluation (SRE'16, SRE'18, and
SRE'19) datasets.

arXiv

researchmap

その他リンク： http://arxiv.org/pdf/2305.15567v1
Image Captioners Sometimes Tell More Than Images They See

Honori Udo, Takafumi Koshinaka

2023年5月

　詳細を見る

Image captioning, a.k.a. "image-to-text," which generates descriptive text
from given images, has been rapidly developing throughout the era of deep
learning. To what extent is the information in the original image preserved in
the descriptive text generated by an image captioner? To answer that question,
we have performed experiments involving the classification of images from
descriptive text alone, without referring to the images at all, and compared
results with those from standard image-based classifiers. We have evaluate
several image captioning models with respect to a disaster image classification
task, CrisisNLP, and show that descriptive text classifiers can sometimes
achieve higher accuracy than standard image-based classifiers. Further, we show
that fusing an image-based classifier with a descriptive text classifier can
provide improvement in accuracy.

arXiv

researchmap

その他リンク： http://arxiv.org/pdf/2305.02932v2
国際会議 Odyssey 2020 開催報告招待

越仲孝文, リーコンエイク, 篠田浩一

電子情報通信学会情報・システムソサイエティ誌 26 ( 2 ) 23 - 24 2021年8月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：会議報告等

researchmap
分散比の最悪ケースを考慮した線形判別分析とその耳音響認証への応用

伊藤良峻, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2020 2020年

　詳細を見る

J-GLOBAL

researchmap
I4U Submission to NIST SRE 2018: Leveraging from a Decade of Shared Experiences

Kong Aik Lee, Ville Hautamaki, Tomi Kinnunen, Hitoshi Yamamoto, Koji Okabe, Ville Vestman, Jing Huang, Guohong Ding, Hanwu Sun, Anthony Larcher, Rohan Kumar Das, Haizhou Li, Mickael Rouvier, Pierre-Michel Bousquet, Wei Rao, Qing Wang, Chunlei Zhang, Fahimeh Bahmaninezhad, Hector Delgado, Jose Patino, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Koichi Shinoda, Trung Ngo Trong, Md Sahidullah, Fan Lu, Yun Tang, Ming Tu, Kah Kuan Teh, Huy Dat Tran, Kuruvachan K. George, Ivan Kukanov, Florent Desnous, Jichen Yang, Emre Yilmaz, Longting Xu, Jean-Francois Bonastre, Chenglin Xu, Zhi Hao Lim, Eng Siong Chng, Shivesh Ranjan, John H. L. Hansen, Massimiliano Todisco, Nicholas Evans

2019年4月

　詳細を見る

The I4U consortium was established to facilitate a joint entry to NIST
speaker recognition evaluations (SRE). The latest edition of such joint
submission was in SRE 2018, in which the I4U submission was among the
best-performing systems. SRE'18 also marks the 10-year anniversary of I4U
consortium into NIST SRE series of evaluation. The primary objective of the
current paper is to summarize the results and lessons learned based on the
twelve sub-systems and their fusion submitted to SRE'18. It is also our
intention to present a shared view on the advancements, progresses, and major
paradigm shifts that we have witnessed as an SRE participant in the past decade
from SRE'08 to SRE'18. In this regard, we have seen, among others, a paradigm
shift from supervector representation to deep speaker embedding, and a switch
of research challenge from channel compensation to domain adaptation.

arXiv

researchmap

その他リンク： http://arxiv.org/pdf/1904.07386v1
人間の耳には聴こえない音で個人を識別する耳音響認証技術招待

荒川隆行, 越仲孝文

月刊自動認識 2019年3月

　詳細を見る

担当区分：最終著者記述言語：日本語掲載種別：記事・総説・解説・論説等（商業誌、新聞、ウェブメディア）

researchmap
声認証技術がもたらす安全・安心で便利な社会 (バイオメトリクスを用いた社会価値創造特集) 招待

越仲孝文, リーコンエイク

NEC技報 71 ( 2 ) 2019年3月

　詳細を見る

担当区分：筆頭著者,　責任著者記述言語：日本語掲載種別：機関テクニカルレポート，技術報告書，プレプリント等

researchmap
話者クラスタリングを用いた話者照合手法のNIST SRE18における比較評価

GUO Ling, 山本仁, 岡部浩司, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2019 2019年

　詳細を見る

J-GLOBAL

researchmap
耳音響認証における観測ゆらぎ軽減手法の一検討

安原雅貴, 荒川隆行, 越仲孝文, 矢野昌平

人工知能学会全国大会論文集(Web) 33rd 2019年

　詳細を見る

J-GLOBAL

researchmap
単一話者検出に最適化した話者クラスタリングを用いる話者照合

GUO Ling, 山本仁, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2019 2019年

　詳細を見る

J-GLOBAL

researchmap
複数の話者が混在する環境下のスコア統合に基づく話者照合

GUO Ling, 山本仁, LEE Kong Aik, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2018 2018年

　詳細を見る

J-GLOBAL

researchmap
耳穴から個人特定する新しい耳音響認証の技術とは招待

花沢健, 越仲孝文, 荒川隆行

防衛技術ジャーナル 37 ( 439 ) 18 - 22 2017年10月

　詳細を見る

記述言語：日本語掲載種別：記事・総説・解説・論説等（商業誌、新聞、ウェブメディア）出版者・発行元：防衛技術協会

CiNii Books

researchmap
ヒアラブル技術によるヒューマン系IoTソリューションの取り組みと展望 (デジタルビジネスを支えるIoT特集) 招待

古谷聡, 越仲孝文, 大杉孝司

NEC技報 70 ( 1 ) 47 - 51 2017年9月

　詳細を見る

記述言語：日本語掲載種別：機関テクニカルレポート，技術報告書，プレプリント等出版者・発行元：日本電気

CiNii Books

researchmap
i-vectorの重み付き次元圧縮と区分回帰による年齢推定

児島一郁, 山本仁, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2016 2016年

　詳細を見る

J-GLOBAL

researchmap
外耳道音響特性を用いた高精度個人認証

荒川隆行, 矢野昌平, 越仲孝文, 入澤英毅, 今岡仁

日本音響学会研究発表会講演論文集(CD-ROM) 2016 2016年

　詳細を見る

J-GLOBAL

researchmap
音声・音響分析技術とパブリックソリューションへの応用 (社会の安全・安心を支えるパブリックソリューション特集) 招待

越仲孝文, 宝珠山治, 大西祥史, 磯谷亮介, 谷真宏

NEC技報 67 ( 1 ) 86 - 89 2014年11月

　詳細を見る

担当区分：筆頭著者,　責任著者記述言語：日本語掲載種別：機関テクニカルレポート，技術報告書，プレプリント等出版者・発行元：日本電気

CiNii Books

researchmap
正常音スペクトルモデルに基づく機器異常検知方式における特徴量強調の効果

小野友督, 宝珠山治, 大西祥史, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年

　詳細を見る

J-GLOBAL

researchmap
話者認識の国際動向 (小特集: 話者認識に関する研究の動向) 招待査読

越仲孝文, 篠田浩一

日本音響学会誌 69 ( 7 ) 2013年7月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：記事・総説・解説・論説等（学術雑誌）

researchmap
GMM-SVMによるテキスト非依存話者識別

谷真宏, 大西祥史, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2013 2013年

　詳細を見る

J-GLOBAL

researchmap
話者認識技術の現状と課題

網野加苗, 石原俊一, 小川哲司, 長内隆, 黒岩眞吾, 越仲孝文, 篠田浩一, 柘植覚, 西田昌史, 松井知子, WANG Longbiao

電子情報通信学会技術研究報告 112 ( 450(SP2012 115-131) ) 2013年

　詳細を見る

J-GLOBAL

researchmap
正常音の知識のみを利用した機器の異常検知

小野友督, 大西祥史, 越仲孝文, 高田宗一朗

日本音響学会研究発表会講演論文集(CD-ROM) 2012 2012年

　詳細を見る

J-GLOBAL

researchmap
音声・映像情報の構造化と検索 (小特集: 音声・映像認識連携への取り組み) 招待査読

越仲孝文, 大網亮磨, 細見格, 今岡仁

情報処理 52 ( 1 ) 2011年10月

　詳細を見る

担当区分：筆頭著者,　責任著者記述言語：日本語掲載種別：記事・総説・解説・論説等（学術雑誌）

researchmap
雑音抑圧法とモデル適応法の重み付き組み合わせに基づく耐雑音音声認識手法

古明地秀治, 荒川隆行, 越仲孝文

日本音響学会研究発表会講演論文集(CD-ROM) 2011 2011年

　詳細を見る

J-GLOBAL

researchmap
複数マイクロフォンを用いた音声区間検出

大西祥史, 越仲孝文, 篠田浩一

日本音響学会研究発表会講演論文集(CD-ROM) 2011 2011年

　詳細を見る

J-GLOBAL

researchmap
雑音抑圧法とモデル適応法を組み合わせた耐雑音音声認識手法 (言語理解とコミュニケーション)

古明地秀治, 荒川隆行, 越仲孝文

電子情報通信学会技術研究報告 110 ( 356 ) 49 - 54 2010年12月

　詳細を見る

記述言語：日本語出版者・発行元：電子情報通信学会

researchmap
雑音抑圧法とモデル適応法を組み合わせた耐雑音音声認識手法

古明地秀治, 荒川隆行, 越仲孝文

電子情報通信学会技術研究報告 110 ( 357(SP2010 88-102) ) 49 - 54 2010年12月

　詳細を見る

記述言語：日本語出版者・発行元：電子情報通信学会

J-GLOBAL

researchmap
雑音抑圧法とモデル適応法を組み合わせた耐雑音音声認識手法

古明地秀治, 荒川隆行, 越仲孝文

研究報告音声言語情報処理（SLP） 2010 ( 9 ) 1 - 6 2010年12月

　詳細を見る

記述言語：日本語出版者・発行元：情報処理学会

音声認識のための従来の耐雑音方式には，主に雑音抑圧法とモデル適応法の二つの方式がある．前者は，入力信号から推定雑音を抑圧することでクリーンな信号を得る方式である．しかし，抑圧の効果は雑音の推定精度に大きく依存する．一方，後者は，音響モデルの適応により雑音の分散も考慮するため，雑音の推定誤差に対して頑健である．しかし，雑音環境の変動に対する追従性は高くない．本稿では，抑圧係数と適応係数の二つの係数を導入し，従来の二つの方式の連続的な切り替えを実現する方法を提案する．Aurora2 を用いた実験を通して，従来の二つの方式よりも高い認識性能を得る抑圧係数と適応係数が存在することを明らかにし，提案法の有効性を示す．Noise suppression and model adaptation are two major approaches for robust speech recognition under noisy conditions. The former obtains clean speech by eliminating successively estimated noise from input speech, and the effectiveness of this approach strongly depends on the accuracy of noise estimation. The latter, on the other hand, is more robust against noise estimation error because it takes into account the variance of noise signals on an acoustic model. The calculation of variance, however, requires a large number of noise observations. This paper proposes a novel speech recognition method that continuously combines those two approaches using two weight coefficients, i.e., suppression coefficient and adaptation coefficient. A series of experiments on a speech recognition task under noisy conditions (Aurora2) shows that the proposed method is possible to achieves better performance than both conventional noise suppression and model adaptation do.

CiNii Books

researchmap

その他リンク： http://id.nii.ac.jp/1001/00071573/
オンライン話者クラスタリング技術と議事録作成支援への応用 (音声認識ソリューション・製品特集) 招待

越仲孝文, 長友健太郎

NEC技報 63 ( 1 ) 84 - 87 2010年2月

　詳細を見る

担当区分：筆頭著者,　責任著者記述言語：日本語掲載種別：機関テクニカルレポート，技術報告書，プレプリント等出版者・発行元：日本電気

CiNii Books

researchmap
裁判員裁判向け音声認識システム (音声認識ソリューション・製品特集) 招待

越仲孝文, 江森正, 大西祥史

NEC技報 63 ( 1 ) 41 - 90 2010年2月

　詳細を見る

担当区分：筆頭著者,　責任著者記述言語：日本語掲載種別：機関テクニカルレポート，技術報告書，プレプリント等出版者・発行元：日本電気

CiNii Books

researchmap
法廷における音声認識システムの開発-システム概要-

越仲孝文, 江森正, 大西祥史, 北出祐, 谷真宏, 佐藤研治

日本音響学会研究発表会講演論文集(CD-ROM) 2010 2010年

　詳細を見る

J-GLOBAL

researchmap
法廷における音声認識システムの開発-オンライン話者適応の構成-

大西祥史, 江森正, 谷真宏, 北出祐, 長友健太郎, 越仲孝文, 佐藤研治

日本音響学会研究発表会講演論文集(CD-ROM) 2010 2010年

　詳細を見る

J-GLOBAL

researchmap
法廷における音声認識システムの開発-音響モデル及び言語モデル-

谷真宏, 北出祐, 江森正, 大西祥史, 越仲孝文, 佐藤研治

日本音響学会研究発表会講演論文集(CD-ROM) 2010 2010年

　詳細を見る

J-GLOBAL

researchmap
法廷における音声認識システムの開発-複数マイクロフォンを用いた音声検出-

江森正, 辻川剛範, 大西祥史, 越仲孝文, 谷真宏, 北出祐, 佐藤研治

日本音響学会研究発表会講演論文集(CD-ROM) 2010 2010年

　詳細を見る

J-GLOBAL

researchmap
法廷における音声認識システムの開発-閲覧性向上のための諸技術の開発-

北出祐, 大西祥史, 江森正, 谷真宏, 越仲孝文, 佐藤研治

日本音響学会研究発表会講演論文集(CD-ROM) 2010 2010年

　詳細を見る

J-GLOBAL

researchmap
音声認識のための複数の認識器を利用した能動学習

濱中悠三, 江森正, 越仲孝文, 越仲孝文, 篠田浩一, 古井貞煕

電子情報通信学会技術研究報告 109 ( 355(NLC2009 12-32) ) 19 - 23 2009年12月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人電子情報通信学会

J-GLOBAL

researchmap
音声認識のための複数の認識器を利用した能動学習

濱中悠三, 江森正, 越仲孝文, 篠田浩一, 古井貞熙

音声言語情報処理（SLP） 2009 ( 4 ) 1 - 5 2009年12月

　詳細を見る

記述言語：日本語出版者・発行元：情報処理学会

大語彙連続音声認識器の学習データに対する書き起こしコスト削減のための複数の認識器を利用した能動学習手法を提案する．この手法では複数の認識器から得られた複数の異なる認識結果文を用いて発話の選択を行う．認識結果文をアラインメントするためのプログレッシブ法と Voting Entropy を発話選択に用いている．提案手法を日本語話し言葉コーパスの 190 時間の音声データを使い評価し，能動学習を行わないランダムな発話選択より顕著に良い結果を得た．74% の単語正解精度を得るために必要な書き起こし付きデータ量はランダム選択では 97 時間，単語事後確率を用いた従来手法では 72 時間であるが，提案手法では 60 時間で済むという結果になった．We propose an active learning method with multiple recognizers for large vocabulary continuous speech recognition. In this approach, the recognition results obtained from recognizers are used for selecting utterances. Here, a progressive search method is used for aligning sentences, and voting entropy is used as a measure for selecting utterances. Our method was evaluated by using 190-hour speech data in the Corpus of Spontaneous Japanese. It proved to be significantly better than random selection. It only required 60 h of data to achieve a word accuracy of 74%, while standard training (i.e., random selection) required 97 h of data. The recognition accuracy of our proposed method was also better than that of the conventional uncertainty sampling method using word posterior probabilities as the confidence measures for selecting sentences.

CiNii Books

researchmap

その他リンク： http://id.nii.ac.jp/1001/00067046/
音声認識のためのコミッティを用いた能動学習

濱中悠三, 江森正, 越仲孝文, 越仲孝文, 篠田浩一, 古井貞熙

日本音響学会研究発表会講演論文集(CD-ROM) 2009 2009年

　詳細を見る

J-GLOBAL

researchmap
エルゴードHMMを用いたオンライン話者クラスタリングおよび議事録作成への応用

越仲孝文, 長友健太郎, 寺西博人

音声ドキュメント処理ワークショップ講演論文集 3rd ( 376(MVE2009 79-129) ) 53 - 58 2009年

　詳細を見る

記述言語：日本語出版者・発行元：[豊橋技術科学大学メディア科学リサーチセンター]

CiNii Books

J-GLOBAL

researchmap
エルゴードHMMのインクリメンタル学習によるオンライン話者クラスタリング

越仲孝文, 長友健太郎, 佐藤研治

日本音響学会研究発表会講演論文集(CD-ROM) 2008 2008年

　詳細を見る

J-GLOBAL

researchmap
十分統計量を用いた教師なし話者適応における話者選択法

谷真宏, 江森正, 大西祥史, 越仲孝文, 篠田浩一

情報処理学会研究報告 2007 ( 129(SLP-69) ) 85 - 89 2007年12月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人情報処理学会

十分統計量を用いた教師なし話者適応において，選択する話者の数を決定する手法を提案する．音声認識における高速な教師なし話者適応の一つとして，話者毎の十分統計量を用いた手法が提案されている．これは，予め用意した複数の話者の中から，評価話者に音響的な特徴が近い話者を選択し，選択された話者の十分統計量を用いて，評価話者に適応した音響モデルを構築する手法である．従来手法では，評価話者に音響的な特徴が近い話者を選択する際，複数の話者の中から，予め定められた数だけ選択する．提案手法では，評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に，選択する話者の数を決定する．電話による対話音声を用いた認識実験において，従来手法に比較し，単語正解精度が 0.74 ポイント向上した．特に，音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した．We propose a new speaker selection method for the unsupervised speaker adaptation based on HMM sufficient statistics. The adaptation technique of using HMM sufficient statistics has been proposed as one of the rapid unsupervised speaker adaptation techniques in speech recognition. The procedure is as follows: First the training speakers acoustically close to the test speaker are selected. Then, the acoustic model is trained using the HMM sufficient statistics of these selected training speakers. In this technique, the number of selected training speakers is always constant. In our proposed speaker selection method, the number of speakers is determined by the distances between the test speaker and each training speaker. In our recognition experiments using spoken dialogue data, the proposed method improved word accuracy by 0.74 points. It was confirmed that the proposed method particularly effective when there are not many training speakers around the test speaker in acoustic space.

CiNii Books

J-GLOBAL

researchmap

その他リンク： http://id.nii.ac.jp/1001/00056768/
十分統計量を用いた教師なし話者適応における話者選択法

谷真宏, 江森正, 大西祥史, 越仲孝文, 篠田浩一

電子情報通信学会技術研究報告. SP, 音声 107 ( 406 ) 85 - 89 2007年12月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人電子情報通信学会

十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が0.74ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.

CiNii Books

researchmap
WEB文書を活用したニュース映像検索システム

寺尾真, 越仲孝文, 安藤真一, 磯谷亮輔, 奥村明俊

音声ドキュメント処理ワークショップ講演論文集 1st 2007年

　詳細を見る

J-GLOBAL

researchmap
映像コンテンツと関連文書の連携によるシーン検索システム

寺尾真, 越仲孝文, 安藤真一, 磯谷亮輔, 奥村明俊

情報科学技術フォーラム FIT 2006 ( 2 ) 373 - 374 2006年8月

　詳細を見る

記述言語：日本語出版者・発行元：FIT(電子情報通信学会・情報処理学会)運営委員会

CiNii Books

J-GLOBAL

researchmap
話し言葉における発話速度を隠れ変数にもつ継続時間長モデル

越仲孝文

日本音響学会研究発表会講演論文集 2005 2005年

　詳細を見る

J-GLOBAL

researchmap
HMMの変分ベイズ学習によるテキスト文書の話題分割法

越仲孝文, 磯健一, 奥村明俊

情報処理学会研究報告音声言語情報処理（SLP） 2004 ( 57 ) 49 - 54 2004年5月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人情報処理学会

確率モデルに基づくテキスト分割法を提案する．left-to-right型の離散HMMをテキスト生成モデルと考え，テキスト分割をHMMのパラメータ推定問題として定式化する．パラメータ推定法として，最尤推定およびベイズ推定（変分ベイズ法）を用いて，日本語ニュース番組を各ニュース項目へ分割する評価実験を行い，最尤推定に比べてペイズ推定が精度よくテキストを分割できることを示す．さらに，従来法としてHearst法を取り上げ，従来法と比べた提案法の利点や課題を明らかにする．This paper presents a new text segmentation method based on stochastic modeling. When supposing a generative model of a text document to be a discrete left-to-right hidden Markov model (HMM), a transition between topics in the text document corresponds to a state transition in the HMM, and text segmentation can be formulated as model parameter estimation using the text document. Compared to the traditional maximum likelihood approach, advantage of the Bayes approach (Variational Bayes) is shown by some experiments, which evaluate segmentation accuracy in segmenting Japanese broadcast news programs into each news article. Comparison between the proposed method and a conventional method, well-known Hearst's method, is also presented in this paper. The comparison shows the proposed method to be encouraging.

CiNii Books

researchmap

その他リンク： http://id.nii.ac.jp/1001/00057136/
HMMの変分ベイズ学習によるテキスト文書の話題分割法

越仲孝文, 磯健一, 奥村明俊

電子情報通信学会技術研究報告 104 ( 87(SP2004 15-18) ) 19 - 24 2004年5月

　詳細を見る

記述言語：日本語出版者・発行元：一般社団法人電子情報通信学会

確率モデルに基づくテキスト分割法を提案する.left-to-right型の離散HMMをテキスト生成モデルと考え,テキスト分割をHMMのパラメータ推定問題として定式化する.パラメータ推定法として,最尤推定およびベイズ推定(変分ベイズ法)を用いて,日本語ニュース番組を各ニュース項目へ分割する評価実験を行い,最尤推定に比べてベイズ推定が精度よくテキストを分割できることを示す,さらに,従来法としてHearst法を取り上げ,従来法と比べた提案法の利点や課題を明らかにする.

CiNii Books

J-GLOBAL

researchmap
HMMの変分ベイズ学習によるテキストの話題分割法の検討

越仲孝文, 磯健一

日本音響学会研究発表会講演論文集 2004 2004年

　詳細を見る

J-GLOBAL

researchmap
隣接文字間の変形の依存性を考慮した連続HMM手書き単語認識

越仲孝文, 西脇大輔, 山田敬嗣

電子情報通信学会技術研究報告 99 ( 649(PRMU99 231-245) ) 2000年

　詳細を見る

J-GLOBAL

researchmap
文字パタン間の依存性を考慮した文字列の学習と認識

越仲孝文, 西脇大輔, 山田敬嗣

電子情報通信学会大会講演論文集 1999 1999年

　詳細を見る

J-GLOBAL

researchmap
傾き推定値の信頼性評価による適応的な文字列傾き補正

越仲孝文, 西脇大輔, 山田敬嗣

電子情報通信学会大会講演論文集 1997 1997年

　詳細を見る

J-GLOBAL

researchmap
逆想起ニューラルネットを用いた手書きカナ認識実験

越仲孝文, 西脇大輔, 山田敬嗣

電子情報通信学会大会講演論文集 1996 ( Society D ) 1996年

　詳細を見る

J-GLOBAL

researchmap
特定漢数字および記号の切り出し認識法

越仲孝文, 西脇大輔, 山田敬嗣

電子情報通信学会大会講演論文集 1995 ( Sogo Pt 7 ) 1995年

　詳細を見る

J-GLOBAL

researchmap

▼全件表示

講演・口頭発表等

機械学習を用いた胸部X線画像左右反転防止システム開発の検討

岡田圭伍, 越仲孝文, 平野高望, 本寺哲一, 安田光慶, 加藤京一

第39回日本診療放射線技師学術大会 2023年10月

　詳細を見る

開催年月日： 2023年9月 - 2023年10月

記述言語：日本語会議種別：口頭発表（一般）

researchmap
NECシンガポール研究所と音声・音響解析への取組み招待

谷真宏, 仙田裕三, 近藤玲史, 越仲孝文

情報処理学会音声言語処理研究会(SIG-SLP) 2015年10月

　詳細を見る

記述言語：日本語会議種別：口頭発表（招待・特別）

researchmap
音で耳を測る，新しい個人認証技術招待

越仲孝文

センシング技術応用研究会第201回研究例会 2017年11月

　詳細を見る

記述言語：日本語会議種別：口頭発表（招待・特別）

researchmap
インダストリーセッション招待

庄境誠, 西村雅史, 大淵康成, 河村聡典, 越仲孝文

情報処理学会音声言語情報処理研究会(SIG-SLP) 2014年3月

　詳細を見る

記述言語：日本語会議種別：シンポジウム・ワークショップパネル（指名）

researchmap
話者認識技術の現状と課題招待

小川哲司, 長内隆, 黒岩眞吾, 越仲孝文, 篠田浩一, 西田昌史

電子情報通信学会音声研究会(SP) 2013年3月

　詳細を見る

記述言語：日本語会議種別：シンポジウム・ワークショップパネル（指名）

researchmap
音で耳を測る，新しい個人認証技術招待

越仲孝文, 矢野昌平

第6回バイオメトリクスと認識・認証シンポジウム (SBRA2016) 2016年11月

　詳細を見る

記述言語：日本語会議種別：口頭発表（招待・特別）

researchmap

▼全件表示

受賞

学術奨励賞

2000年3月電子情報通信学会

　詳細を見る

researchmap

共同研究・競争的資金等の研究課題

画像キャプショニングモデルの言語化プロセスの可視化に関する研究

研究課題/領域番号：24K15012 2024年4月 - 2027年3月

日本学術振興会科学研究費助成事業基盤研究(C)

越仲孝文

　詳細を見る

配分額：4550000円（直接経費：3500000円、間接経費：1050000円）

researchmap
音声に内在する個人性の言語的側面に関する研究

研究課題/領域番号：21K11967 2021年4月 - 2024年3月

日本学術振興会科学研究費助成事業基盤研究(C)

越仲孝文

　詳細を見る

配分額：4160000円（直接経費：3200000円、間接経費：960000円）

本研究では、音声に含まれる個人性のうち、これまであまり研究されてこなかった言語的な個人性、すなわちテキスト情報に現れる書き手の特徴について明らかにする。研究成果は、音声通話やネット投稿のなりすましのような犯罪の防止などに有用である。
初年度は、テキストからその筆者を予測する文書分類問題を想定し、ベースラインシステムの構築に注力した。すなわち、テキストから特徴量を抽出する処理、および特徴量を所定の筆者クラスに分類する処理を実行するプログラムを作成した。前者は、基本単位であるトークンの出現頻度に基づくTF-IDF特徴量を抽出する。後者はロジスティック回帰や多層パーセプトロン(MLP)に基づく分類器である。また、特徴抽出と分類を統合した、深層ニューラルネットワークによるend-to-endシステムも構築した。こちらは長短期記憶(LSTM)機構を備える双方向リカレントニューラルネット(bidirectional RNN)および注意機構を備えるTransformerなどのモデルを含む。End-to-endシステムでは、ニューラルネットの隠れ層から入力テキストの分散表現(埋め込みベクトル)を得ることも可能である。
公開データセットである「青空文庫」から作品数の多い著名筆者10人を選び、日本語作品の段落単位での分類実験を実施した。段落総数は約33,000である。深層ニューラルネットに基づくシステムの分類精度が65%で最も高く、TF-IDF特徴量を用いる従来型システムの52%を大きく上回った。関連する研究成果を人工知能学会全国大会(JSAI2022)で発表予定。
実験の効率化のために、NVIDIA RTX A6000搭載のGPUサーバ1台を購入した。また、将来の国際会議や雑誌での論文発表に備えてLanguage Data Consortium (LDC)の音声言語データを入手した。

researchmap
ベイズ統計に基づく話者の異同識別鑑定における尤度比尺度の改良

研究課題/領域番号：21510185 2009年 - 2012年

日本学術振興会科学研究費助成事業基盤研究(C)

長内隆, 鎌田敏明, 蒔苗久則, 網野加苗, 木下裕子, 石原俊一, 篠田浩一, 黒岩眞吾, 柘植覚, 松井知子, 西田昌史, 小川哲司, 越仲孝文, 王龍標

　詳細を見る

配分額：4290000円（直接経費：3300000円、間接経費：990000円）

法科学分野においては、裁判官らによる適切な判断を助けるために、被疑者が犯人である可能性の程度を示すことが重要である。この可能性を示すために、ベイズ統計に基づく尤度比が広く利用されている。近年、この尤度比を話者の異同識別鑑定に利用する研究が行われている。しかし、従来法では、与えられた音声資料の一部しか利用できない。本研究では、与えられた音声資料を有効に利用できる尤度比尺度を提案し、その有効性を確認した。

researchmap

担当経験のある科目（授業）

データマイニング

2021年4月 - 現在機関名：横浜市立大学

　詳細を見る

researchmap
音声認識

2020年12月機関名：拓殖大学

　詳細を見る

researchmap
統計と確率

2020年9月 - 現在機関名：横浜市立大学

　詳細を見る

researchmap
自然言語処理特論

2020年9月 - 現在機関名：横浜市立大学

　詳細を見る

researchmap
音声情報処理

2019年12月 - 現在機関名：法政大学

　詳細を見る

researchmap
人工知能特論

2019年11月 - 2020年11月機関名：京都大学

　詳細を見る

researchmap
データサイエンス特論

2017年11月 - 2020年11月機関名：神戸大学

　詳細を見る

researchmap

▼全件表示

学術貢献活動

ICASSP 2025 Session Chair

役割：パネル司会・セッションチェア等

IEEE Signal Processing Society 2025年4月

　詳細を見る

種別：学会・研究会等

researchmap
International Joint Conference on Neural Networks (IJCNN)

役割：査読

IEEE 2025年3月 - 現在

　詳細を見る

researchmap
ACM Transactions on Multimedia Computing Communications and Applications

役割：査読

Association for Computing Machinery (ACM) 2023年5月 - 現在

　詳細を見る

種別：査読等

researchmap
IEEE BigData2022 Local Arrangement Co-chair

役割：企画立案・運営等

IEEE Computer Society 2022年12月

　詳細を見る

種別：学会・研究会等

researchmap
ICASSP 2022 Session Chair

役割：パネル司会・セッションチェア等

IEEE Signal Processing Society 2022年5月

　詳細を見る

種別：学会・研究会等

researchmap
APSIPA ASC 2021 Sponsorship Co-chair

役割：企画立案・運営等

Asia-Pacific Signal and Information Processing Association (APSIPA) 2021年12月

　詳細を見る

種別：学会・研究会等

researchmap
ICASSP 2021 Session Chair

役割：パネル司会・セッションチェア等

IEEE Signal Processing Society 2021年6月

　詳細を見る

種別：学会・研究会等

researchmap
ICASSP 2020 Session Chair

役割：パネル司会・セッションチェア等

IEEE Signal Processing Society 2020年5月

　詳細を見る

種別：学会・研究会等

researchmap
Computer Speech and Language

役割：査読

International Speech Communication Association (ISCA) 2019年5月 - 現在

　詳細を見る

種別：査読等

researchmap
Signal Processing Letters

役割：査読

IEEE Signal Processing Society 2019年4月 - 現在

　詳細を見る

種別：査読等

researchmap
Automatic Speech Recognition and Understanding Workshop (ASRU)

役割：査読

IEEE Signal Processing Society 2017年6月 - 現在

　詳細を見る

種別：査読等

researchmap
Spoken Language Technology Workshop (SLT)

役割：査読

IEEE Signal Processing Society 2016年6月 - 現在

　詳細を見る

種別：査読等

researchmap
情報処理学会論文誌査読委員

役割：査読

情報処理学会 2016年5月 - 現在

　詳細を見る

種別：査読等

researchmap
International Conference on Audio, Speech, and Signal Processing (ICASSP)

役割：査読

IEEE Signal Processing Society 2015年9月 - 現在

　詳細を見る

種別：査読等

researchmap
Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)

役割：査読

Asia-Pacific Signal and Information Processing Association (APSIPA) 2015年7月 - 現在

　詳細を見る

種別：査読等

researchmap
電子情報通信学会英文論文誌D (IEICE Trans. on Inf. & Syst.)

役割：査読

電子情報通信学会 2014年6月 - 現在

　詳細を見る

種別：査読等

researchmap
Speech Communication

役割：査読

International Speech Communication Association (ISCA) 2013年4月 - 現在

　詳細を見る

種別：査読等

researchmap
The Annual Conference of the International Speech Communication Association (INTERSPEECH)

役割：査読

International Speech Communication Association (ISCA) 2010年5月 - 現在

　詳細を見る

種別：査読等

researchmap

▼全件表示