2025/05/09 更新

写真a

コシナカ タカフミ
越仲 孝文
Takafumi Koshinaka
所属
データサイエンス研究科 データサイエンス専攻 教授
データサイエンス学部 データサイエンス学科
職名
教授
プロフィール

平3京大・工・航空卒,平5同大大学院工学研究科修士課程了,平25東工大大学院情報理工学研究科博士課程了,博士(工学).平5 NEC入社,平18同社主任研究員,平25同社主幹研究員.平29人工知能学会理事,令1京大大学院情報学研究科非常勤講師.令2より横浜市立大学データサイエンス学部教授.パターン認識,信号処理,機械学習の研究に興味をもつ.

外部リンク

学位

  • 博士(工学) ( 2013年3月   東京工業大学 )

研究キーワード

  • 自然言語処理

  • 音声認識

  • 深層学習

  • 信号処理

  • 人工知能

  • パターン認識

  • 機械学習

研究分野

  • 情報通信 / 知能ロボティクス

  • 情報通信 / 知覚情報処理

  • 情報通信 / 知能情報学

学歴

  • 東京工業大学   大学院情報理工学研究科   計算工学専攻

    2009年10月 - 2013年3月

      詳細を見る

    国名: 日本国

    researchmap

  • 京都大学   大学院工学研究科   航空工学専攻

    1991年4月 - 1993年3月

      詳細を見る

    国名: 日本国

    researchmap

  • 京都大学   工学部   航空工学科

    1987年4月 - 1991年3月

      詳細を見る

    国名: 日本国

    researchmap

経歴

  • 横浜市立大学   データサイエンス学部   教授

    2020年9月 - 現在

      詳細を見る

    国名:日本国

    researchmap

  • 日本電気株式会社   バイオメトリクス研究所   主幹研究員

    2018年3月 - 2020年8月

      詳細を見る

    国名:日本国

    researchmap

  • 日本電気株式会社   データサイエンス研究所   主幹研究員

    2016年4月 - 2018年3月

      詳細を見る

    国名:日本国

    researchmap

  • 日本電気株式会社   情報・メディアプロセッシング研究所   主幹研究員

    2015年4月 - 2018年3月

      詳細を見る

    国名:日本国

    researchmap

  • 日本電気株式会社   情報・メディアプロセッシング研究所   主任研究員

    2010年4月 - 2013年3月

      詳細を見る

    国名:日本国

    researchmap

  • 日本電気株式会社   共通基盤ソフトウェア研究所   主任研究員

    2007年4月 - 2010年3月

      詳細を見る

    国名:日本国

    researchmap

  • 日本電気株式会社   メディア情報研究所   主任研究員

    2006年4月 - 2007年3月

      詳細を見る

    国名:日本国

    researchmap

▼全件表示

所属学協会

  • 言語処理学会

    2021年2月 - 現在

      詳細を見る

  • 人工知能学会

    2017年10月 - 現在

      詳細を見る

  • IEEE

    2013年3月 - 現在

      詳細を見る

  • 日本音響学会

    2004年12月 - 現在

      詳細を見る

  • 電子情報通信学会

    1993年6月 - 現在

      詳細を見る

委員歴

  • ISO/IEC JTC1/SC29 WG1 国内小委員会   委員  

    2021年5月 - 現在   

      詳細を見る

    団体区分:学協会

    researchmap

  • IEEE BigData2022 Organizing Committee   Local Arrangement Co-chair  

    2020年12月 - 2022年12月   

      詳細を見る

    団体区分:学協会

    researchmap

  • The Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA 2021)   Sponsorship Co-chair  

    2019年12月 - 2021年12月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 人工知能学会   代議員  

    2019年6月 - 現在   

      詳細を見る

    団体区分:学協会

    researchmap

  • The Speaker and Language Recognition Workshop (Odyssey 2020)   General Co-chair  

    2018年6月 - 2020年11月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 人工知能学会   理事  

    2017年6月 - 2019年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • Industrial Membership Committee, Asia-Pacific Signal and Information Processing Association (APSIPA)   Committee Member  

    2016年6月 - 2018年6月   

      詳細を見る

    団体区分:学協会

    researchmap

  • 電子情報通信学会音声研究専門委員会   研究専門委員  

    2013年5月 - 2017年4月   

      詳細を見る

    団体区分:学協会

    researchmap

▼全件表示

論文

  • 法科学分野への応用を想定したテキスト独立話者照合の精度評価

    小澤茂樹, 後藤晃, 斉藤裕子, 松浦廣樹, 越仲孝文

    信学技報   124 ( 391 )   34 - 39   2025年3月

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • 検索エンジンを指向したLLMのアラインメント

    益子怜, 木村賢, 越仲孝文

    言語処理学会第31回年次大会   2025年3月

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    researchmap

  • Reading is Believing: Revisiting Language Bottleneck Models for Image Classification 査読

    Honori Udo, Takafumi Koshinaka

    2024 IEEE International Conference on Image Processing (ICIP)   943 - 949   2024年10月

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icip51287.2024.10648091

    DOI: 10.60864/n50t-ax16

    researchmap

  • テキストプロンプトによるデザイン変更が可能な試着画像生成

    武本 孝輔, 越仲 孝文

    2024年度人工知能学会全国大会(JSAI2024)   2024年5月

     詳細を見る

    担当区分:最終著者, 責任著者   掲載種別:研究論文(研究会,シンポジウム資料等)  

    DOI: 10.11517/pjsai.JSAI2024.0_2C1GS702

    researchmap

  • LLM生成コンテンツのSEO観点での品質評価

    益子怜, 木村賢, 越仲孝文

    言語処理学会年次大会発表論文集(Web)   30th   2024年

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:日本語   掲載種別:研究論文(研究会,シンポジウム資料等)  

    J-GLOBAL

    researchmap

  • Generalized Domain Adaptation Framework for Parametric Back-End in Speaker Recognition 査読

    Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

    IEEE Transactions on Information Forensics and Security   18   3936 - 3947   2023年6月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Institute of Electrical and Electronics Engineers (IEEE)  

    DOI: 10.1109/tifs.2023.3287733

    researchmap

  • 画像キャプショニングは画像そのものよりも多くを語る

    有働帆乃璃, 越仲孝文

    人工知能学会全国大会論文集(Web)   37th   2023年6月

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:日本語  

    J-GLOBAL

    researchmap

  • 感情付与を用いた低評価レビューに対する応答生成

    益子怜, 越仲孝文

    人工知能学会全国大会論文集(Web)   37th   2023年6月

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:日本語  

    J-GLOBAL

    researchmap

  • ECサイトのレビューテキストからのレーティング予測と購買者評価の分析

    小林義幸, 越仲孝文

    人工知能学会全国大会論文集(Web)   36th   2022年6月

     詳細を見る

    担当区分:最終著者, 責任著者   記述言語:日本語  

    DOI: 10.11517/pjsai.JSAI2022.0_1P5GS602

    J-GLOBAL

    researchmap

  • Task-aware Warping Factors in Mask-based Speech Enhancement 査読

    Qiongqiong Wang, Kong Aik Lee, Takafumi Koshinaka, Koji Okabe, Hitoshi Yamamoto

    European Signal Processing Conference (EUSIPCO 2021)   2021年8月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Xi-Vector Embedding for Speaker Recognition 査読

    Kong Aik Lee, Qiongqiong Wang, Takafumi Koshinaka

    IEEE Signal Processing Letters   28   1385 - 1389   2021年7月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Institute of Electrical and Electronics Engineers ({IEEE})  

    DOI: 10.1109/LSP.2021.3091932

    researchmap

  • A Generalized Framework for Domain Adaptation of PLDA in Speaker Recognition 査読

    Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

    ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)   2020年5月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icassp40776.2020.9054113

    researchmap

  • Using Multi-Resolution Feature Maps with Convolutional Neural Networks for Anti-Spoofing in ASV 査読

    Qiongqiong Wang, Kong Aik Lee, Takafumi Koshinaka

    Odyssey 2020 The Speaker and Language Recognition Workshop   2020年5月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/odyssey.2020-20

    researchmap

  • NEC-TT System for Mixed-Bandwidth and Multi-Domain Speaker Recognition. 査読

    Kong Aik Lee, Hitoshi Yamamoto, Koji Okabe, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Koichi Shinoda

    Computer Speech and Language   61   101033 - 101033   2020年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    DOI: 10.1016/j.csl.2019.101033

    researchmap

  • Study on comparison of individuality of ear canal shape

    Riki Kimura, Shohei Yano, Rui Fujitsuka, Naoki Wakui, Takayuki Arakawa, Takafumi Koshinaka

    148th Audio Engineering Society International Convention   2020年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Audio Engineering Society  

    Ear acoustic authentication, a type of biometric authentication, uses the acoustic characteristics of the ear canal as a feature. Because ear acoustic authentication acquires features using earphones, the process of authentication is easy, and the method has attracted much attention recently. However, the mechanism of the acoustic characteristics of the ear canal has not been sufficiently studied. In this study, we verified two methods, the image matching method and Slicing method. In conclusion, Slicing method was found to outperform the image matching method, based on the results of this study.

    Scopus

    researchmap

  • NEC-TT speaker verification system for SRE'19 CTS challenge

    Kong Aik Lee, Koji Okabe, Hitoshi Yamamoto, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Keisuke Ishikawa, Koichi Shinoda

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH   2020-   2227 - 2231   2020年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:International Speech Communication Association  

    The series of speaker recognition evaluations (SREs) organized by the National Institute of Standards and Technology (NIST) is widely accepted as the de facto benchmark for speaker recognition technology. This paper describes the NEC-TT speaker verification system developed for the recent SRE'19 CTS Challenge. Our system is based on an x-vector embedding front-end followed by a thin scoring back-end. We trained a very-deep neural network for x-vector extraction by incorporating residual connections, squeeze-and-excitation networks, and angular-margin softmax at the output layer. We enhanced the back-end with a tandem approach leveraging the benefit of supervised and unsupervised domain adaptation. We obtained over 30% relative reduction in error rate with each of these enhancements at the front-end and back-end, respectively.

    DOI: 10.21437/Interspeech.2020-1132

    Scopus

    researchmap

  • Speaker Augmentation and Bandwidth Extension for Deep Speaker Embedding 査読

    Hitoshi Yamamoto, Kong Aik Lee, Koji Okabe, Takafumi Koshinaka

    Interspeech 2019   2019年9月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2019-1508

    researchmap

  • The NEC-TT 2018 Speaker Verification System 査読

    Kong Aik Lee, Hitoshi Yamamoto, Koji Okabe, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Koichi Shinoda

    Interspeech 2019   2019年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2019-1517

    researchmap

  • Unleashing the Unused Potential of i-Vectors Enabled by GPU Acceleration 査読

    Ville Vestman, Kong Aik Lee, Tomi H. Kinnunen, Takafumi Koshinaka

    Interspeech 2019   2019年9月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2019-1955

    researchmap

  • The CORAL+ Algorithm for Unsupervised Domain Adaptation of PLDA 査読

    Kong Aik Lee, Qiongqiong Wang, Takafumi Koshinaka

    ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)   2019年5月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icassp.2019.8682852

    researchmap

  • Feature selection and its evaluation in binaural ear acoustic authentication

    Masaki Yasuhara, Shohei Yano, Takayuki Arakawa, Takafumi Koshinaka

    AES 146th International Convention   2019年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Audio Engineering Society  

    A type of biometric authentication is ear acoustic authentication, which uses the ear canal transfer characteristic, showing the acoustic characteristics of the ear canal. In ear acoustic authentication, biological information can be acquired from both ears. However, extant literature on an accuracy improvement method using binaural features is inadequate. In this study, we experimentally determine a feature that represents the difference between each user to perform highly accurate authentication. Feature selection was performed by changing the combination of binaural features, and it was evaluated using the ratio of between-class variance and within-class variance and the Equal Error Ratio (EER). As a result, a method that concatenates the features of both ears has the highest performance.

    Scopus

    researchmap

  • Attention Mechanism in Speaker Recognition: What Does it Learn in Deep Speaker Embedding? 査読

    Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Hitoshi Yamamoto, Takafumi Koshinaka

    2018 IEEE Spoken Language Technology Workshop (SLT)   2018年12月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/slt.2018.8639586

    researchmap

  • Ear Acoustic Biometrics Using Inaudible Signals and Its Application to Continuous User Authentication 査読

    Shivangi Mahto, Takayuki Arakawa, Takafumi Koshinaka

    2018 26th European Signal Processing Conference (EUSIPCO)   2018年9月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.23919/eusipco.2018.8553015

    researchmap

  • Attentive Statistics Pooling for Deep Speaker Embedding 査読

    Koji Okabe, Takafumi Koshinaka, Koichi Shinoda

    Interspeech 2018   2018年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2018-993

    researchmap

  • DNN Based Speaker Embedding Using Content Information for Text-Dependent Speaker Verification 査読

    Subhadeep Dey, Takafumi Koshinaka, Petr Motlicek, Srikanth Madikeri

    2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)   2018年4月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icassp.2018.8461389

    researchmap

  • Robust i-vector extraction tightly coupled with voice activity detection using deep neural networks 査読

    Hitoshi Yamamoto, Koji Okabe, Takafumi Koshinaka

    2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)   2017年12月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/apsipa.2017.8282114

    researchmap

  • Unsupervised Discriminative Training of PLDA for Domain Adaptation in Speaker Verification 査読

    Qiongqiong Wang, Takafumi Koshinaka

    Interspeech 2017   2017年8月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2017-727

    researchmap

  • i-Vector Transformation Using a Novel Discriminative Denoising Autoencoder for Noise-Robust Speaker Recognition 査読

    Shivangi Mahto, Hitoshi Yamamoto, Takafumi Koshinaka

    Interspeech 2017   2017年8月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2017-731

    researchmap

  • 誤差の周波数拡散と加算平均処理による耳音紋認証の精度向上 査読

    矢野 昌平, 荒川 隆行, 越仲 孝文, 今岡 仁, 入澤 英毅

    信学論A   J100-A ( 4 )   161 - 168   2017年4月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    researchmap

  • Fast and accurate personal authentication using ear acoustics 査読

    Takayuki Arakawa, Takafumi Koshinaka, Shohei Yano, Hideki Irisawa, Ryoji Miyahara, Hitoshi Imaoka

    2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA)   2016年12月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/apsipa.2016.7820886

    researchmap

  • Domain adaptation using maximum likelihood linear transformation for PLDA-based speaker verification 査読

    Qiongqiong Wang, Hitoshi Yamamoto, Takafumi Koshinaka

    2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)   2016年3月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icassp.2016.7472651

    researchmap

  • Denoising autoencoder-based speaker feature restoration for utterances of short duration 査読

    Hitoshi Yamamoto, Takafumi Koshinaka

    Interspeech 2015   2015年9月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2017-731

    researchmap

  • Speech/acoustic analysis technology - Its application in support of public solutions

    Takafumi Koshinaka, Osamu Hoshuyama, Yoshifumi Onishi, Ryosuke Isotani, Masahiro Tani

    NEC Technical Journal   9 ( 1 )   82 - 85   2015年1月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:NEC Mediaproducts  

    The advent of the age of big data has further raised interest in the need to extract useful information from the huge amount of data that accumulates in the course of our everyday lives. This may be facilitated by high speed and low cost data analysis solutions. These technologies that process the speech/acoustic information that forms the critical component of real-world information are also becoming more important for understanding the context of the analyzed data. They are expected to be employed for public solutions that will support the safety, security, efficiency and equality of society. This paper introduces an innovative technology designed to extract meaningful information from speech/acoustic media and goes on to discuss its application in public solutions.

    Scopus

    researchmap

  • Anomaly detection of motors with feature emphasis using only normal sounds 査読

    Yumi Ono, Yoshifumi Onishi, Takafumi Koshinaka, Soichiro Takata, Osamu Hoshuyama

    2013 IEEE International Conference on Acoustics, Speech and Signal Processing   2013年5月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icassp.2013.6638167

    researchmap

  • 音声ドキュメント検索のためのインデクシング技術の研究 査読

    越仲 孝文

    東京工業大学   ( 甲第9187号 )   2013年3月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:学位論文(博士)  

    researchmap

  • A noise-robust speech recognition method composed of weak noise suppression and weak Vector Taylor Series Adaptation 査読

    Shuji Komeiji, Takayuki Arakawa, Takafumi Koshinaka

    2012 IEEE Spoken Language Technology Workshop (SLT)   2012年12月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/slt.2012.6424205

    researchmap

  • Online Speaker Clustering Using Incremental Learning of an Ergodic Hidden Markov Model 査読

    KOSHINAKA Takafumi, NAGATOMO Kentaro, SHINODA Koichi

    IEICE transactions on information and systems   E95.D ( 10 )   2469 - 2478   2012年10月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:The Institute of Electronics, Information and Communication Engineers  

    A novel online speaker clustering method based on a generative model is proposed. It employs an incremental variant of variational Bayesian learning and provides probabilistic (non-deterministic) decisions for each input utterance, on the basis of the history of preceding utterances. It can be expected to be robust against errors in cluster estimation and the classification of utterances, and hence to be applicable to many real-time applications. Experimental results show that it produces 50% fewer classification errors than does a conventional online method. They also show that it is possible to reduce the number of speech recognition errors by combining the method with unsupervised speaker adaptation.

    DOI: 10.1587/transinf.e95.d.2469

    CiNii Books

    researchmap

  • 音声認識におけるモデル間スケーリング係数の自動推定 査読

    大西 祥史, 江森 正, 越仲 孝文, 篠田 浩一

    信学論D   J95-D ( 5 )   1276 - 1285   2012年5月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人電子情報通信学会  

    音声認識における確率モデル間のスケーリング係数を効率的に推定する枠組みを提案する.音声認識システムは音響モデル,言語モデルなどの複数のモデルで構成される.モデルごとの出力値の乗算を行う際に,出力確率値の各々を異なる指数(スケーリング係数)でべき乗した上で行うと性能が向上することが経験的に知られている.従来,このスケーリング係数は,その値を変化させて対象の音声データを認識する処理を繰り返し,認識率が高くなる点を選択するという,アドホックな方法で最適化されてきた.本論文では,このスケーリング係数を,対数線形モデルの重みパラメータとみなし,最小単語誤り基準を用いて推定する方法を提案する.提案手法では計算量を低減するために単語ラティスを導入するが,それにより生じる推定値の初期値への依存性を軽減するために,単語ラティス生成とこう配法を用いた係数推定とを交互に繰り返し行う.日本語話し言葉コーパスを用いて評価を行い,提案手法が,最も単語正解精度が高くなるスケーリング係数を初期値に依存せず推定することを確認した.

    CiNii Books

    researchmap

  • Committee-Based Active Learning for Speech Recognition 査読

    HAMANAKA Yuzo, SHINODA Koichi, TSUTAOKA Takuya, FURUI Sadaoki, EMORI Tadashi, KOSHINAKA Takafumi

    IEICE transactions on information and systems   E94-D ( 10 )   2015 - 2023   2011年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:The Institute of Electronics, Information and Communication Engineers  

    We propose a committee-based method of active learning for large vocabulary continuous speech recognition. Multiple recognizers are trained in this approach, and the recognition results obtained from these are used for selecting utterances. Those utterances whose recognition results differ the most among recognizers are selected and transcribed. Progressive alignment and voting entropy are used to measure the degree of disagreement among recognizers on the recognition result. Our method was evaluated by using 191-hour speech data in the Corpus of Spontaneous Japanese. It proved to be significantly better than random selection. It only required 63h of data to achieve a word accuracy of 74%, while standard training (i.e., random selection) required 103h of data. It also proved to be significantly better than conventional uncertainty sampling using word posterior probabilities.

    DOI: 10.1587/transinf.e94.d.2015

    CiNii Books

    researchmap

  • Speech modeling based on committee-based active learning 査読

    HAMANAKA Y.

    Proc. ICASSP, Dallas, 2010   2010年3月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    DOI: 10.1109/icassp.2010.5495650

    researchmap

  • Online speaker clustering using incremental learning of an ergodic hidden Markov model 査読

    Takafumi Koshinaka, Kentaro Nagatomo, Koichi Shinoda

    2009 IEEE International Conference on Acoustics, Speech and Signal Processing   2009年4月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icassp.2009.4960528

    researchmap

  • Open-vocabulary spoken-document retrieval based on query expansion using related web documents 査読

    Makoto Terao, Takafumi Koshinaka, Shinichi Ando, Ryosuke Isotani, Akitoshi Okumura

    Interspeech 2008   2008年9月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:ISCA  

    DOI: 10.21437/interspeech.2017-727

    researchmap

  • HMM-based text segmentation using variational Bayes learning and its application to audio-visual indexing

    Takafumi Koshinaka, Akitoshi Okumura, Ryosuke Isotani

    Electronics and Communications in Japan (Part II: Electronics)   90 ( 12 )   1 - 11   2007年12月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Wiley  

    DOI: 10.1002/ecjb.20421

    researchmap

  • HMMの変分ベイズ学習によるテキストセグメンテーション及びその映像インデキシングへの応用 査読

    越仲 孝文, 奥村 明俊, 磯谷 亮輔

    信学論D   J89-D ( 9 )   2113 - 2122   2006年9月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人電子情報通信学会  

    近年の大語彙連続音声認識技術の発展により,テキスト処理に基づく情報抽出技術を音声認識結果に適用する試みが多く見られるようになってきている.本論文では,教師なしのテキストセグメンテーション方式を提案する.テキストの生成モデルとしてleft-to-right型隠れマルコフモデル(HMM)を仮定するとき,テキストセグメンテーションは,入力テキストを用いたモデルパラメータ推定とモデル選択の問題として定式化できる.変分ベイズ(VB)法に基づくテキスト分割アルゴリズムを導出し,ベイズ的アプローチがテキストのようなスパースなデータ系列を扱う上で有効に働くことを,ニュース番組の分割実験を通して示す.更に,提案法が調整を必要とする内部パラメータを含まないことから,従来法よりも高い分割精度を安定して達成できることを示す.

    CiNii Books

    researchmap

  • An HMM-based Text Segmentation Method Using Variational Bayes Approach and Its Application to LVCSR for Broadcast News 査読

    Takafumi Koshinaka, Ken-ichi Iso, Akitoshi Okumura

    Proceedings. (ICASSP '05). IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005.   2005年3月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:IEEE  

    DOI: 10.1109/icassp.2005.1415156

    researchmap

  • A Stochastic Model for Handwritten Word Recognition Using Context Dependency Between Character Patterns 査読

    Takafumi Koshinaka, Daisuke Nishiwaki, Keiji Yamada

    The 6th International Conference on Document Analysis and Recognition (ICDAR 2001)   2001年9月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    researchmap

  • Pressure waves in a separated gas-liquid layer in a horizontal duct with a step 査読

    Takafumi Koshinaka, Shigeki Morioka

    Fluid Dynamics Research   12 ( 6 )   323 - 333   1993年12月

     詳細を見る

    担当区分:筆頭著者   記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:IOP Publishing  

    DOI: 10.1016/0169-5983(93)90034-8

    researchmap

▼全件表示

MISC

  • Reading Is Believing: Revisiting Language Bottleneck Models for Image Classification

    Honori Udo, Takafumi Koshinaka

    2024年6月

     詳細を見る

    We revisit language bottleneck models as an approach to ensuring the
    explainability of deep learning models for image classification. Because of
    inevitable information loss incurred in the step of converting images into
    language, the accuracy of language bottleneck models is considered to be
    inferior to that of standard black-box models. Recent image captioners based on
    large-scale foundation models of Vision and Language, however, have the ability
    to accurately describe images in verbal detail to a degree that was previously
    believed to not be realistically possible. In a task of disaster image
    classification, we experimentally show that a language bottleneck model that
    combines a modern image captioner with a pre-trained language model can achieve
    image classification accuracy that exceeds that of black-box models. We also
    demonstrate that a language bottleneck model and a black-box model may be
    thought to extract different features from images and that fusing the two can
    create a synergistic effect, resulting in even higher classification accuracy.

    arXiv

    researchmap

    その他リンク: http://arxiv.org/pdf/2406.15816v1

  • Generalized domain adaptation framework for parametric back-end in speaker recognition

    Qiongqiong Wang, Koji Okabe, Kong Aik Lee, Takafumi Koshinaka

    2023年5月

     詳細を見る

    State-of-the-art speaker recognition systems comprise a speaker embedding
    front-end followed by a probabilistic linear discriminant analysis (PLDA)
    back-end. The effectiveness of these components relies on the availability of a
    large amount of labeled training data. In practice, it is common for domains
    (e.g., language, channel, demographic) in which a system is deployed to differ
    from that in which a system has been trained. To close the resulting gap,
    domain adaptation is often essential for PLDA models. Among two of its variants
    are Heavy-tailed PLDA (HT-PLDA) and Gaussian PLDA (G-PLDA). Though the former
    better fits real feature spaces than does the latter, its popularity has been
    severely limited by its computational complexity and, especially, by the
    difficulty, it presents in domain adaptation, which results from its
    non-Gaussian property. Various domain adaptation methods have been proposed for
    G-PLDA. This paper proposes a generalized framework for domain adaptation that
    can be applied to both of the above variants of PLDA for speaker recognition.
    It not only includes several existing supervised and unsupervised domain
    adaptation methods but also makes possible more flexible usage of available
    data in different domains. In particular, we introduce here two new techniques:
    (1) correlation-alignment in the model level, and (2) covariance
    regularization. To the best of our knowledge, this is the first proposed
    application of such techniques for domain adaptation w.r.t. HT-PLDA. The
    efficacy of the proposed techniques has been experimentally validated on NIST
    2016, 2018, and 2019 Speaker Recognition Evaluation (SRE'16, SRE'18, and
    SRE'19) datasets.

    arXiv

    researchmap

    その他リンク: http://arxiv.org/pdf/2305.15567v1

  • Image Captioners Sometimes Tell More Than Images They See

    Honori Udo, Takafumi Koshinaka

    2023年5月

     詳細を見る

    Image captioning, a.k.a. "image-to-text," which generates descriptive text
    from given images, has been rapidly developing throughout the era of deep
    learning. To what extent is the information in the original image preserved in
    the descriptive text generated by an image captioner? To answer that question,
    we have performed experiments involving the classification of images from
    descriptive text alone, without referring to the images at all, and compared
    results with those from standard image-based classifiers. We have evaluate
    several image captioning models with respect to a disaster image classification
    task, CrisisNLP, and show that descriptive text classifiers can sometimes
    achieve higher accuracy than standard image-based classifiers. Further, we show
    that fusing an image-based classifier with a descriptive text classifier can
    provide improvement in accuracy.

    arXiv

    researchmap

    その他リンク: http://arxiv.org/pdf/2305.02932v2

  • 国際会議 Odyssey 2020 開催報告 招待

    越仲 孝文, リー コンエイク, 篠田 浩一

    電子情報通信学会 情報・システムソサイエティ誌   26 ( 2 )   23 - 24   2021年8月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:会議報告等  

    researchmap

  • 分散比の最悪ケースを考慮した線形判別分析とその耳音響認証への応用

    伊藤良峻, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2020   2020年

     詳細を見る

  • I4U Submission to NIST SRE 2018: Leveraging from a Decade of Shared Experiences

    Kong Aik Lee, Ville Hautamaki, Tomi Kinnunen, Hitoshi Yamamoto, Koji Okabe, Ville Vestman, Jing Huang, Guohong Ding, Hanwu Sun, Anthony Larcher, Rohan Kumar Das, Haizhou Li, Mickael Rouvier, Pierre-Michel Bousquet, Wei Rao, Qing Wang, Chunlei Zhang, Fahimeh Bahmaninezhad, Hector Delgado, Jose Patino, Qiongqiong Wang, Ling Guo, Takafumi Koshinaka, Jiacen Zhang, Koichi Shinoda, Trung Ngo Trong, Md Sahidullah, Fan Lu, Yun Tang, Ming Tu, Kah Kuan Teh, Huy Dat Tran, Kuruvachan K. George, Ivan Kukanov, Florent Desnous, Jichen Yang, Emre Yilmaz, Longting Xu, Jean-Francois Bonastre, Chenglin Xu, Zhi Hao Lim, Eng Siong Chng, Shivesh Ranjan, John H. L. Hansen, Massimiliano Todisco, Nicholas Evans

    2019年4月

     詳細を見る

    The I4U consortium was established to facilitate a joint entry to NIST
    speaker recognition evaluations (SRE). The latest edition of such joint
    submission was in SRE 2018, in which the I4U submission was among the
    best-performing systems. SRE'18 also marks the 10-year anniversary of I4U
    consortium into NIST SRE series of evaluation. The primary objective of the
    current paper is to summarize the results and lessons learned based on the
    twelve sub-systems and their fusion submitted to SRE'18. It is also our
    intention to present a shared view on the advancements, progresses, and major
    paradigm shifts that we have witnessed as an SRE participant in the past decade
    from SRE'08 to SRE'18. In this regard, we have seen, among others, a paradigm
    shift from supervector representation to deep speaker embedding, and a switch
    of research challenge from channel compensation to domain adaptation.

    arXiv

    researchmap

    その他リンク: http://arxiv.org/pdf/1904.07386v1

  • 声認証技術がもたらす安全・安心で便利な社会 (バイオメトリクスを用いた社会価値創造特集) 招待

    越仲 孝文, リー コンエイク

    NEC技報   71 ( 2 )   2019年3月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語   掲載種別:機関テクニカルレポート,技術報告書,プレプリント等  

    researchmap

  • 人間の耳には聴こえない音で個人を識別する耳音響認証技術 招待

    荒川 隆行, 越仲 孝文

    月刊自動認識   2019年3月

     詳細を見る

    担当区分:最終著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(商業誌、新聞、ウェブメディア)  

    researchmap

  • 耳音響認証における観測ゆらぎ軽減手法の一検討

    安原雅貴, 荒川隆行, 越仲孝文, 矢野昌平

    人工知能学会全国大会論文集(Web)   33rd   2019年

     詳細を見る

  • 話者クラスタリングを用いた話者照合手法のNIST SRE18における比較評価

    GUO Ling, 山本仁, 岡部浩司, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2019   2019年

     詳細を見る

  • 単一話者検出に最適化した話者クラスタリングを用いる話者照合

    GUO Ling, 山本仁, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2019   2019年

     詳細を見る

  • 複数の話者が混在する環境下のスコア統合に基づく話者照合

    GUO Ling, 山本仁, LEE Kong Aik, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2018   2018年

     詳細を見る

  • 耳穴から個人特定する新しい耳音響認証の技術とは 招待

    花沢健, 越仲 孝文, 荒川 隆行

    防衛技術ジャーナル   37 ( 439 )   18 - 22   2017年10月

     詳細を見る

    記述言語:日本語   掲載種別:記事・総説・解説・論説等(商業誌、新聞、ウェブメディア)   出版者・発行元:防衛技術協会  

    CiNii Books

    researchmap

  • ヒアラブル技術によるヒューマン系IoTソリューションの取り組みと展望 (デジタルビジネスを支えるIoT特集) 招待

    古谷 聡, 越仲 孝文, 大杉 孝司

    NEC技報   70 ( 1 )   47 - 51   2017年9月

     詳細を見る

    記述言語:日本語   掲載種別:機関テクニカルレポート,技術報告書,プレプリント等   出版者・発行元:日本電気  

    CiNii Books

    researchmap

  • 外耳道音響特性を用いた高精度個人認証

    荒川隆行, 矢野昌平, 越仲孝文, 入澤英毅, 今岡仁

    日本音響学会研究発表会講演論文集(CD-ROM)   2016   2016年

     詳細を見る

  • i-vectorの重み付き次元圧縮と区分回帰による年齢推定

    児島一郁, 山本仁, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2016   2016年

     詳細を見る

  • 音声・音響分析技術とパブリックソリューションへの応用 (社会の安全・安心を支えるパブリックソリューション特集) 招待

    越仲 孝文, 宝珠山 治, 大西 祥史, 磯谷 亮介, 谷 真宏

    NEC技報   67 ( 1 )   86 - 89   2014年11月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語   掲載種別:機関テクニカルレポート,技術報告書,プレプリント等   出版者・発行元:日本電気  

    CiNii Books

    researchmap

  • 正常音スペクトルモデルに基づく機器異常検知方式における特徴量強調の効果

    小野友督, 宝珠山治, 大西祥史, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2014   2014年

     詳細を見る

  • 話者認識の国際動向 (小特集: 話者認識に関する研究の動向) 招待 査読

    越仲 孝文, 篠田 浩一

    日本音響学会誌   69 ( 7 )   2013年7月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(学術雑誌)  

    researchmap

  • GMM-SVMによるテキスト非依存話者識別

    谷真宏, 大西祥史, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2013   2013年

     詳細を見る

  • 話者認識技術の現状と課題

    網野加苗, 石原俊一, 小川哲司, 長内隆, 黒岩眞吾, 越仲孝文, 篠田浩一, 柘植覚, 西田昌史, 松井知子, WANG Longbiao

    電子情報通信学会技術研究報告   112 ( 450(SP2012 115-131) )   2013年

     詳細を見る

  • 正常音の知識のみを利用した機器の異常検知

    小野友督, 大西祥史, 越仲孝文, 高田宗一朗

    日本音響学会研究発表会講演論文集(CD-ROM)   2012   2012年

     詳細を見る

  • 音声・映像情報の構造化と検索 (小特集: 音声・映像認識連携への取り組み) 招待 査読

    越仲 孝文, 大網 亮磨, 細見 格, 今岡 仁

    情報処理   52 ( 1 )   2011年10月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(学術雑誌)  

    researchmap

  • 雑音抑圧法とモデル適応法の重み付き組み合わせに基づく耐雑音音声認識手法

    古明地秀治, 荒川隆行, 越仲孝文

    日本音響学会研究発表会講演論文集(CD-ROM)   2011   2011年

     詳細を見る

  • 複数マイクロフォンを用いた音声区間検出

    大西祥史, 越仲孝文, 篠田浩一

    日本音響学会研究発表会講演論文集(CD-ROM)   2011   2011年

     詳細を見る

  • 雑音抑圧法とモデル適応法を組み合わせた耐雑音音声認識手法 (言語理解とコミュニケーション)

    古明地 秀治, 荒川 隆行, 越仲 孝文

    電子情報通信学会技術研究報告   110 ( 356 )   49 - 54   2010年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    researchmap

  • 雑音抑圧法とモデル適応法を組み合わせた耐雑音音声認識手法

    古明地秀治, 荒川隆行, 越仲孝文

    電子情報通信学会技術研究報告   110 ( 357(SP2010 88-102) )   49 - 54   2010年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    J-GLOBAL

    researchmap

  • 雑音抑圧法とモデル適応法を組み合わせた耐雑音音声認識手法

    古明地 秀治, 荒川 隆行, 越仲 孝文

    研究報告音声言語情報処理(SLP)   2010 ( 9 )   1 - 6   2010年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:情報処理学会  

    音声認識のための従来の耐雑音方式には,主に雑音抑圧法とモデル適応法の二つの方式がある.前者は,入力信号から推定雑音を抑圧することでクリーンな信号を得る方式である.しかし,抑圧の効果は雑音の推定精度に大きく依存する.一方,後者は,音響モデルの適応により雑音の分散も考慮するため,雑音の推定誤差に対して頑健である.しかし,雑音環境の変動に対する追従性は高くない.本稿では,抑圧係数と適応係数の二つの係数を導入し,従来の二つの方式の連続的な切り替えを実現する方法を提案する.Aurora2 を用いた実験を通して,従来の二つの方式よりも高い認識性能を得る抑圧係数と適応係数が存在することを明らかにし,提案法の有効性を示す.Noise suppression and model adaptation are two major approaches for robust speech recognition under noisy conditions. The former obtains clean speech by eliminating successively estimated noise from input speech, and the effectiveness of this approach strongly depends on the accuracy of noise estimation. The latter, on the other hand, is more robust against noise estimation error because it takes into account the variance of noise signals on an acoustic model. The calculation of variance, however, requires a large number of noise observations. This paper proposes a novel speech recognition method that continuously combines those two approaches using two weight coefficients, i.e., suppression coefficient and adaptation coefficient. A series of experiments on a speech recognition task under noisy conditions (Aurora2) shows that the proposed method is possible to achieves better performance than both conventional noise suppression and model adaptation do.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00071573/

  • 裁判員裁判向け音声認識システム (音声認識ソリューション・製品特集) 招待

    越仲 孝文, 江森 正, 大西 祥史

    NEC技報   63 ( 1 )   41 - 90   2010年2月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語   掲載種別:機関テクニカルレポート,技術報告書,プレプリント等   出版者・発行元:日本電気  

    CiNii Books

    researchmap

  • オンライン話者クラスタリング技術と議事録作成支援への応用 (音声認識ソリューション・製品特集) 招待

    越仲 孝文, 長友 健太郎

    NEC技報   63 ( 1 )   84 - 87   2010年2月

     詳細を見る

    担当区分:筆頭著者, 責任著者   記述言語:日本語   掲載種別:機関テクニカルレポート,技術報告書,プレプリント等   出版者・発行元:日本電気  

    CiNii Books

    researchmap

  • 法廷における音声認識システムの開発-音響モデル及び言語モデル-

    谷真宏, 北出祐, 江森正, 大西祥史, 越仲孝文, 佐藤研治

    日本音響学会研究発表会講演論文集(CD-ROM)   2010   2010年

     詳細を見る

  • 法廷における音声認識システムの開発-システム概要-

    越仲孝文, 江森正, 大西祥史, 北出祐, 谷真宏, 佐藤研治

    日本音響学会研究発表会講演論文集(CD-ROM)   2010   2010年

     詳細を見る

  • 法廷における音声認識システムの開発-オンライン話者適応の構成-

    大西祥史, 江森正, 谷真宏, 北出祐, 長友健太郎, 越仲孝文, 佐藤研治

    日本音響学会研究発表会講演論文集(CD-ROM)   2010   2010年

     詳細を見る

  • 法廷における音声認識システムの開発-閲覧性向上のための諸技術の開発-

    北出祐, 大西祥史, 江森正, 谷真宏, 越仲孝文, 佐藤研治

    日本音響学会研究発表会講演論文集(CD-ROM)   2010   2010年

     詳細を見る

  • 法廷における音声認識システムの開発-複数マイクロフォンを用いた音声検出-

    江森正, 辻川剛範, 大西祥史, 越仲孝文, 谷真宏, 北出祐, 佐藤研治

    日本音響学会研究発表会講演論文集(CD-ROM)   2010   2010年

     詳細を見る

  • 音声認識のための複数の認識器を利用した能動学習

    濱中悠三, 江森正, 越仲孝文, 越仲孝文, 篠田浩一, 古井貞煕

    電子情報通信学会技術研究報告   109 ( 355(NLC2009 12-32) )   19 - 23   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    J-GLOBAL

    researchmap

  • 音声認識のための複数の認識器を利用した能動学習

    濱中 悠三, 江森 正, 越仲 孝文, 篠田 浩一, 古井 貞熙

    音声言語情報処理(SLP)   2009 ( 4 )   1 - 5   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:情報処理学会  

    大語彙連続音声認識器の学習データに対する書き起こしコスト削減のための複数の認識器を利用した能動学習手法を提案する.この手法では複数の認識器から得られた複数の異なる認識結果文を用いて発話の選択を行う.認識結果文をアラインメントするためのプログレッシブ法と Voting Entropy を発話選択に用いている.提案手法を日本語話し言葉コーパスの 190 時間の音声データを使い評価し,能動学習を行わないランダムな発話選択より顕著に良い結果を得た.74% の単語正解精度を得るために必要な書き起こし付きデータ量はランダム選択では 97 時間,単語事後確率を用いた従来手法では 72 時間であるが,提案手法では 60 時間で済むという結果になった.We propose an active learning method with multiple recognizers for large vocabulary continuous speech recognition. In this approach, the recognition results obtained from recognizers are used for selecting utterances. Here, a progressive search method is used for aligning sentences, and voting entropy is used as a measure for selecting utterances. Our method was evaluated by using 190-hour speech data in the Corpus of Spontaneous Japanese. It proved to be significantly better than random selection. It only required 60 h of data to achieve a word accuracy of 74%, while standard training (i.e., random selection) required 97 h of data. The recognition accuracy of our proposed method was also better than that of the conventional uncertainty sampling method using word posterior probabilities as the confidence measures for selecting sentences.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00067046/

  • エルゴードHMMを用いたオンライン話者クラスタリングおよび議事録作成への応用

    越仲孝文, 長友健太郎, 寺西博人

    音声ドキュメント処理ワークショップ講演論文集   3rd ( 376(MVE2009 79-129) )   53 - 58   2009年

     詳細を見る

    記述言語:日本語   出版者・発行元:[豊橋技術科学大学メディア科学リサーチセンター]  

    CiNii Books

    J-GLOBAL

    researchmap

  • 音声認識のためのコミッティを用いた能動学習

    濱中悠三, 江森正, 越仲孝文, 越仲孝文, 篠田浩一, 古井貞熙

    日本音響学会研究発表会講演論文集(CD-ROM)   2009   2009年

     詳細を見る

  • エルゴードHMMのインクリメンタル学習によるオンライン話者クラスタリング

    越仲孝文, 長友健太郎, 佐藤研治

    日本音響学会研究発表会講演論文集(CD-ROM)   2008   2008年

     詳細を見る

  • 十分統計量を用いた教師なし話者適応における話者選択法

    谷真宏, 江森正, 大西祥史, 越仲孝文, 篠田浩一

    情報処理学会研究報告   2007 ( 129(SLP-69) )   85 - 89   2007年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が 0.74 ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.We propose a new speaker selection method for the unsupervised speaker adaptation based on HMM sufficient statistics. The adaptation technique of using HMM sufficient statistics has been proposed as one of the rapid unsupervised speaker adaptation techniques in speech recognition. The procedure is as follows: First the training speakers acoustically close to the test speaker are selected. Then, the acoustic model is trained using the HMM sufficient statistics of these selected training speakers. In this technique, the number of selected training speakers is always constant. In our proposed speaker selection method, the number of speakers is determined by the distances between the test speaker and each training speaker. In our recognition experiments using spoken dialogue data, the proposed method improved word accuracy by 0.74 points. It was confirmed that the proposed method particularly effective when there are not many training speakers around the test speaker in acoustic space.

    CiNii Books

    J-GLOBAL

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056768/

  • 十分統計量を用いた教師なし話者適応における話者選択法

    谷 真宏, 江森 正, 大西 祥史, 越仲 孝文, 篠田 浩一

    電子情報通信学会技術研究報告. SP, 音声   107 ( 406 )   85 - 89   2007年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    十分統計量を用いた教師なし話者適応において,選択する話者の数を決定する手法を提案する.音声認識における高速な教師なし話者適応の一つとして,話者毎の十分統計量を用いた手法が提案されている.これは,予め用意した複数の話者の中から,評価話者に音響的な特徴が近い話者を選択し,選択された話者の十分統計量を用いて,評価話者に適応した音響モデルを構築する手法である.従来手法では,評価話者に音響的な特徴が近い話者を選択する際,複数の話者の中から,予め定められた数だけ選択する.提案手法では,評価話者と予め用意した話者との音響特徴量空間における話者間距離を基準に,選択する話者の数を決定する.電話による対話音声を用いた認識実験において,従来手法に比較し,単語正解精度が0.74ポイント向上した.特に,音響的な特徴が近い話者が少ない評価話者に対して有効であることを確認した.

    CiNii Books

    researchmap

  • WEB文書を活用したニュース映像検索システム

    寺尾真, 越仲孝文, 安藤真一, 磯谷亮輔, 奥村明俊

    音声ドキュメント処理ワークショップ講演論文集   1st   2007年

     詳細を見る

  • 映像コンテンツと関連文書の連携によるシーン検索システム

    寺尾真, 越仲孝文, 安藤真一, 磯谷亮輔, 奥村明俊

    情報科学技術フォーラム   FIT 2006 ( 2 )   373 - 374   2006年8月

     詳細を見る

    記述言語:日本語   出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会  

    CiNii Books

    J-GLOBAL

    researchmap

  • 話し言葉における発話速度を隠れ変数にもつ継続時間長モデル

    越仲孝文

    日本音響学会研究発表会講演論文集   2005   2005年

     詳細を見る

  • HMMの変分ベイズ学習によるテキスト文書の話題分割法

    越仲 孝文, 磯 健一, 奥村 明俊

    情報処理学会研究報告音声言語情報処理(SLP)   2004 ( 57 )   49 - 54   2004年5月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    確率モデルに基づくテキスト分割法を提案する.left-to-right型の離散HMMをテキスト生成モデルと考え,テキスト分割をHMMのパラメータ推定問題として定式化する.パラメータ推定法として,最尤推定およびベイズ推定(変分ベイズ法)を用いて,日本語ニュース番組を各ニュース項目へ分割する評価実験を行い,最尤推定に比べてペイズ推定が精度よくテキストを分割できることを示す.さらに,従来法としてHearst法を取り上げ,従来法と比べた提案法の利点や課題を明らかにする.This paper presents a new text segmentation method based on stochastic modeling. When supposing a generative model of a text document to be a discrete left-to-right hidden Markov model (HMM), a transition between topics in the text document corresponds to a state transition in the HMM, and text segmentation can be formulated as model parameter estimation using the text document. Compared to the traditional maximum likelihood approach, advantage of the Bayes approach (Variational Bayes) is shown by some experiments, which evaluate segmentation accuracy in segmenting Japanese broadcast news programs into each news article. Comparison between the proposed method and a conventional method, well-known Hearst's method, is also presented in this paper. The comparison shows the proposed method to be encouraging.

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057136/

  • HMMの変分ベイズ学習によるテキスト文書の話題分割法

    越仲孝文, 磯健一, 奥村明俊

    電子情報通信学会技術研究報告   104 ( 87(SP2004 15-18) )   19 - 24   2004年5月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    確率モデルに基づくテキスト分割法を提案する.left-to-right型の離散HMMをテキスト生成モデルと考え,テキスト分割をHMMのパラメータ推定問題として定式化する.パラメータ推定法として,最尤推定およびベイズ推定(変分ベイズ法)を用いて,日本語ニュース番組を各ニュース項目へ分割する評価実験を行い,最尤推定に比べてベイズ推定が精度よくテキストを分割できることを示す,さらに,従来法としてHearst法を取り上げ,従来法と比べた提案法の利点や課題を明らかにする.

    CiNii Books

    J-GLOBAL

    researchmap

  • HMMの変分ベイズ学習によるテキストの話題分割法の検討

    越仲孝文, 磯健一

    日本音響学会研究発表会講演論文集   2004   2004年

     詳細を見る

  • 隣接文字間の変形の依存性を考慮した連続HMM手書き単語認識

    越仲孝文, 西脇大輔, 山田敬嗣

    電子情報通信学会技術研究報告   99 ( 649(PRMU99 231-245) )   2000年

     詳細を見る

  • 文字パタン間の依存性を考慮した文字列の学習と認識

    越仲孝文, 西脇大輔, 山田敬嗣

    電子情報通信学会大会講演論文集   1999   1999年

     詳細を見る

  • 傾き推定値の信頼性評価による適応的な文字列傾き補正

    越仲孝文, 西脇大輔, 山田敬嗣

    電子情報通信学会大会講演論文集   1997   1997年

     詳細を見る

  • 逆想起ニューラルネットを用いた手書きカナ認識実験

    越仲孝文, 西脇大輔, 山田敬嗣

    電子情報通信学会大会講演論文集   1996 ( Society D )   1996年

     詳細を見る

  • 特定漢数字および記号の切り出し認識法

    越仲孝文, 西脇大輔, 山田敬嗣

    電子情報通信学会大会講演論文集   1995 ( Sogo Pt 7 )   1995年

     詳細を見る

▼全件表示

講演・口頭発表等

  • 機械学習を用いた胸部X線画像左右反転防止システム開発の検討

    岡田圭伍, 越仲孝文, 平野高望, 本寺哲一, 安田光慶, 加藤京一

    第39回日本診療放射線技師学術大会  2023年10月 

     詳細を見る

    開催年月日: 2023年9月 - 2023年10月

    記述言語:日本語   会議種別:口頭発表(一般)  

    researchmap

  • NECシンガポール研究所と音声・音響解析への取組み 招待

    谷 真宏, 仙田 裕三, 近藤 玲史, 越仲 孝文

    情報処理学会音声言語処理研究会(SIG-SLP)  2015年10月 

     詳細を見る

    記述言語:日本語   会議種別:口頭発表(招待・特別)  

    researchmap

  • 音で耳を測る,新しい個人認証技術 招待

    越仲 孝文

    センシング技術応用研究会 第201回研究例会  2017年11月 

     詳細を見る

    記述言語:日本語   会議種別:口頭発表(招待・特別)  

    researchmap

  • インダストリーセッション 招待

    庄境 誠, 西村 雅史, 大淵 康成, 河村 聡典, 越仲 孝文

    情報処理学会音声言語情報処理研究会(SIG-SLP)  2014年3月 

     詳細を見る

    記述言語:日本語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    researchmap

  • 話者認識技術の現状と課題 招待

    小川 哲司, 長内 隆, 黒岩 眞吾, 越仲 孝文, 篠田 浩一, 西田 昌史

    電子情報通信学会音声研究会(SP)  2013年3月 

     詳細を見る

    記述言語:日本語   会議種別:シンポジウム・ワークショップ パネル(指名)  

    researchmap

  • 音で耳を測る,新しい個人認証技術 招待

    越仲 孝文, 矢野 昌平

    第6回バイオメトリクスと認識・認証シンポジウム (SBRA2016)  2016年11月 

     詳細を見る

    記述言語:日本語   会議種別:口頭発表(招待・特別)  

    researchmap

▼全件表示

受賞

  • 学術奨励賞

    2000年3月   電子情報通信学会  

     詳細を見る

共同研究・競争的資金等の研究課題

  • 音声に内在する個人性の言語的側面に関する研究

    研究課題/領域番号:21K11967  2021年4月 - 2024年3月

    日本学術振興会  科学研究費助成事業  基盤研究(C)

    越仲 孝文

      詳細を見る

    配分額:4160000円 ( 直接経費:3200000円 、 間接経費:960000円 )

    本研究では、音声に含まれる個人性のうち、これまであまり研究されてこなかった言語的な個人性、すなわちテキスト情報に現れる書き手の特徴について明らかにする。研究成果は、音声通話やネット投稿のなりすましのような犯罪の防止などに有用である。
    初年度は、テキストからその筆者を予測する文書分類問題を想定し、ベースラインシステムの構築に注力した。すなわち、テキストから特徴量を抽出する処理、および特徴量を所定の筆者クラスに分類する処理を実行するプログラムを作成した。前者は、基本単位であるトークンの出現頻度に基づくTF-IDF特徴量を抽出する。後者はロジスティック回帰や多層パーセプトロン(MLP)に基づく分類器である。また、特徴抽出と分類を統合した、深層ニューラルネットワークによるend-to-endシステムも構築した。こちらは長短期記憶(LSTM)機構を備える双方向リカレントニューラルネット(bidirectional RNN)および注意機構を備えるTransformerなどのモデルを含む。End-to-endシステムでは、ニューラルネットの隠れ層から入力テキストの分散表現(埋め込みベクトル)を得ることも可能である。
    公開データセットである「青空文庫」から作品数の多い著名筆者10人を選び、日本語作品の段落単位での分類実験を実施した。段落総数は約33,000である。深層ニューラルネットに基づくシステムの分類精度が65%で最も高く、TF-IDF特徴量を用いる従来型システムの52%を大きく上回った。関連する研究成果を人工知能学会全国大会(JSAI2022)で発表予定。
    実験の効率化のために、NVIDIA RTX A6000搭載のGPUサーバ1台を購入した。また、将来の国際会議や雑誌での論文発表に備えてLanguage Data Consortium (LDC)の音声言語データを入手した。

    researchmap

  • ベイズ統計に基づく話者の異同識別鑑定における尤度比尺度の改良

    研究課題/領域番号:21510185  2009年 - 2012年

    日本学術振興会  科学研究費助成事業  基盤研究(C)

    長内 隆, 鎌田 敏明, 蒔苗 久則, 網野 加苗, 木下 裕子, 石原 俊一, 篠田 浩一, 黒岩 眞吾, 柘植 覚, 松井 知子, 西田 昌史, 小川 哲司, 越仲 孝文, 王 龍標

      詳細を見る

    配分額:4290000円 ( 直接経費:3300000円 、 間接経費:990000円 )

    法科学分野においては、裁判官らによる適切な判断を助けるために、被疑者が犯人である可能性の程度を示すことが重要である。この可能性を示すために、ベイズ統計に基づく尤度比が広く利用されている。近年、この尤度比を話者の異同識別鑑定に利用する研究が行われている。しかし、従来法では、与えられた音声資料の一部しか利用できない。本研究では、与えられた音声資料を有効に利用できる尤度比尺度を提案し、その有効性を確認した。

    researchmap

担当経験のある科目(授業)

  • データマイニング

    2021年4月 - 現在 機関名:横浜市立大学

     詳細を見る

  • 音声認識

    2020年12月 機関名:拓殖大学

     詳細を見る

  • 統計と確率

    2020年9月 - 現在 機関名:横浜市立大学

     詳細を見る

  • 自然言語処理特論

    2020年9月 - 現在 機関名:横浜市立大学

     詳細を見る

  • 音声情報処理

    2019年12月 - 現在 機関名:法政大学

     詳細を見る

  • 人工知能特論

    2019年11月 - 2020年11月 機関名:京都大学

     詳細を見る

  • データサイエンス特論

    2017年11月 - 2020年11月 機関名:神戸大学

     詳細を見る

▼全件表示

学術貢献活動

  • International Joint Conference on Neural Networks (IJCNN)

    役割:査読

    IEEE  2025年3月 - 現在

     詳細を見る

  • ACM Transactions on Multimedia Computing Communications and Applications

    役割:査読

    Association for Computing Machinery (ACM)  2023年5月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • IEEE BigData2022 Local Arrangement Co-chair

    役割:企画立案・運営等

    IEEE Computer Society  2022年12月

     詳細を見る

    種別:学会・研究会等 

    researchmap

  • ICASSP 2022 Session Chair

    役割:パネル司会・セッションチェア等

    IEEE Signal Processing Society  2022年5月

     詳細を見る

    種別:学会・研究会等 

    researchmap

  • APSIPA ASC 2021 Sponsorship Co-chair

    役割:企画立案・運営等

    Asia-Pacific Signal and Information Processing Association (APSIPA)  2021年12月

     詳細を見る

    種別:学会・研究会等 

    researchmap

  • ICASSP 2021 Session Chair

    役割:パネル司会・セッションチェア等

    IEEE Signal Processing Society  2021年6月

     詳細を見る

    種別:学会・研究会等 

    researchmap

  • ICASSP 2020 Session Chair

    役割:パネル司会・セッションチェア等

    IEEE Signal Processing Society  2020年5月

     詳細を見る

    種別:学会・研究会等 

    researchmap

  • Computer Speech and Language

    役割:査読

    International Speech Communication Association (ISCA)  2019年5月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • Signal Processing Letters

    役割:査読

    IEEE Signal Processing Society  2019年4月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • Automatic Speech Recognition and Understanding Workshop (ASRU)

    役割:査読

    IEEE Signal Processing Society  2017年6月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • Spoken Language Technology Workshop (SLT)

    役割:査読

    IEEE Signal Processing Society  2016年6月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • 情報処理学会論文誌査読委員

    役割:査読

    情報処理学会  2016年5月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • International Conference on Audio, Speech, and Signal Processing (ICASSP)

    役割:査読

    IEEE Signal Processing Society  2015年9月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)

    役割:査読

    Asia-Pacific Signal and Information Processing Association (APSIPA)  2015年7月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • 電子情報通信学会 英文論文誌D (IEICE Trans. on Inf. & Syst.)

    役割:査読

    電子情報通信学会  2014年6月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • Speech Communication

    役割:査読

    International Speech Communication Association (ISCA)  2013年4月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

  • The Annual Conference of the International Speech Communication Association (INTERSPEECH)

    役割:査読

    International Speech Communication Association (ISCA)  2010年5月 - 現在

     詳細を見る

    種別:査読等 

    researchmap

▼全件表示